实验报告:Python电影观众数量回归分析随机森林可视化-数据挖掘文档类资源-CSDN文库
- 前言
随着经济的发展和人民日益增长的美好生活需要的显著提升,看电影成为了人民群众在闲暇时光娱乐的重要途径。面对百花齐放的电影产业,哪些电影更能带动市场消费成为了电影行业分析从业人员的一大难题。近些年来,计算机运算水平的提高促进了大数据和机器学习相关技术的发展,在各行各业具有广泛应用。对于电影产业分析人员来说,相较于传统的纸笔计算器计算,使用数据分析和机器学习的技术可以更好地对电影数据进行分析,从而快速掌握行业动态,做出适当的决策。
本文探讨了某个国家或地区电影上座人数与电影的时长、荧幕数量、分级、题材、演员和导演等指标的关系,使用Python编程语言,利用随机森林回归预测的方法分析了影响电影卖座程度的因素,预测效果较好,拟合较为准确。
开发环境和主要技术
- 操作系统:Windows 10
- IDE:PyCharm Jupyter Notebook
- 编程语言:Python
- 主要调用库:NumPy、Pandas、Sklearn、Matplotlib
- 数据预处理
- 去除异常值
进行分析前,首先需要对获得的数据进行异常值处理。如果不去除数据中可能存在的异常数据,会对后续的预测造成不良的影响。
本项目对给定的3288行数据去除其中的异常值和空值。完成这一步操作后,数据剩余3266行,说明这一操作是有意义的。
-
- 标准化
在回归计算中,为了提升模型的收敛速度,加快迭代速度,减少寻找最优解的时间,提升模型的精度,常使用标准化的方法将每一列特征转化为均值为0、方差为1的较小数字。由于所有列均为数值型特征,这里对特征值和最后一列人数目标值数据进行了统一的标准化操作。
- 回归计算
- 分割数据集
本项目将标准化后的数据按照80%:20%的比例划分为训练集和测试集,以便后期输出拟合图和模型指标评价。
随机森林
本项目的预测值为数值型数据,因此采用回归模型进行训练。随机森林由多棵决策树构成,且森林中的每一棵决策树之间没有关联,模型的最终输出由森林中的每一棵决策树共同决定。处理分类问题时,对于测试样本,森林中每棵决策树会给出最终类别,最后综合考虑森林内每一棵决策树的输出类别,以
投票方式来决定测试样本的类别;处理回归问题时,则以每棵决策树输出的均值为最终结果。
使用sklearn提供的随机森林回归器,对给定的数据进行机器学习,获取相关的特征,并对测试集进行预测。
- 模型评价
本文采用均方误差的方法对模型进行评价。均方误差(mean squared error)是预测数据和原始数据对应点误差的平方和的均值。公式为:
其中,n为样本的数量。
在用随机森林训练的模型对测试集预测后,计算出均方误差为0.43,符合预期。测试集的拟合图形如下图所示:
综上所述,使用随机森林回归模型预测电影上座人数结果较为准确,不失为一种可以采纳的回归算法,对电影产业分析人员具有较好的参考价值。