Python电影市场特征：AR模型时间序列趋势预测、热图可视化评分影响分析IMDb数据|附数据代码

原文链接：https://tecdat.cn/?p=41214

分析师：Zhiheng Lin

在数字时代，电影产业的数据分析已成为洞察市场趋势与用户偏好的重要工具。本专题合集聚焦印度电影市场，通过IMDb数据集（IMDb Movies Dataset）的深入分析，揭示其发展脉络与潜在规律（点击文末“阅读原文”获取完整代码、数据、文档）。

视频

专题从数据科学家视角出发，结合Python数据分析工具（如Pandas、Seaborn、PyEcharts）与统计模型（如AR自相关分析），系统探讨印度电影的类型分布、评分影响因素及市场趋势。研究发现，印度电影市场呈现剧情片主导、演员资源集中化等特征，并创新性地提出基于时间序列模型的市场预测方法。本专题合集已分享在交流社群，阅读原文进群和500+行业人士共同交流和成长。

分析基本思路展示：

一、研究背景与数据来源

1.1 印度电影市场的崛起

近年来，印度电影以《少年派的奇幻漂流》等作品为代表，逐渐打破欧美电影垄断格局。与成熟的欧美、国产电影分析相比，印度电影市场的研究仍存在空白。本研究通过IMDb数据集（包含5,659部电影的10项属性），探索其类型偏好、评分机制及市场演变规律。

1.2 数据选择与预处理

# 核心库导入
import pandas as pd
import seaborn as sns

# 数据载入
data\_train = pd.read\_csv('movies_data.csv')
print('样本规模:',data_train.shape)

# 异常值处理
data\_clean = data\_train\[(data\_train\['Duration'\]<250) & (data\_train\['Votes'\]<10000)\].copy()

数据包含电影名称、年份、时长、类型、评分、参评人数、导演及演员信息。预处理步骤包括：

填充缺失值（fillna(-1)）
删除异常值（时长>250分钟或参评人数>10,000）

二、基础属性可视化分析

2.1 电影时长与年份分布

通过核密度图发现，印度电影时长集中于110-150分钟（图1），符合大众观影习惯。年份分布显示，2000年后电影产量显著增长（图2），2015年后占比超30%，反映印度电影产业的现代化进程。

plt.subplot(2,2,4)
# 为显示清晰，把显示参评人数大于等于2000的部分
votes\_data = train\_data.drop(train\_data\[(train\_data\['Votes'\] > 2000)\].index)
sns.distplot(votes_data\['Votes'\], color="#31BEFA")
plt.title('电影的参评人数分布')
plt.xlabel('参评人数')

图1 电影时长分布

colors = \[plt.cm.Spectral(i/float(len(labels\_2))) for i in range(len(labels\_2))\]
plt.figure(figsize=(12,8), dpi= 80)
squarify.plot(sizes=sizes\_2, label=labels\_2, color=colors, alpha=.8)
plt.title('电影年份树状图')
plt.axis('off')

图2 年份与产量趋势

点击标题查阅往期内容

R语言电影数据分析：随机森林探索电影受欢迎程度因素、参数调优可视化

左右滑动查看更多

2.2 类型偏好与市场热度

类型分析表明，剧情片（Drama）占比最高（3,796部），其次为爱情片（Romance）与动作片（Action）。词云图进一步验证剧情片的主导地位（图3）。参评人数分布显示，超60%电影的参评人数低于100，表明多数影片知名度有限。
图3 类型词云图

三、市场趋势与关键影响因素

3.1 时间序列分析

基于AR(2)模型发现，电影产量与年份呈显著正相关（图4），预测未来仍将保持增长。不同类型的时间演变显示，剧情片始终占据主导，爱情片在2000年前更受欢迎，动作片则在1980-2000年间达到高峰（图5）。
图4 年份与产量自相关分析

图5 类型随年份变化趋势

3.2 评分与热度的驱动因素

热图分析显示，评分（Rating）与参评人数（Votes）呈正相关（r=0.32），而年份与评分呈负相关（r=-0.18）。散点图进一步验证，参评人数越多的电影评分越高（图6），表明口碑对热度具有正向反馈。
图6 评分与参评人数关系

四、创新视角：近五年市场动态

4.1 热门类型与创作团队

近五年数据显示，体育片（Sport）与传记片（Biography）热度上升，参评人数均值超1,500（图7）。导演Shashank Khaitan与演员Dilip Mestry成为新兴代表，其作品参评人数显著高于行业平均（图8-9）。
图7 近五年热门类型

图8 近五年热门导演

图9 近五年热门演员

4.2 时长与评分的非线性关系

研究发现，时长在120-150分钟的电影评分最高（均值6.8），过长或过短均可能降低观影体验。这一结论为电影创作提供了量化参考。

五、结论与建议

本研究揭示了印度电影市场的三大特征：

类型集中化：剧情片主导，但体育、传记等新兴类型潜力显著。
资源垄断性：头部导演与演员占据超50%市场份额。
口碑驱动性：高评分电影更易获得热度，形成良性循环。
建议：

导演可尝试结合剧情与体育元素，开拓细分市场。
投资者应关注时长控制（120-150分钟）与演员选择（如Dilip Mestry等新兴明星）。
未来研究可引入自然语言处理（NLP）分析电影评论情感，深化用户画像。
参考文献
[1] Persson K. Predicting movie ratings: A comparative study on random forests and support vector machines. 2015.
[2] 简悦等. 基于Python的豆瓣电影数据爬取与分析. 电脑知识与技术, 2020.
[3] 程纯. 电影评分影响因素的特征工程分析. 现代电影技术, 2020.