原文链接:https://tecdat.cn/?p=41214
分析师:Zhiheng Lin
在数字时代,电影产业的数据分析已成为洞察市场趋势与用户偏好的重要工具。本专题合集聚焦印度电影市场,通过IMDb数据集(IMDb Movies Dataset)的深入分析,揭示其发展脉络与潜在规律(点击文末“阅读原文”获取完整代码、数据、文档)。
视频
专题从数据科学家视角出发,结合Python数据分析工具(如Pandas、Seaborn、PyEcharts)与统计模型(如AR自相关分析),系统探讨印度电影的类型分布、评分影响因素及市场趋势。研究发现,印度电影市场呈现剧情片主导、演员资源集中化等特征,并创新性地提出基于时间序列模型的市场预测方法。本专题合集已分享在交流社群,阅读原文进群和500+行业人士共同交流和成长。
分析基本思路展示:
一、研究背景与数据来源
1.1 印度电影市场的崛起
近年来,印度电影以《少年派的奇幻漂流》等作品为代表,逐渐打破欧美电影垄断格局。与成熟的欧美、国产电影分析相比,印度电影市场的研究仍存在空白。本研究通过IMDb数据集(包含5,659部电影的10项属性),探索其类型偏好、评分机制及市场演变规律。
1.2 数据选择与预处理
# 核心库导入
import pandas as pd
import seaborn as sns
# 数据载入
data\_train = pd.read\_csv('movies_data.csv')
print('样本规模:',data_train.shape)
# 异常值处理
data\_clean = data\_train\[(data\_train\['Duration'\]<250) & (data\_train\['Votes'\]<10000)\].copy()
数据包含电影名称、年份、时长、类型、评分、参评人数、导演及演员信息。预处理步骤包括:
填充缺失值(
fillna(-1)
)删除异常值(时长>250分钟或参评人数>10,000)
二、基础属性可视化分析
2.1 电影时长与年份分布
通过核密度图发现,印度电影时长集中于110-150分钟(图1),符合大众观影习惯。年份分布显示,2000年后电影产量显著增长(图2),2015年后占比超30%,反映印度电影产业的现代化进程。
plt.subplot(2,2,4)
# 为显示清晰,把显示参评人数大于等于2000的部分
votes\_data = train\_data.drop(train\_data\[(train\_data\['Votes'\] > 2000)\].index)
sns.distplot(votes_data\['Votes'\], color="#31BEFA")
plt.title('电影的参评人数分布')
plt.xlabel('参评人数')
图1 电影时长分布
colors = \[plt.cm.Spectral(i/float(len(labels\_2))) for i in range(len(labels\_2))\]
plt.figure(figsize=(12,8), dpi= 80)
squarify.plot(sizes=sizes\_2, label=labels\_2, color=colors, alpha=.8)
plt.title('电影年份树状图')
plt.axis('off')
图2 年份与产量趋势
点击标题查阅往期内容
R语言电影数据分析:随机森林探索电影受欢迎程度因素、参数调优可视化
左右滑动查看更多
01
02
03
04
2.2 类型偏好与市场热度
类型分析表明,剧情片(Drama)占比最高(3,796部),其次为爱情片(Romance)与动作片(Action)。词云图进一步验证剧情片的主导地位(图3)。参评人数分布显示,超60%电影的参评人数低于100,表明多数影片知名度有限。
图3 类型词云图
三、市场趋势与关键影响因素
3.1 时间序列分析
基于AR(2)模型发现,电影产量与年份呈显著正相关(图4),预测未来仍将保持增长。不同类型的时间演变显示,剧情片始终占据主导,爱情片在2000年前更受欢迎,动作片则在1980-2000年间达到高峰(图5)。
图4 年份与产量自相关分析
图5 类型随年份变化趋势
3.2 评分与热度的驱动因素
热图分析显示,评分(Rating)与参评人数(Votes)呈正相关(r=0.32),而年份与评分呈负相关(r=-0.18)。散点图进一步验证,参评人数越多的电影评分越高(图6),表明口碑对热度具有正向反馈。
图6 评分与参评人数关系
四、创新视角:近五年市场动态
4.1 热门类型与创作团队
近五年数据显示,体育片(Sport)与传记片(Biography)热度上升,参评人数均值超1,500(图7)。导演Shashank Khaitan与演员Dilip Mestry成为新兴代表,其作品参评人数显著高于行业平均(图8-9)。
图7 近五年热门类型
图8 近五年热门导演
图9 近五年热门演员
4.2 时长与评分的非线性关系
研究发现,时长在120-150分钟的电影评分最高(均值6.8),过长或过短均可能降低观影体验。这一结论为电影创作提供了量化参考。
五、结论与建议
本研究揭示了印度电影市场的三大特征:
类型集中化:剧情片主导,但体育、传记等新兴类型潜力显著。
资源垄断性:头部导演与演员占据超50%市场份额。
口碑驱动性:高评分电影更易获得热度,形成良性循环。
建议:
导演可尝试结合剧情与体育元素,开拓细分市场。
投资者应关注时长控制(120-150分钟)与演员选择(如Dilip Mestry等新兴明星)。
未来研究可引入自然语言处理(NLP)分析电影评论情感,深化用户画像。
参考文献
[1] Persson K. Predicting movie ratings: A comparative study on random forests and support vector machines. 2015.
[2] 简悦等. 基于Python的豆瓣电影数据爬取与分析. 电脑知识与技术, 2020.
[3] 程纯. 电影评分影响因素的特征工程分析. 现代电影技术, 2020.
关于分析师
在此对 Zhiheng Lin 对本文所作的贡献表示诚挚感谢,他在数据科学与大数据技术专业完成了学士学位,专注数据科学领域。擅长 Python、R 语言、数据采集、数据分析。
本文中分析的完整数据、代码、文档分享到会员群,扫描下面二维码即可加群!
资料获取
在公众号后台回复“领资料”,可免费获取数据分析、机器学习、深度学习等学习资料。
点击文末“阅读原文”
获取完整代码、数据、文档。
本文选自《Python电影市场特征:AR模型时间序列趋势预测、热图可视化评分影响分析IMDb数据|附数据代码》。
点击标题查阅往期内容
数据分享|R语言逐步回归模型对电影票房、放映场数、观影人数预测可视化
R语言用Rshiny探索lme4广义线性混合模型(GLMM)和线性混合模型(LMM)
R语言用潜类别混合效应模型(Latent Class Mixed Model ,LCMM)分析老年痴呆年龄数据
R语言贝叶斯广义线性混合(多层次/水平/嵌套)模型GLMM、逻辑回归分析教育留级影响因素数据
R语言估计多元标记的潜过程混合效应模型(lcmm)分析心理测试的认知过程
R语言因子实验设计nlme拟合非线性混合模型分析有机农业施氮水平
R语言非线性混合效应 NLME模型(固定效应&随机效应)对抗哮喘药物茶碱动力学研究
R语言用线性混合效应(多水平/层次/嵌套)模型分析声调高低与礼貌态度的关系
R语言LME4混合效应模型研究教师的受欢迎程度
R语言nlme、nlmer、lme4用(非)线性混合模型non-linear mixed model分析藻类数据实例
R语言混合线性模型、多层次模型、回归模型分析学生平均成绩GPA和可视化
R语言线性混合效应模型(固定效应&随机效应)和交互可视化3案例
R语言用lme4多层次(混合效应)广义线性模型(GLM),逻辑回归分析教育留级调查数据
R语言 线性混合效应模型实战案例
R语言混合效应逻辑回归(mixed effects logistic)模型分析肺癌数据
R语言如何用潜类别混合效应模型(LCMM)分析抑郁症状
R语言基于copula的贝叶斯分层混合模型的诊断准确性研究
R语言建立和可视化混合效应模型mixed effect model
R语言LME4混合效应模型研究教师的受欢迎程度
R语言 线性混合效应模型实战案例
R语言用Rshiny探索lme4广义线性混合模型(GLMM)和线性混合模型(LMM)
R语言基于copula的贝叶斯分层混合模型的诊断准确性研究
R语言如何解决线性混合模型中畸形拟合(Singular fit)的问题
基于R语言的lmer混合线性回归模型
R语言用WinBUGS 软件对学术能力测验建立层次(分层)贝叶斯模型
R语言分层线性模型案例
R语言用WinBUGS 软件对学术能力测验(SAT)建立分层模型
使用SAS,Stata,HLM,R,SPSS和Mplus的分层线性模型HLM
R语言用WinBUGS 软件对学术能力测验建立层次(分层)贝叶斯模型
SPSS中的多层(等级)线性模型Multilevel linear models研究整容手术数据
用SPSS估计HLM多层(层次)线性模型模型