Python电影市场特征:AR模型时间序列趋势预测、热图可视化评分影响分析IMDb数据|附数据代码

news2025/3/31 3:56:27

原文链接:https://tecdat.cn/?p=41214

分析师:Zhiheng Lin

在数字时代,电影产业的数据分析已成为洞察市场趋势与用户偏好的重要工具。本专题合集聚焦印度电影市场,通过IMDb数据集(IMDb Movies Dataset)的深入分析,揭示其发展脉络与潜在规律点击文末“阅读原文”获取完整代码、数据、文档)。

视频

专题从数据科学家视角出发,结合Python数据分析工具(如Pandas、Seaborn、PyEcharts)与统计模型(如AR自相关分析),系统探讨印度电影的类型分布、评分影响因素及市场趋势。研究发现,印度电影市场呈现剧情片主导、演员资源集中化等特征,并创新性地提出基于时间序列模型的市场预测方法。本专题合集已分享在交流社群,阅读原文进群和500+行业人士共同交流和成长。

分析基本思路展示:

一、研究背景与数据来源

1.1 印度电影市场的崛起

近年来,印度电影以《少年派的奇幻漂流》等作品为代表,逐渐打破欧美电影垄断格局。与成熟的欧美、国产电影分析相比,印度电影市场的研究仍存在空白。本研究通过IMDb数据集(包含5,659部电影的10项属性),探索其类型偏好、评分机制及市场演变规律。

1.2 数据选择与预处理
# 核心库导入
import pandas as pd
import seaborn as sns

# 数据载入
data\_train = pd.read\_csv('movies_data.csv')
print('样本规模:',data_train.shape)

# 异常值处理
data\_clean = data\_train\[(data\_train\['Duration'\]<250) & (data\_train\['Votes'\]<10000)\].copy()

数据包含电影名称、年份、时长、类型、评分、参评人数、导演及演员信息。预处理步骤包括:

  • 填充缺失值(fillna(-1)

  • 删除异常值(时长>250分钟或参评人数>10,000)

二、基础属性可视化分析

2.1 电影时长与年份分布

通过核密度图发现,印度电影时长集中于110-150分钟(图1),符合大众观影习惯。年份分布显示,2000年后电影产量显著增长(图2),2015年后占比超30%,反映印度电影产业的现代化进程。

plt.subplot(2,2,4)
# 为显示清晰,把显示参评人数大于等于2000的部分
votes\_data = train\_data.drop(train\_data\[(train\_data\['Votes'\] > 2000)\].index)
sns.distplot(votes_data\['Votes'\], color="#31BEFA")
plt.title('电影的参评人数分布')
plt.xlabel('参评人数')

图1 电影时长分布

colors = \[plt.cm.Spectral(i/float(len(labels\_2))) for i in range(len(labels\_2))\]
plt.figure(figsize=(12,8), dpi= 80)
squarify.plot(sizes=sizes\_2, label=labels\_2, color=colors, alpha=.8)
plt.title('电影年份树状图')
plt.axis('off')

图2 年份与产量趋势


点击标题查阅往期内容

图片

R语言电影数据分析:随机森林探索电影受欢迎程度因素、参数调优可视化

左右滑动查看更多

01

图片

02

图片

03

图片

04

图片

2.2 类型偏好与市场热度

类型分析表明,剧情片(Drama)占比最高(3,796部),其次为爱情片(Romance)与动作片(Action)。词云图进一步验证剧情片的主导地位(图3)。参评人数分布显示,超60%电影的参评人数低于100,表明多数影片知名度有限。
图3 类型词云图

三、市场趋势与关键影响因素

3.1 时间序列分析

基于AR(2)模型发现,电影产量与年份呈显著正相关(图4),预测未来仍将保持增长。不同类型的时间演变显示,剧情片始终占据主导,爱情片在2000年前更受欢迎,动作片则在1980-2000年间达到高峰(图5)。
图4 年份与产量自相关分析

图5 类型随年份变化趋势

3.2 评分与热度的驱动因素

热图分析显示,评分(Rating)与参评人数(Votes)呈正相关(r=0.32),而年份与评分呈负相关(r=-0.18)。散点图进一步验证,参评人数越多的电影评分越高(图6),表明口碑对热度具有正向反馈。
图6 评分与参评人数关系

四、创新视角:近五年市场动态

4.1 热门类型与创作团队

近五年数据显示,体育片(Sport)与传记片(Biography)热度上升,参评人数均值超1,500(图7)。导演Shashank Khaitan与演员Dilip Mestry成为新兴代表,其作品参评人数显著高于行业平均(图8-9)。
图7 近五年热门类型

图8 近五年热门导演

图9 近五年热门演员

4.2 时长与评分的非线性关系

研究发现,时长在120-150分钟的电影评分最高(均值6.8),过长或过短均可能降低观影体验。这一结论为电影创作提供了量化参考。

五、结论与建议

本研究揭示了印度电影市场的三大特征:

  • 类型集中化:剧情片主导,但体育、传记等新兴类型潜力显著。

  • 资源垄断性:头部导演与演员占据超50%市场份额。

  • 口碑驱动性:高评分电影更易获得热度,形成良性循环。
    建议:

  • 导演可尝试结合剧情与体育元素,开拓细分市场。

  • 投资者应关注时长控制(120-150分钟)与演员选择(如Dilip Mestry等新兴明星)。

  • 未来研究可引入自然语言处理(NLP)分析电影评论情感,深化用户画像。
    参考文献
    [1] Persson K. Predicting movie ratings: A comparative study on random forests and support vector machines. 2015.
    [2] 简悦等. 基于Python的豆瓣电影数据爬取与分析. 电脑知识与技术, 2020.
    [3] 程纯. 电影评分影响因素的特征工程分析. 现代电影技术, 2020.

关于分析师

 

在此对 Zhiheng Lin 对本文所作的贡献表示诚挚感谢,他在数据科学与大数据技术专业完成了学士学位,专注数据科学领域。擅长 Python、R 语言、数据采集、数据分析。

本文中分析的完整数据、代码、文档分享到会员群,扫描下面二维码即可加群! 


资料获取

在公众号后台回复“领资料”,可免费获取数据分析、机器学习、深度学习等学习资料。

点击文末“阅读原文”

获取完整代码、数据、文档。

本文选自《Python电影市场特征:AR模型时间序列趋势预测、热图可视化评分影响分析IMDb数据|附数据代码》。

点击标题查阅往期内容

数据分享|R语言逐步回归模型对电影票房、放映场数、观影人数预测可视化

R语言用Rshiny探索lme4广义线性混合模型(GLMM)和线性混合模型(LMM)

R语言用潜类别混合效应模型(Latent Class Mixed Model ,LCMM)分析老年痴呆年龄数据

R语言贝叶斯广义线性混合(多层次/水平/嵌套)模型GLMM、逻辑回归分析教育留级影响因素数据

R语言估计多元标记的潜过程混合效应模型(lcmm)分析心理测试的认知过程

R语言因子实验设计nlme拟合非线性混合模型分析有机农业施氮水平

R语言非线性混合效应 NLME模型(固定效应&随机效应)对抗哮喘药物茶碱动力学研究

R语言用线性混合效应(多水平/层次/嵌套)模型分析声调高低与礼貌态度的关系

R语言LME4混合效应模型研究教师的受欢迎程度

R语言nlme、nlmer、lme4用(非)线性混合模型non-linear mixed model分析藻类数据实例

R语言混合线性模型、多层次模型、回归模型分析学生平均成绩GPA和可视化

R语言线性混合效应模型(固定效应&随机效应)和交互可视化3案例

R语言用lme4多层次(混合效应)广义线性模型(GLM),逻辑回归分析教育留级调查数据

R语言 线性混合效应模型实战案例

R语言混合效应逻辑回归(mixed effects logistic)模型分析肺癌数据

R语言如何用潜类别混合效应模型(LCMM)分析抑郁症状

R语言基于copula的贝叶斯分层混合模型的诊断准确性研究

R语言建立和可视化混合效应模型mixed effect model

R语言LME4混合效应模型研究教师的受欢迎程度

R语言 线性混合效应模型实战案例

R语言用Rshiny探索lme4广义线性混合模型(GLMM)和线性混合模型(LMM)

R语言基于copula的贝叶斯分层混合模型的诊断准确性研究

R语言如何解决线性混合模型中畸形拟合(Singular fit)的问题

基于R语言的lmer混合线性回归模型

R语言用WinBUGS 软件对学术能力测验建立层次(分层)贝叶斯模型

R语言分层线性模型案例

R语言用WinBUGS 软件对学术能力测验(SAT)建立分层模型

使用SAS,Stata,HLM,R,SPSS和Mplus的分层线性模型HLM

R语言用WinBUGS 软件对学术能力测验建立层次(分层)贝叶斯模型

SPSS中的多层(等级)线性模型Multilevel linear models研究整容手术数据

用SPSS估计HLM多层(层次)线性模型模型 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2323026.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

扭蛋机小程序开发,潮玩娱乐消费风口下的机遇

随着Z世代消费能力的提升和盲盒经济的火爆&#xff0c;扭蛋文化正迎来爆发式增长。 扭蛋机作为一种充满惊喜感的消费模式&#xff0c;正从线下走向线上&#xff0c;并借助移动互联网实现了数字化转型。线上扭蛋机小程序不仅延续了传统扭蛋的趣味性&#xff0c;还通过数字化手段…

各类神经网络学习:(五)LSTM 长短期记忆(上集),结构详解

上一篇下一篇RNN&#xff08;下集&#xff09;待编写 LSTM&#xff08;长短期记忆&#xff09; 参考知乎文章《人人都能看懂的LSTM介绍及反向传播算法推导&#xff08;非常详细&#xff09; - 知乎》&#xff0c;部分图片也进行了引用。 参考视频教程《3.结合例子理解LSTM_哔哩…

计算机网络-2 物理层

【考纲内容】 &#xff08;一&#xff09;通信基础 信道、信号、带宽、码元、波特、速率、信源与信宿等基本概念&#xff1b; 奈奎斯特定理与香农定理&#xff1b;编码与调制&#xff1b; 电路交换、报文交换与分组交换&#xff1b;数据报与虚电路① 视频讲解 &#xff08;二…

Redis集群哨兵相关面试题

目录 1.Redis 主从复制的实现原理是什么? 详解 补充增量同步 replication buffer repl backlog buffer 2.Redis 主从复制的常见拓扑结构有哪些? 3.Redis 复制延迟的常见原因有哪些? 4.Redis 的哨兵机制是什么? 主观下线和客观下线 哨兵leader如何选出来的&#x…

Shopify Checkout UI Extensions

结账界面的UI扩展允许应用开发者构建自定义功能&#xff0c;商家可以在结账流程的定义点安装&#xff0c;包括产品信息、运输、支付、订单摘要和Shop Pay。 Shopify官方在去年2024年使用结账扩展取代了checkout.liquid&#xff0c;并将于2025年8月28日彻底停用checkout.liquid…

MOSN(Modular Open Smart Network)-04-TLS 安全链路

前言 大家好&#xff0c;我是老马。 sofastack 其实出来很久了&#xff0c;第一次应该是在 2022 年左右开始关注&#xff0c;但是一直没有深入研究。 最近想学习一下 SOFA 对于生态的设计和思考。 sofaboot 系列 SOFAStack-00-sofa 技术栈概览 MOSN&#xff08;Modular O…

Softmax 回归 + 损失函数 + 图片分类数据集

Softmax 回归 softmax 回归是机器学习另外一个非常经典且重要的模型&#xff0c;是一个分类问题。 下面先解释一下分类和回归的区别&#xff1a; 简单来说&#xff0c;分类问题从回归的单输出变成了多输出&#xff0c;输出的个数等于类别的个数。 实际上&#xff0c;对于分…

【C++】内存模型分析

在 C 语言中&#xff0c;程序运行时的内存通常被划分为以下几个区域&#xff1a; 代码区&#xff08;Text Segment&#xff09;常量区&#xff08;Constant Segment&#xff09;全局/静态区&#xff08;Data Segment&#xff0c;包含静态数据段和 BSS 段&#xff09;堆区&…

Vue2+OpenLayers携带请求头加载第三方瓦片数据

目录 一、案例截图 二、安装OpenLayers库 三、代码实现 一、案例截图 在对接一些第三方GIS地图的时候,需要携带请求头来验证身份,从而获取相应的瓦片数据,这时候我们需要改造一下WMTS服务的调用方式,效果如图所示: 二、安装OpenLayers库 npm install ol 三、代码实现…

智能汽车图像及视频处理方案,支持视频实时拍摄特效能力

在智能汽车日新月异的今天&#xff0c;美摄科技作为智能汽车图像及视频处理领域的先行者&#xff0c;凭借其卓越的技术实力和前瞻性的设计理念&#xff0c;为全球智能汽车制造商带来了一场视觉盛宴的革新。美摄科技推出智能汽车图像及视频处理方案&#xff0c;一个集高效性、智…

数据结构--顺序表(实现增删改查)

三个文件&#xff08;Mytest.c 、MySeqList.c 、 MySeqList.h&#xff09; Mytest.c测试函数 MySeqList.c 函数定义 MySeqList.h函数声明 增删改查的步骤&#xff1a; 初始化 增加元素 • 尾插&#xff1a;先检查顺序表空间是否足够&#xff0c;若不足则进行扩容&#x…

【android】补充

3.3 常用布局 本节介绍常见的几种布局用法&#xff0c;包括在某个方向上顺序排列的线性布局&#xff0c;参照其他视图的位置相对排列的相对布局&#xff0c;像表格那样分行分列显示的网格布局&#xff0c;以及支持通过滑动操作拉出更多内容的滚动视图。 3.3.1 线性布局Linea…

说说MyBatis一、二级缓存和Spring一二级缓存有什么关系?

大家好&#xff0c;我是锋哥。今天分享关于【说说MyBatis一、二级缓存和Spring一二级缓存有什么关系&#xff1f;】面试题。希望对大家有帮助&#xff1b; 说说MyBatis一、二级缓存和Spring一二级缓存有什么关系&#xff1f; 1000道 互联网大厂Java工程师 精选面试题-Java资源…

蓝桥杯题型分布2

蓝桥杯 蓝桥杯题型分类2素数孪生素数素数个数朴素筛法求素数线性筛法求素数 因数分解试除法分解质因数 等差素数列梅森素数组素数素数环找素数(分段筛&#xff09;连续素数和小明的素数对疑似素数质数拆分纯质数超级质数质数日期质数游戏2魔法阵的能量阿坤老师切割年糕阶乘分解…

vue响应式原理剖析

一、什么是响应式? 我们先来看一下响应式意味着什么?我们来看一段代码: m有一个初始化的值,有一段代码使用了这个值; 那么在m有一个新的值时,这段代码可以自动重新执行; let m = 20 console.log(m) console.log(m * 2)m = 40上面的这样一种可以自动响应数据变量的代码机…

Element UI实现表格全选、半选

制作如图所示的表格全选、半选&#xff1a; 父组件 <template><div id"app"><SelectHost :hostArray"hostArray" /></div> </template><script> import SelectHost from ./components/SelectHost.vue export default…

如何使用动作捕捉系统训练人形机器人

随着人形机器人变得越来越先进&#xff0c;使用动作捕捉系统教会它们如何像人类一样移动成为了人形机器人领域正在研究的全新方向。本文探讨了如何使用Xsens技术捕捉精确的人类运动数据&#xff0c;使机器人能够通过人工智能和机器学习安全高效地学习、适应和执行复杂任务。 近…

内网渗透技术 Docker逃逸技术(提权)研究 CSMSF

目录 如何通过上传的webshell判断当前环境是否是物理环境还是Docker环境 方法一&#xff1a;检查文件系统 方法二&#xff1a;查看进程 方法三&#xff1a;检查网络配置 方法四&#xff1a;检查环境变量 方法五&#xff1a;检查挂载点 总结 2. 如果是Docker环境&#x…

生活电子常识——cmd不能使用anaconda的python环境,导致输入python打开应用商店

前言 电脑已经安装了anaconda,从自带的Anaconda Prompt (Anaconda3)中是可以识别python环境的&#xff0c;然而切换到cmd时&#xff0c;突然发现cmd中无法识别anaconda的python环境&#xff0c;竟然打开了应用商店让我安装Python&#xff0c;这当然是不对的。 解决 这是因为…