【优秀python算法设计】基于Python网络爬虫的今日头条新闻数据分析与热度预测模型构建的设计与实现

news2024/11/16 3:43:06

1 绪论

1.1 背景与意义

随着互联网的快速发展和移动互联技术的普及,作为新兴的资讯平台,今日头条成为了用户获取新闻资讯、时事热点和个性化推荐的重要渠道。大量用户在今日头条上浏览、阅读并产生热度,使得今日头条成为了观察舆论热点和分析用户情感倾向的重要数据源。在这一背景下,基于Python网络爬虫的今日头条数据分析与热度预测模型构建成为了一项备受关注的研究课题。

今日头条作为一个内容聚合平台,汇聚了各种新闻、资讯、视频和用户评论等多种数据形式,同时拥有海量的用户群体。这些数据蕴含了丰富的用户行为信息、内容特征以及热度变化趋势,对于舆情监控、内容推荐以及市场营销等方面具有重要意义。因此,通过对今日头条数据的爬取与分析,可以挖掘出对决策者、研究者和企业具有价值的信息,为用户提供更加个性化的内容推荐,同时也为企业提供更加精准的营销策略。

在这样的背景下,构建基于Python网络爬虫的今日头条数据分析与热度预测模型具有重要的理论和实践意义。通过对今日头条上的数据进行爬取和分析,可以实现对用户行为的深度挖掘,揭示热门话题的演化规律、用户情感倾向的变化以及热点内容的传播路径。根据分析结果,构建热度预测模型,对未来热门话题和内容的趋势进行预测,为企业决策和舆情监控提供重要参考。

因此,通过这个研究内容,不仅能够满足学术研究的需求,还能为企业决策和舆情监控提供有力支持。本研究模型的构建将在信息分析、舆情监控、内容推荐等领域发挥重要作用,对于推动数据科学和人工智能技术在新闻媒体和内容服务行业的应用具有重要意义。

1.2 国内外研究现状分析

在国内外,基于Python网络爬虫的今日头条数据分析与热度预测模型构建已成为数据科学和人工智能领域的研究热点,受到广泛关注。在国外,随着大数据和人工智能技术的不断发展,越来越多的研究者开始关注社交媒体和内容平台上数据的分析和挖掘,以及利用这些数据进行预测和决策支持。在国内,随着互联网大数据的快速发展,媒体数据分析和热度预测技术的研究也备受关注,尤其是针对国内热门内容平台的数据挖掘和分析。

目前,国内外对基于Python网络爬虫的今日头条数据分析与热度预测模型构建的研究呈现出以下发展概况和问题。王宁[1]研究建立一套行之有效的网络舆情预测,通过分时段记录网络舆情事件的新浪微指数、百度指数、头条指数作为事件热度的衡量指标,运用EGM(1.1)模型对舆情事件的发展趋势进行预测,并在预测数据基础上,运用灰色关联分析方法,提出网络舆情事件分级方案。综合运用上述两模型确立的舆情监管体系对"江歌案宣判""上海携程亲子园虐童案""莫焕晶案二审宣判"等事件进行分析评价。最终模型在处理舆情管理问题方面具有良好的适用性和精确性。

嵇海香[2]通过对哔哩哔哩网站视频热度形成的非内容影响因素展开研究,基于5W模式构建视频热度形成过程模型,运用流行三要素理论构建视频热度影响因素模型。通过爬取客观数据,采用主成分分析和多元回归进行研究,得出结论:视频创作者的个人认证、粉丝数、认证数量以及视频的描述长度对视频热度产生正向影响;而视频的标题长度对热度产生负向影响。此外,发布视频的时间段也对热度产生影响,生活空闲状态下发布的视频整体热度较高,而睡眠状态下发布的视频热度整体较低。这一研究为B站及其他新媒体视频网站的发展提供了指导意义。

杨赟[3]提出了一种改进海鸥算法优化支持向量回归的网络舆情预测模型ISOA-SVR,以解决网络舆情传播具有时效性和小样本特征的问题。该模型引入了改进的海鸥算法,通过设计sigmoid函数非线性收敛因子、引入精英个体多阶段动态扰动和正余弦优化等方法,提高了算法的性能和局部寻优能力。同时,将SVR与ISOA算法相结合,构建了网络舆情预测模型ISOA-SVR。实验结果表明,ISOA-SVR在数据拟合度、稳定性和收敛性方面表现更优。这一研究为解决舆情预测中的参数敏感和泛化能力不足等问题提供了新的思路和方法。

Ouyang Shuxin[4]基于从中国领先的在线视频服务提供商(Youku)收集的数据,深入分析了在线视频受欢迎程度的动态,包括整体受欢迎程度分布、个人受欢迎程度分布、受欢迎程度的演变模式和早期的流行关系。研究首先关注了新上传视频在整个观察期间的普及情况,并提出了活跃的日子的概念,详细研究了单个视频的每天和每小时的普及分布。随后,对单个视频随时间的发展进行了深入探讨,进化模式则是根据受欢迎程度爆发的数量和时间位置进一步定义的。这一研究有助于深入理解在线视频受欢迎程度的变化规律,为技术、经济和社会原因对视频流行的影响提供了重要的数据支持。

虽然当前热度研究取得很大进展,然而,这些研究中仍存在一些问题:如何提高模型的泛化能力和准确性,如何解决舆情事件预测中的参数敏感性,以及如何更好地理解网络舆情和视频热度的复杂变化规律等。

(1)模型泛化能力和准确性:当前的研究中,需要进一步提高舆情预测模型和视频热度预测模型的泛化能力和准确性,以适应真实场景中的复杂变化和新情况的处理。

(2)参数敏感性:在舆情事件预测和视频热度预测中,模型对参数的敏感性仍然是一个问题,需要寻找更加稳健的建模方法,降低参数设置对模型预测结果的影响。

(3)复杂变化规律:对网络舆情和视频热度的复杂变化规律理解仍然不够深入,需要进一步研究和创新,以更好地把握变化规律并提高预测的准确性。

这些问题的解决将有助于提高舆情管理和新媒体发展中模型的实用性和应用价值。

1.3 主要研究方法

本课题旨在利用Python网络爬虫技术,分析今日头条的数据,构建热度预测模型,解决以下主要问题:

(1)热度预测准确性:构建一个准确预测文章热度的模型,以帮助用户识别潜在热门文章,提高内容推荐的精准度和效果。

(2)热门话题挖掘:通过分析文章热度的变化,挖掘热门话题和热点事件,帮助用户了解当前热门话题的发展趋势。

(3)用户行为理解:通过热度预测模型,深入理解用户对不同类型文章的偏好,为内容创作者和平台运营者提供决策支持。

关键要点及采用的方法和步骤如下:

(1)数据收集:利用Python网络爬虫技术,从今日头条等平台收集文章数据,包括文章内容、发布时间、点赞数、评论数等信息。

(2)特征工程:对收集的文章数据进行特征提取和处理,包括对文本内容进行情感分析、提取关键词、构建文本相似度等。

(3)模型构建:建立热度预测模型,采用文本相似度进行加权平均,进行热度预测。

(4)模型训练与评估:利用历史数据对模型进行训练,并通过验证等方法对模型进行评估,确保模型的准确性和泛化能力。

(5)热门话题挖掘:通过对热度数据的分析,识别热门话题和热点事件,采用文本挖掘及分析等,对话题进行可视化展示,通过Echarts将可视化以大屏形式呈现出来。

通过以上步骤,构建一个基于Python网络爬虫的今日头条数据分析与热度预测模型,解决热度预测和热门话题挖掘的问题,并深入理解用户行为,为内容推荐和平台运营提供支持。

2 相关技术

2.1 爬虫技术

使用Python网络爬虫技术进行今日头条数据分析与热度预测模型构建具有诸多优势和意义。Python作为一种简洁、高效的编程语言,拥有丰富的第三方库支持,如Requests、BeautifulSoup和Scrapy,能够轻松实现网页数据的抓取和处理。而今日头条作为一个热门的新闻资讯平台,拥有海量的用户数据和内容信息,利用网络爬虫技术,能够快速准确地从网络上获取大量数据,为后续的分析提供充分的数据支持,节省人力成本。

2.2 Echarts可视化

ECharts 是一个由百度开发的开源可视化库,用于创建交互式的数据可视化图表。它基于纯 JavaScript 编写,支持多种图表类型和丰富的交互功能,可以轻松地在 Web 页面上实现各种数据展示需求。ECharts 的可视化是基于 Canvas 技术和矢量图形绘制,通过 JavaScript 代码生成相应的图表,并提供了丰富的配置选项和交互能力。用户可以通过简单的 JavaScript 代码将数据转化为各类图表,同时支持用户交互操作,如数据筛选、图表缩放、拖拽等功能。另外ECharts 支持折线图、柱状图、饼图、散点图、地图等多种常见图表类型,满足不同数据展示需求。同时还提供丰富的交互功能,如数据区域缩放、拖拽重计算、数据视图展示等,可以轻松嵌入到 Web 页面中,同时支持移动端和桌面端的浏览器,具有良好的跨平台兼容性。

ECharts 作为一款强大的数据可视化库,具有丰富的图表类型、交互功能、灵活的配置选项等优势,能够帮助用户快速创建交互式的数据可视化图表,为数据分析和展示提供了便利和支持。

2.3 文本相似度分析

(1)文本相似度理论

文本相似度分析是指通过计算两段文本之间的相似程度,从而衡量它们在语义或结构上的接近程度。文本相似度分析在自然语言处理、信息检索、推荐系统等领域具有广泛的应用。常用的文本相似度计算方法包括基于词袋模型的余弦相似度、基于词向量的相似度计算、基于深度学习的文本相似度计算等。

(2)文本相似度分析流程

a.文本预处理:对原始文本进行分词、去除停用词、词干提取等处理,将文本转换成统一的格式。

b.特征表示:将文本转换成计算机可处理的特征表示形式,常用的方法包括词袋模型、TF-IDF 等,也可以使用词嵌入模型(如 Word2Vec、GloVe)将文本映射到高维空间的向量表示。

c.相似度计算:根据选定的特征表示方法,利用相似度计算公式计算两段文本之间的相似度。

(3)余弦相似度公式

余弦相似度是衡量两个向量方向的夹角的余弦值,用来度量它们的相似程度。对于两个向量 A 和 B,余弦相似度的计算公式如下:

其中,A 和 B 分别表示两个文本的特征向量,(\cdot) 表示向量点积,(|A|) 表示向量 A 的模。

文本相似度分析通过对文本进行特征提取和相似度计算,能够帮助发现文本之间的关联性,对信息检索、自然语言处理和推荐系统等领域具有重要的意义。

3 数据预处理

3.1 数据集介绍

今日头条作为一家重要的新闻资讯平台,拥有海量用户生成的文章内容和用户互动数据,采集这些数据能够帮助分析用户的阅读偏好、热点话题和互动行为,为内容生产者和平台运营者提供决策支持,同时对用户行为和内容热度进行预测,为运营决策提供数据支持,具有重要的商业和运营意义,采集的网站如图3-1所示。

图3.1  采集网站

本研究利用 Selenium 模拟用户操作,访问今日头条网站,获取文章链接,并逐一访问每篇文章页面,提取文章内容、发布时间、评论数量、点赞数量等信息,并且对获取的原始数据进行清洗、格式转换和计算处理,如清理额外文本、提取时间信息、计算时间间隔等,将处理后的数据存储 CSV 文件,以便后续的数据分析和处理,采集的流程如图3-1所示。

图3.2  采集流程

通过数据采集,可以获取用户对不同文章的互动情况、文章发布时间以及时间间隔等信息。这些数据对于舆情分析、用户行为分析以及内容热度预测具有重要意义。通过对这些数据进行分析,可以为平台运营和内容推荐提供数据支持,优化用户体验,提高内容推荐的精准度和效果。采集内容如表1头条文章和表2文章评论所示。

表1  今日头条文章

链接

文章内容

发布时间

评论数

点赞数

时间间隔

作者

https://www.toutiao.com/article/7337928049226269236/

一个国家..

2024/2/21 13:48

6429

3356

82

观察者网

https://www.toutiao.com/article/7324155802053689875/

杨德龙:中国GD...

2024/1/15 11:05

6364

1329

973

金融界

https://www.toutiao.com/article/7314237266191303187/

假如中国人口减半...

2023/12/19 17:54

5657

3109

1611

江卿曻

表2  文章评论

帖子链接

帖子标题

评论id

...

点赞数

时间

回复数

https://www.toutiao.com/article/7336663607888986665/

越闹越大!傅园慧长白山被勒索,吉林文旅一年白干,央视犀利发声

7.33689E+18

...

657

2024-02-18 18:49:25

914

https://www.toutiao.com/article/7336663607888986665/

越闹越大!傅园慧长白山被勒索,吉林文旅一年白干,央视犀利发声

7.33708E+18

...

2024-02-18 18:49:25

914

657

本次采集共采集今日头条7个领域文章共8910篇,文章评论117444条评论。

3.2 清洗与预处理

数据清洗和预处理的方法,包括去除数字、去除空格、去除标点符号、处理空字符、去重处理、分词、评论词频统计等。这些数据清洗方法有助于净化数据,提取文本特征,为后续的数据分析和可视化提供清洁、高质量的数据。具体操作如下:

  1. 使用正则表达式将文本中的数字替换为星号,保护隐私信息,避免数字对文本特征产生干扰;去除文本中的空格,使文本更加紧凑,去除标点符号,使文本更加规整;清理文本中的空字符,保证文本内容的完整性。运行结果如图所示:

(2)去重处理:使用 drop_duplicates对数据进行去重处理,去除数据中的重复行,保证数据的唯一性。

(3)评论分词:使用 jieba 库对评论文本进行分词,并过滤停用词、纯数字和纯中文字符。对评论文本进行分词处理。统计词语的出现频率,准备进行关键词分析。分词结果如图所示:

4 模型构建与实现

4.1 文本相似性算法构建

文本相似度算法用于衡量两段文本之间的相似程度,常用于信息检索、自然语言处理、推荐系统等领域。其中,余弦相似度是一种常用的文本相似度计算方法。本文将使用余弦相似度对文本进行相似度算法计算。余弦相似度是一种衡量两个向量方向的相似度的方法,常用于文本相似度的计算。在今日头条热度预测中,有两个文本向量 (\mathbf{A}) 和 (\mathbf{B}),它们的词频向量分别表示为:

(1)计算点积(内积)

点积表示两个向量的相似程度,计算公式为:

(2)计算向量模长

计算 (\mathbf{A}) 和 (\mathbf{B}) 的模长(即向量的长度),分别表示为:

(3)计算余弦相似度

余弦相似度表示为两个向量之间的夹角余弦值,计算公式为:

余弦相似度的取值范围在 ([-1, 1]) 之间,相似度为 1 表示两个向量的方向完全相同,相似度为 0 表示两个向量之间是独立无关的,相似度为 -1 表示两个向量的方向完全相反。通过余弦相似度的计算过程,可以量化地衡量两个文本向量之间的相似程度,从而在文本相似度分析和热度预测中发挥重要作用。

4.2 文本相似度预测流程

(1)数据清洗:对文本数据进行去敏感处理,包括去除数字、空格和标点符号等操作,保留文本的实际内容。

(2)词频统计:使用分词工具(如 jieba)对文本进行分词,并统计每个词语的出现频率,得到词频向量。

(3)合并关键词:将两篇文档的词频向量合并,得到共同的关键词集合。

(4)向量化:根据合并后的关键词集合,将每篇文档表示为词频向量,即文档向量。

(5)计算余弦相似度:根据文档向量计算余弦相似度,得到文本之间的相似度值。

(6)预测热度:根据相似度值作为权重,对相似文章的热度进行加权平均,得到预测的热度值。最后,使用最佳权重进行加权平均,输出了预测的热度值。

这样的模型可以用于对文本数据进行相似度分析和热度预测,为今日头条数据的热度评估提供参考。预测流程如下图所示:

4.3 评估

文本相似度算法主要用于评估文章标题之间的相似度,并基于相似度预测文章的热度。评估的目标是对模型进行准确性评估,即通过比较模型预测的热度值与实际热度值,来评估模型的预测准确率和效果。

(1)评估流程

a.数据准备:从今日头条等渠道获取一定量的文章标题和其对应的热度数据,作为训练集和测试集。

b.特征提取:对文章标题进行数据清洗、词频统计和向量化,构建相似度算法的输入特征。

c.模型训练:基于训练集的数据,建立相似度算法模型,用于预测文章标题之间的相似度和热度。

d.模型评估:使用测试集的数据,对模型的预测结果进行评估,比较预测的热度值与实际热度值,计算模型的准确率和效果。

(2)评估指标

准确率(Accuracy):预测正确的样本数占总样本数的比例,用于评估模型的整体预测准确性。

均方误差(Mean Squared Error,MSE):用于评估预测值与实际值之间的差异,计算方法是预测值与实际值差的平方的均值。

相关系数(Correlation Coefficient):用于衡量模型预测值与实际值之间的线性相关程度,范围在-1到1之间。本研究通过将权重值从0到1均匀分为10份,通过比较各个权重值下的预测准确率,找到最佳权重和对应的最佳预测准确率,如图4-1所示。

根据输出结果,当权重为1.0时,预测准确率达到了98.41%,这表明模型在这种权重下的预测能力较强。而在其他权重下,预测准确率都保持在64.33%左右,说明模型在这些权重下的预测能力相对较弱。

这意味着在权重为1.0时,模型对于文章热度的预测更为准确,而其他权重下的预测效果较差。因此,在实际应用中,可以选择权重为1.0的模型来进行热度预测,以获得更高的预测准确率。

5可视化

5.4.1 最佳聚类数确定

最佳聚类数使用肘部法则(Elbow Method)来确定。

在肘部法则中,绘制“聚类数目 vs. SSE(Sum of Squared Errors)”曲线,SSE表示每个样本点到其所属簇中心的距离平方和。随着聚类数目的增加,SSE会逐渐减小,因为更多的簇中心可以更好地拟合数据。

然而,当聚类数目过大时,每个簇中只包含少量的样本点,可能导致过拟合。因此,需要选择一个合适的聚类数,使得SSE的下降趋势明显变缓。

根据肘部法则,观察聚类数目与SSE的关系图,找到SSE出现拐点的位置。拐点通常对应于曲线的弯曲处,形象地看起来像手肘的形状,因此称之为肘部。拐点前的聚类数被认为是最佳的聚类数。

在代码中,通过循环迭代不同的聚类数目,计算并记录每个聚类数目下的SSE值。然后,绘制聚类数目与SSE的曲线,并观察拐点的位置。选择拐点前的聚类数作为最佳聚类数。

通过肘部法则确定最佳聚类数,可以帮助避免过拟合和欠拟合的问题,并在合适的聚类数目下得到更好的聚类效果。最佳聚类数如图5.3所示,由图可知最佳聚类效果为5。

图5.3 最佳聚类数折线图

5.4.2 聚类分析实现

特征选择:从数据集中选择用于聚类的特征。在给定的代码中,选取了风格、评论数、好评率、上市年份、上市季节、适用群体、场景和材质等特征作为输入进行聚类分析。

数据标准化:由于不同特征的取值范围可能不同,需要对数据进行标准化处理,使得每个特征具有相同的重要性。使用StandardScaler()函数对选定的特征进行标准化,将其转换为均值为0、方差为1的标准正态分布。

聚类算法选择:根据任务需求选择合适的聚类算法。在代码中,使用K-means算法进行聚类分析。通过导入KMeans类,创建一个K-means聚类模型。

聚类模型训练:使用fit()方法对标准化后的数据进行聚类模型的训练。通过传入标准化后的特征数据,模型会自动进行迭代计算,寻找最佳的聚类中心。

聚类结果获取:通过labels_属性获得每个样本的聚类标签,表示该样本属于哪个聚类簇。将聚类标签添加到数据集中,方便后续的结果分析和可视化。

结果分析与可视化:根据聚类结果,进行结果分析和可视化展示。通过绘制散点图或其他可视化图表,将样本点按照聚类标签进行颜色区分,以便观察不同聚类簇之间的分布情况。聚类分析结果如图5-4所示,将数据分成5类。

图5.4 聚类分析图

5.5 多项式回归模型搭建

从数据集中选择用于多项式回归的特征。在给定的代码中,选取了风格、评论数、好评率、上市年份、上市季节、适用群体、场景和材质等特征作为输入进行多项式回归分析。将选定的特征和目标变量(价格)提取出来,并将它们分为训练集和测试集。通过使用train_test_split()函数,将数据集划分为训练集和测试集,设置合适的比例。利用PolynomialFeatures类进行多项式特征转换。通过指定所需的多项式阶数,使用fit_transform()函数对训练集和测试集的特征进行转换,生成新的多项式特征。最后创建线性回归模型(例如LinearRegression类),并使用训练集的多项式特征和目标变量进行模型的训练和拟合。通过调用fit()方法,将多项式特征和目标变量传入模型进行拟合。

5.6 模型评估

定义多项式阶数范围:通过设定degree_range来定义多项式的阶数范围,从1到5尝试不同的阶数。创建多项式回归模型:使用make_pipeline函数将PolynomialFeatures和LinearRegression组合成一个多项式回归模型。调用fit方法使用训练集对多项式回归模型进行训练。使用训练好的模型对训练集进行预测,得到预测值y_train_pred。使用mean_squared_error函数计算预测值与真实值之间的均方误差。使用r2_score函数计算预测值与真实值之间的决定系数。输出训练集上的均方误差和决定系数。

使用交叉验证进行模型评估:

同样使用degree_range来定义多项式的阶数范围。

逐个尝试不同的阶数:

创建多项式回归模型:同样使用make_pipeline函数创建多项式回归模型。使用cross_val_score函数进行交叉验证,计算均方误差(MSE)和决定系数(R^2)。取交叉验证结果的平均值作为性能指标。输出交叉验证的均方误差和决定系数。

这样通过多项式回归模型的训练和评估,可以了解模型在训练集上的拟合情况,并使用交叉验证对模型进行更全面的评估。这些评估指标可以帮助我们了解模型的性能和拟合程度,从而选择最佳的多项式阶数来构建模型。模型评估结果如下图5.5所示,由图可知多项式阶数对模型的性能有着明显的影响。在本例中,阶数为3时,模型在训练集上表现较好,并且具有较高的决定系数(R^2)。然而,在交叉验证上,随着阶数的增加,模型的性能变得更差,出现了过拟合的情况。

因此,根据以上结果,选择多项式阶数为3的模型,因为它在训练集上表现良好,并且在交叉验证上的性能相对较好。

5.1  模型评估结果

序号

多项式阶数

训练集均方误差

训练集决定系数

交叉验证均方误差

交叉验证决定系数

1

1

306824

0.03535

313676

0.0157

2

2

272821

0.14225

8216685

-13.835

3

3

181879

0.421876

1312303

-2.5056

4

4

190729

0.40035

5

5

352931

-0.109608

6 总结

通过对京东羽绒服男装数据集的处理和分析,包括数据清洗、特征处理、相关性分析、聚类分析等,从而得出服装价格与各个因素(如风格、评论数、好评率、上市年份等)之间的关联度。

本次研究的创新点如下:

数据处理和特征工程:通过对原始数据的处理和特征提取,将无用或重复的列删除,将文本数据转换为数值型数据,并进行了数据缺失值的处理。

相关性分析:利用热力图展示了各个因素与价格之间的相关性,帮助理解各个因素对价格的影响程度。

聚类分析:使用K-Means算法进行聚类分析,根据不同的因素对服装进行分类,以便进一步分析每个类别的特征和差异。

本次研究的不足之处:

缺乏模型评估和选择:在多项式回归模型中,虽然使用了均方误差和决定系数进行模型评估,但没有进行模型选择,可能存在过拟合或欠拟合的问题。

数据可视化:在展示聚类结果时,虽然使用了散点图,但没有给出每个类别的标签或名称,不够直观。

本次研究实现了电商平台服装价格分析与优化策略的功能,通过数据处理、相关性分析和聚类分析等手段,帮助了解服装价格与各个因素之间的关系,并提供了多项式回归模型进行价格预测。然而,在模型评估和数据可视化方面仍有一些不足之处,可以进一步完善和改进。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1963724.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Csrf复习(pikachu靶场和防御手段)

CSRF漏洞简介 CSRF又称跨站请求伪造,是指攻击者在用户登录的状态下(浏览器保存了用户的cookie)通过伪造恶意url诱导用户点击,借助用户的cookie网站权限(冒充用户身份来进行非法操作,对于服务器来说是合法的…

达梦数据库系列—36.分区表

目录 1、分区表的分类 1.1 范围分区表 1.2 List分区表 1.3 哈希分区表 1.4 多级分区表 二级分区 三级分区 2、分区表的维护 2.1 增加分区 2.2 删除分区 2.3 交换分区 2.4 融合分区 3、全局索引和局部索引 1、分区表的分类 范围(range)水平分区:对表中…

【LLM大模型】AI大模型大厂面试真题:「2024大厂大模型技术岗内部面试题+答案」

AI大模型岗的大厂门槛又降低了!实在太缺人了,大模型岗位真的强烈建议各位多投提前批,▶️众所周知,2025届秋招提前批已经打响,🙋在这里真心建议大家6月7月一定要多投提前批! 💻我们…

【深度学习|目标跟踪】SSD+Sort实现MOT!

SSDSort实现目标跟踪 源码地址1、🙌🏻匈牙利匹配算法1.1 什么是匈牙利匹配1.2 什么是二分图:1.3 最大匹配1.4 最优匹配1.5 最小点覆盖1.6 交替路1.7 增广路1.8 匈牙利匹配具体流程以及实例1.9 广度优先匹配1.10 深度优先匹配1.11 给匹配加权来…

SQL—数据库与表操作

目录 SQL语句分类 DDL 数据库操作 1. 查询所有数据库 2. 查询当前数据库 3. 创建数据库 案例:创建一个itcast数据库,使用数据库默认的字符集 案例:创建一个itheima数据库,并且指定字符集 4. 删除数据库 5. 切换数据库…

Java从入门到精通 (十) ~ 计算机是如何工作的呢 ?

每天进步一点点,每天创造一点点,每天做事多一点,愿你事事都领先,卓越成绩现眼前,美好生活一天又一天。 文章目录 目录 前言 前置知识 认识一下计算机的真实相貌 都说计算机使用二进制传输,为什么要使…

哇!0.8秒启动!Linux快速启动方案分享,全志T113-i国产平台!

本文主要介绍基于创龙科技TLT113-EVM评估板(基于全志T113-i)的系统快速启动方案,适用开发环境如下。 Windows开发环境:Windows 7 64bit、Windows 10 64bit 虚拟机:VMware15.5.5 Linux开发环境:Ubuntu18.04.4 64bit U-Boot:U-Boot-2018.07 Kernel:Linux-5.4.61、Li…

政策收紧下,给EI人的一个小建议!

自中央大力推动文化体制改革、促进文化产业加快发展以来,我国出版业的数字化转型升级工作拉开序幕。其后,得益于新技术的发展、市场趋势的变化,数字出版开始出现“井喷”,出版融合成绩巨大,但也面临诸多挑战&#xff0…

手持气象站:便携与精准的完美结合

在气象监测领域,手持气象站以其独特的优势特点,正逐渐成为专业人士和爱好者的首选工具。这款小巧而强大的设备,将便携性与精准性完美融合,为各种户外活动和科学研究提供了极大的便利。 首先,手持气象站的最大亮点在于其…

虚拟主播实时直播技术方案:以年轻人互动方式探索直播新玩法2

随着互联网将内容传播的渠道变得逐渐丰富,观众对直播内容形式、互动玩法的多元化要求越来越高,文旅、电商、企业品牌、广电、泛娱乐MCN、游戏动漫等等领域纷纷主动迎合Z世代喜好,利用虚拟人直播内容抢夺观众的注意力,以独特的虚拟…

2024 杭电多校 第四场

分组 给定 n 个正整数 a1,a2,…,an (1≤ai<2m) 以及 0 到 2m−1 的权重 w0,w1,…,w2m−1&#xff1b;你需要把这 n 个正整数分成四组 A,B,C,D&#xff0c;令 f(A),f(B),f(C),f(D) 分别表示每组中所有数字的异或和&#xff0c;你的分组方案需要最小化 wf(A),wf(B),wf(C),wf(…

智慧社区的秘密武器:数据可视化的力量

在现代城市的发展中&#xff0c;智慧社区已成为提升居民生活品质和管理效率的重要方式。而数据可视化作为信息技术的关键工具&#xff0c;正是实现智慧社区目标的强大助推器。通过将复杂的数据转化为直观的图表和可视化图像&#xff0c;数据可视化不仅能够帮助社区管理者快速理…

前端工具专有名词记录

目录 前言 正文 1.包管理器 2.构建工具和开发环境&#xff08;项目管理器&#xff09; 3.自动化测试工具 4.JavaScript 框架和模版 5.代码质量工具 尾声 &#x1f52d; Hi,I’m Pleasure1234&#x1f331; I’m currently learning Vue.js,SpringBoot,Computer Security and so…

全新小体积RK3562核心板,解锁神秘技能!

RK3562小体积金手指系列核心板基于瑞芯微四核Cortex-A53Cortex-M0处理器设计&#xff0c;工作主频高达2GHz&#xff0c;最高搭载4GB高速LPDDR4、32GB eMMC。该核心板拥有204 Pin脚&#xff0c;尺寸仅为67.6mm *45mm&#xff0c;支持千兆网、USB3.0、串口、PCIE、HDMI等丰富外设…

vite tsx项目的element plus集成 - 按需引入踩坑

前面我们进行了开源组件的自研&#xff0c;很多组件可直接用现成的开源组件库&#xff0c;并不需要自己重复造轮子&#xff0c;为此我们讲如何在当前vite vitepress tsx技术整合的项目中实现element plus组件的按需引入&#xff0c;同时解决遇到的一些坑。 安装Element Plus…

《史上最简单的SpringAI+Llama3.x教程》-03-ETL pipeline解决RAG文件处理问题

在企业内部构建基于大型语言模型&#xff08;LLM&#xff09;的应用程序时&#xff0c;数据的提取、转换和加载&#xff08;ETL&#xff09;过程至关重要。Spring AI 提供了一个集成的框架&#xff0c;可以简化这一过程&#xff0c;特别是在使用 LLM 进行检索增强生成&#xff…

Postman 接口测试工具简易使用指南

一、Postman是什么? 我通过kimi问了这样一个问题&#xff0c;它给我的回答是这样的: 它的回答也算比较中规中矩&#xff0c;简单的说postman实际上就是一款接口测试工具&#xff0c;同时它还可以编写对应的测试脚本以及自动生成对应的API文档&#xff0c;结合我的习惯来说&am…

Springboot处理跨域请求

文章目录 概要同源策略跨域问题复现解决跨域方法1方法2方法3 jwt拦截器验证token防止请求存在缓存 概要 跨域请求&#xff08;Cross-Origin Requests&#xff09;指的是在一个网页中加载的资源来自与当前网页不同的域、协议或端口。浏览器出于安全考虑&#xff0c;默认会限制这…

Mybatis超级方便操作数据方式(注解+封装mapper接口)!!!

Mybatis作为一个流行的持久层框架&#xff0c;其优化了Java程序与数据库的交互过程。它的核心在于使用Mapper接口与XML映射文件或注解绑定来实现对数据库的操作。这种方式不仅简化了数据库操作&#xff0c;还提升了开发效率&#xff0c;使得开发者可以从繁琐的JDBC代码中解放出…

索引排序以及explain

标题 explain函数typekeyextrarows 索引排序 前言&#xff0c;如无特殊提醒&#xff0c;默认建立如下索引。 explain函数 type type列反映了访问类型。表示mysql如何找到数据。访问类型有很多种&#xff0c;从全表扫描到索引扫描、范围扫描、唯一索引查询、常数引用等。这里列…