基于大数据的电商产品评论数据分析与可视化
1绪论
1.1研究背景与意义阐述
随着电子商务领域的迅猛扩张,电商平台累积了海量的用户评价信息。这些建议不只是包含了消费者对产品的评价和经验分享,更重要的是,它们包含了丰富且价值巨大的信息。深度分析在线用户反馈不仅揭示了消费者实际的感受和需求,对企业作决策和提升市场地位有着关键作用。然而,这些评论的复杂性和差异性使得利用传统分析工具难以精确提炼出关键信息。因此,高效地处理和分析电子商务平台上的用户评论,以便识别其内在价值和含义,这也是当前的研究领域关注点之一。
1.2本文的主要研究内容
本文旨在通过深入研究和分析,探索网站数据爬取和电商产品评论数据的情感分析两个关键环节,为电商平台提供更为精准的消费者行为洞察和产品优化建议。具体研究内容分为以下两部分:
1、在抓取网站数据的环节,本文首先阐述了定位到大众点评网站商家评论区的过程,并通过网页结构分析来识别需要抓取的信息。紧接着,文章深入解释了如何搜索并确认在CSS文件中所需的加密字体的文件,以及如何将网页内容下载至电脑进行分析,从而确定字体文件内的加密的字符及其对应的映射位置。进一步,文中描述了如何从CSS文件提取出所有类的坐标信息,并利用这些数据破译文本,以便最终收集并存储所需数据。
2、在完成数据爬取后,文章转向对电商产品评论数据的情感分析,首先进行数据预处理,包括评论的去重、清洗,以及基于自然语言处理技术的评论分词,词性标注和去除停用词操作。通过这一系列的预处理步骤,为准确分析评论数据奠定了基础。接着,利用词云技术直观展示了分词的效果,以便快速识别出评论中的核心议题。最关键的部分,文章深入讨论了构建情感分析模型的方法,包括采用机器学习和深度学习技术构建模型,以准确判断评论的情感倾向。最后,通过应用LDA主题模型,进一步分析了评论数据,旨在提取出消费者对产品特征的情感倾向,从而揭示消费者的真实感受和产品的改进方向。
2数据准备
2.1电商产品数据采集
2.1.1店铺页面分析
数据来源于大众点评网站的店铺评论部分。首先,我们开始通过访问大众点评网站并导航至其店铺评论部分,这里我们会立刻注意到一个非常特别的现象:评论部分的字体采用了SVG型的加密处理方式,这一点从图2-1中可以明显看出。当我们尝试刷新页面以观察变化时,不难发现这些加密的字体每次刷新后都会经历一定的变化,这引起了我们的进一步好奇。为了深入了解背后的机制,我们决定探索网页的源代码,并仔细检查了网页所引用的所有CSS文件。通过这一系列的探索和分析,我们最终锁定了一个特定的CSS文件,这个文件似乎扮演了关键的角色。我们现在需要编写代码来获取到这个特定CSS文件的URL,这将是我们破解SVG字体加密处理的关键一步。
图2-1 店铺页面评论
随后的分析步骤涉及打开指定的CSS文件,并在其中定位到先前页面中加密字体所对应的类。通过搜索,能够找到与加密字体相关的坐标信息,此时的任务便是寻找相应的加密字体文件。进一步的审查揭示了三种不同的字体文件被列在文件中。通过逐一访问这些字体文件的URL,我们确定了唯一一个SVG格式的字体文件为我们所需。尝试访问这些字体文件的URL之后,我们确定了最大的文件——也就是出现频率最高的那个文件——为目标字体文件。直接通过URL查看无法明确知道文件的大小,因此实际上访问这些URL成为了识别正确字体文件的必要步骤。紧接着,就需要访问URL以下载字体文件的内容,并将最大的那个字体文件保存下来,以便之后进行字体替换工作。
2.1.2字体的映射关系
在成功获取到加密的字体文件之后,我们便有了机会在本地进行更深入的探索,以便确定加密的文本文件与实际显示文本之间的对应的映射关系。这个过程尤为关键,因为每当页面被刷新时,引用的CSS或SVG文件内容都会发生动态的变化,这包括加密用的文字也会随之变化。利用下载到本地版本作为基准进行探索,这样做的目的是,通过与本地保存的固定版本进行对比,来尝试理解和解码加密文字的规律。经过多次尝试,发现规律,两个数字第一个数字除以14,就是文字的下标。如图2-2所示,数字为-406,除以14。下标就是29,第二个数字就在两个y值中间。根据规律就可以匹配出所有加密的文字和对应的坐标映射关系。
图2-2 字体映射关系
如此,可以知道,网页中获取对应的css文件为加密字体的x和y的坐标,如图2-3所示。SVG文件为加密字体的映射表,也可以理解为密码本,如图2-4所示。
图2-3 加密字体的坐标
图2-4 加密字体的映射表
2.1.3解密文字
采用正则表达式来处理字体文件,首先是从中提取出加密文字的x和y坐标值,这些值存储为一个元组,判断时获取加密文字的坐标y值是否在元组两个值中间即可。然后将取出所有的数据保存到类中的字典。
存储后的字典格式为 value值为字体内容,x为下标 ,y值为一个元组,后者y值用于存储两个确定的数字之间的y值范围。用来存储在哪两个数字之间。进一步地,我们还需要从网站的所有CSS文件中提取类对应的坐标信息。通过运用正则表达式,我们能够高效地从CSS文件中提取出所需的所有数据,并将这些数据存储到类中的一个字典。
2.1.4保存数据
控制台打印以及保存到本地的csv文件,数据为2000条,部分数据如图2-5所示。字段说明,content: 用户的评价内容,表示用户对该产品的评价和感受。creationTime: 用户发布评价的时间,格式为年/月/日 时:分。nickname: 用户的昵称或用户名。referenceName: 评价所涉及的产品名称。content_type: 内容类型,这里是”pos”,表示评价的正面内容,”neg”表示评价的负面内容。
图2-5 评论数据
2.2评论数据的优化处理
有效的数据预处理是关键,以消除多余和不相关的信息,例如移除网页中的代码和格式化字符,这类信息在分析阶段并不产生价值。此过程同样关注于消除数据集中的重复评论内容,以此来提升数据集的整体质量并避免分析结果过度偏向于某些重复出现的意见。
2.2.1评论去重
在网购场景下,用户的评价是衡量顾客满足程度和商品品质的重要指标。然而,为防止产品长期无评价,电商平台设立的自动评论生成程序可能产生一些缺乏分析价值的标准化反馈[8]。此类评论通常不包含用户体验的个人描述,对于数据分析没有价值。