相关技术介绍
豆瓣电影数据采集与可视化分析系统是用当前应用很广泛的Python语言和Flask框架,并结合CSS与HTML搭建Web网页,使用MySQL数据库对数据进行存储,依次来开发实现系统的功能。本系统运行需要的软件有Pycharm、普通浏览器、Navicat for MySQL等。
2.1 爬虫技术
Request是代表HTTP请求的对象 在服务器接收到客户daunt发送的请求后,调用service方法处理请求之前,服务器会创建出代表请求的request对象(用于封装请求信息),再将request对象(和response对象)传递给service方法,调用service方法来处理请求。
2.2 pandas技术
Pandas是python的一个数据分析包,最初由AQR Capital Management于2008年4月开发,并于2009年底开源出来,目前由专注于Python数据包开发的PyData开发team继续开发和维护,属于PyData项目的一部分。Pandas最初被作为金融数据分析工具而开发出来,因此,pandas为时间序列分析提供了很好的支持。 Pandas的名称来自于面板数据(panel data)和python数据分析(data analysis)。panel data是经济学中关于多维数据集的一个术语,在Pandas中也提供了panel的数据类型。
2.3 Echarts技术
Echarts 数据可视化框架通过Pandas数据分析框架我们从Mysql数据库拉到终端的数据集以及数据本体就不需要我们再对其进行处理。只需要交给Echarts可视化库即可。该库兼容当前大部分浏览器,(Chorme,Firefox,Safari等)能给用户提供直观,交互丰富,可高的个性化设置。提供了常见的统计表,我们需要做的就是封装好需要的数据类型以及数据格式传入到指定的实例化中即可。
2.4 MySQL介绍
MySQL作为一种源码比较开源的 RDBMS,采用了目前最常见的数据库管理语言——结构式询问语言(SQL)来实现数据的处理。由于它的速度,可靠性和适应性, MySQL得到了广泛的重视。许多人都觉得 MySQL是不要求进行事务的最好的方法。
2.5 HTML介绍
HTML是一种带有超文字标签的文字,是一种以超连接的形式来表达和整理用户需要的资讯的一种手段。它们可以在相同的文字中同时存在,也可以在其它的文档中存在,也可以在不同的电脑中存在。它把分散在各个地点的资料以一种任意的形式联系起来,便于用户寻找资料。
2.6 CSS介绍
分层风格表(英文全名:分层风格表)是一种用于表示诸如 HTML (一般标签语言的一种)、 XML (一般标签语言的一种)之类的文档风格的一种电脑语言。CSS不但能对页面进行静态的装饰,而且能与多种文字文字结合,对页面中的各个要素进行动态的格式设置。CSS可以在像素级别上准确地控制页面中的要素的放置,可以提供各种字体的大小,还可以实现页面的目标和模式的修改。
2.7 JavaScript介绍
JavaScript(Java脚本)是一种基于对象(Object)和事件驱动( Event Driven)并具有安全性能的脚本语言,使用JavaScript可以轻松的实现与HTML的互操作,并且完成丰富的页面交互效果,它是通过嵌入或调入在标准的HTML语言中实现的,它的出现弥补了HTML的缺陷,是java与HTML折衷的选择。
2.8 Xpath介绍
Xpath,全称XML Path Language,即XML路径语言,可以在XML,HTML文档中查找信息的语言,XPath的选择功能十分强大,提供了非常简明了的路径选择表达式。有超过100个内建函数和几乎所有的定位节点都可以用来选择。使用前需要进行导入Lxml,通过etree格式化网页内容,最后进行发送网页请求、网页解析。
2.9 Re介绍
re模块就是正则表达式的应用 正则表达式对字符串的逻辑操作,主要是对字符串的一种过滤,用“元字符” 与“普通字符”组成一个字符串规则对已知的字符串或文本过滤出自己想要的字符串,本身是对事先定义好的特殊字符以及特定的字符串进行组合拼接。主要的使用范围是对字符串进行获取特定的部分,使用前需导入Re模块,其内置函数有:sub、search、match等通过与Xpath获取的数据进行配合使用。