爬虫作业,含python爬取数据和保存文件,数据分析使用pyecharts做数据可视化 整体上分析网站的排名,直观看各个网站的热度。
数据分析之后大致的效果:
整个项目分为两个大的部分,第一部分就是抓取网站排名数据,然后保存为Excel、csv等格式,其次就是从文件中读取数据并做数据可视化分析。
一、抓取网站排名代码
#!/usr/bin/python
# -*- coding:utf-8 -*-
# 导入模块
import requests
from lxml import etree
from openpyxl import Workbook
wb = Workbook() # 创建一个工作簿
ws_wb = wb.create_sheet(u"网站排名") # 创建一个工作表
ws_wb['a1'] = "网站名"
ws_wb['b1'] = "域名"
ws_wb['c1'] = "Alexa周排名"
ws_wb['d1'] = "反链数"
ws_wb['e1'] = "排名"
ws_wb['f1'] = "得分"
# 确定URL地址
url = 'https://top.chinaz.com/all/index.html'
# 浏览器伪装头
header = {
'User-Agent