python期末作业:批量爬取站长之家的网站排行榜数据并保存,数据分析可视化

news2024/10/7 6:43:36

        爬虫作业,含python爬取数据和保存文件,数据分析使用pyecharts做数据可视化 整体上分析网站的排名,直观看各个网站的热度。

        数据分析之后大致的效果:

               整个项目分为两个大的部分,第一部分就是抓取网站排名数据,然后保存为Excel、csv等格式,其次就是从文件中读取数据并做数据可视化分析。

    一、抓取网站排名代码

#!/usr/bin/python
# -*- coding:utf-8 -*-
# 导入模块
import requests
from lxml import etree
from openpyxl import Workbook

wb = Workbook()  # 创建一个工作簿
ws_wb = wb.create_sheet(u"网站排名")  # 创建一个工作表
ws_wb['a1'] = "网站名"
ws_wb['b1'] = "域名"
ws_wb['c1'] = "Alexa周排名"
ws_wb['d1'] = "反链数"
ws_wb['e1'] = "排名"
ws_wb['f1'] = "得分"
# 确定URL地址
url = 'https://top.chinaz.com/all/index.html'
# 浏览器伪装头
header = {
    'User-Agent

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1688197.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【linux特殊符号】

文章目录 学习目标一、Linux的特殊符号1.系统变量2.引号 总结 学习目标 1.学会查看系统变量 2.学会各种引号 3.一、Linux的特殊符号 1.系统变量 windows系统变量:echo %path% linux系统变量:echo $PATH2.引号 " " 双引号,换行…

centos ping: www.baidu.com: 未知的名称或服务

可以检查 /etc/sysconfig/network-scripts/ifcfg-ens33和/etc/resolv.conf这两个文件里面的内容: 这个就不多说了,可以看教程合集的000文档 还有一个原因就是路由网关没有配置: netstat -rn 如果GATEWAY这里没有显示你的网关信息&#xff08…

有道:一季度业绩超市场预期,生成式AI商业化落地进程加快

5月23日,教育科技公司网易有道(NYSE:DAO)公布了2024年第一季度未经审计的财务报告。报告期内,受益于“AI”加“教育”双轮驱动,业绩表现超市场预期,业务健康度大幅改善。 财报显示,…

体量小但增速快,国内OTA平台与国际巨头差在哪?

5月3日,Booking、Expedia等国际OTA平台相继发布2024年第一季度财报。5月21日,携程发布2024年第一季度财报。至此,国内外主要OTA平台一季度成绩单均已披露。 受益于全球旅游市场复苏,三家OTA平台一季度营收同比均正向增长。增长之…

Unity LayerMask避坑笔记

今天使用Physics2D.OverlapAreaNonAlloc进行物理检测时候,通过LayerMask.NameToLayer传入了int值的LayerMask,结果一直识别不到,经过Debug才找到问题,竟是LayerMask的“值”传输有问题,记录一下。 直接贴代码输出结果&…

最大负载1kg!高度模块化设计!大象机器人智能遥控操作机械臂组合myArm MC

引入 近年来,市面上涌现了许多类似于斯坦福大学的 Alopha 机器人项目,这些项目主要通过模仿人类的运动轨迹来进行学习,实现了仿人类的人工智能。Alopha 机器人通过先进的算法和传感技术,能够精确复制人类的动作,并从中…

ViLT学习

多模态里程碑式的文章,总结了四种多模态方法,根据文字和图像特征特征抽取方式不通。 文章的贡献主要是速度提高了,使用了数据增强,文本的mask 学习自b站朱老师的论文讲解

搭建电商电子商务平台有哪些好用的电商API数据采集接口?

电商API接口主要用于帮助开发者将电商功能集成到自己的应用程序中,实现诸如商品检索、商品价格数据获取、订单处理、支付、物流跟踪等功能。以下是一些常用的电商API接口提供商: 主流电商平台API: 淘宝开放平台:提供淘宝、天猫、…

网络安全架构之零信任安全

网络安全架构之零信任安全 文章目录 网络安全架构之零信任安全零信任安全时代背景安全世界“新旧时代”各种攻击风险层出不穷网络安全边界逐渐瓦解内外部威胁愈演愈烈 零信任架构零信任的理念在不可信的网络环境下重建信任构建自适应内生安全机制以身份为基石业务安全访问持续信…

智能禁区监控:计算机视觉在人员禁区闯入检测中的应用

基于视觉分析的人员禁区闯入行为检测算法主要依赖于计算机视觉技术和深度学习算法。这些技术结合高性能的摄像头和图像处理硬件,实现了对监控区域内人员行为的自动识别和分析。具体来说,这种检测算法利用摄像头捕捉的视频数据,通过深度学习模…

倍思科技获14项红点设计奖,引领中国移动数码品牌创新风潮

近日,国际红点设计大奖公布了2024年获奖名单,中国移动数码品牌倍思科技凭借其出色的产品设计实力,一举斩获14项红点设计奖。这些获奖产品涵盖了充电、音频、车用等多个品类,展现了倍思科技在创新设计和实用功能方面的卓越成就。 红点设计奖作为世界知名设计竞赛,素有“设计界的…

采用Java语言开发的(云HIS医院系统源码+1+N模式,支撑运营,管理,决策多位一体)

采用Java语言开发的(云HIS医院系统源码1N模式,支撑运营,管理,决策多位一体) 是不是网页形式【B/S架构]才是云计算服务? 这是典型的误区! 只要符合上述描述的互联网服务都是云计算服务,并没有规定是网页…

DelayQueue原理分析

1.简介 DelayQueue同样也是适用于并发环境下的容器之一,该容器属于阻塞队列的一种,其底层数据结构是PriorityQueue,主要应用于执行定时任务和缓存过期删除的场景。 DelayQueue也是线程安全的,它通过内部的ReentrantLock实现了线程…

error1310 写入文件时发生错误,请确认您是否有访问权限 也可能出现error 1304 :写入文件时出错

一般错误提示如下 error1310 Error writing to file 错误 1310 :写入文件时出错:请确认您有权访问该目录, error1304 Error writing to file 错误 1304 :写入文件时出错:请确认您有权访问该目录 1.首先我们退出所…

【保姆级教程】基于OpenCV+Python的人脸识别上课签到系统

【保姆级教程】基于OpenCVPython的人脸识别上课签到系统 一、软件安装及环境配置1. 安装IDE:PyCharm2. 搭建Python的环境3. 新建项目、安装插件、库 二、源文件编写1. 采集人脸.py2. 训练模型.py3. 生成表格.py4. 识别签到.py5. 创建图形界面.py 三、相关函数分析1.…

【文心智能体】创建一个属于自己的生活情感类智能体

文章目录 前言一、创建智能体二、体验 前言 智能体技术的快速发展,进一步激发了各行业开发者对其实际应用及用户需求的深入探索。 创建一个属于自己的智能体。文心一言提供了一个很好的平台。 提示:以下是本篇文章正文内容,下面案例可供参考…

【运维】笔记本电脑风扇清洁

笔记本电脑是我们不可或缺的工具,无论是工作、学习还是娱乐。然而,随着时间的推移,笔记本电脑的性能可能会因为各种原因受到影响,尤其是散热问题。过热不仅会降低性能,还可能缩短硬件的寿命。最近,在使用我…

CATIA入门操作——萌新宝宝遇到的奇奇怪怪的问题解决,持续更新中。。。

目录 引出发生肾么事了??鼠标中键旋转不了解决:特征树不显示参数关系 我的窗口去哪了?插曲:草图工具的调出插曲:颜色工具栏显示 弹窗警告警告:创建约束是临时的 操作技巧技巧:快速隐…

ROS | C++和python实现IMU数据获取

实验步骤: 协方差矩阵的用途: C: Pyhton:

网络安全、信息安全、数据安全的定义与区别

信息安全 信息安全是指信息的保密性、完整性、可用性和真实性的保持。从定义角度来说,信息安全没有严格标准定义,但从信息安全涉及的内容出发,信息安全确保信息存储或传输中的信息,不被他人有意或无意的窃取与破坏。这里的“信息”…