python + pandas 如何实现web网页的断点连续采集

news2024/9/25 19:22:07

目录

一、实战场景

二、知识点

python 基础语法

python 文件读写

pandas 数据处理

web 连续采集

三、菜鸟实战

列表页断点连续采集基本思路

基本思路

网页列表页断点连续采集实现

Pandas 保存数据 csv 文件

详情页断点采集思路

基本思路

网页详情页断点连续采集代码实现

Pandas 保存数据 csv 文件

运行结果

运行效果

连续采集截图


一、实战场景

python + pandas 如何实现web网页的断点连续采集

二、知识点

python 基础语法

python 文件读写

pandas 数据处理

web 连续采集

三、菜鸟实战

列表页断点连续采集基本思路

基本思路

列表页采集的时候,采集数据保存到文件, 每次采集的时候,通过读取文件确认上一次采集的页面

网页列表页断点连续采集实现

def __init__(self):
    # 初始化日志
    self.init_log()

    # 默认采集的上一页为第 1 页
    start_page = self.PAGE_START

    list_file_path = self.fileManger.get_data_file_path(self.list_data_file)
    if os.path.isfile(list_file_path):
        # 读取列表文件, 确定上一次采集的第几页, 以支持连续采集
        self.logger.info("数据文件存在")
        self.data_file_exist = True
        # 计算从第几页开始采集
        list_df = pd.read_csv(list_file_path, usecols=['第几页'], encoding=self.encoding)
        max_page = pd.DataFrame(list_df[2:]).max()
        start_page = int(max_page) + 1

    print("采集页面范围: 第[%s]页至第[%s]页" % (start_page, start_page + self.PAGE_STEP - 1))

    for page in range(start_page, start_page + self.PAGE_STEP):
        # 初始化采集链接
        url = self.target_url.replace("p1", "p" + str(page))
        # 构造采集对象
        url_item = UrlItem(url=url, page=page)
        self.url_items.append(url_item)

Pandas 保存数据 csv 文件

def save_to_file(self, data, cols):
    # 保存到文件
    file_path = self.fileManger.get_data_file_path(self.list_data_file)

    # 初始化数据
    frame = pd.DataFrame(data)
    if not self.data_file_exist:
        # 第一次写入带上列表头,原文件清空
        frame.columns = cols
        frame.to_csv(file_path, encoding=self.encoding, index=None)
        self.data_file_exist = True  # 写入后更新数据文件状态
    else:
        # 后续不写如列表头,追加写入
        frame.to_csv(file_path, mode="a", encoding=self.encoding, index=None, header=0)

    self.logger.debug("文件保存完成")

详情页断点采集思路

基本思路

详情页采集的时候,采集数据保存到文件, 为避免重复采集,每次采集的时候,确认采集链接是否在采集的数据文件中,如果在则跳过采集,不在就执行采集

网页详情页断点连续采集代码实现

def __init__(self):
    # 初始化日志
    self.init_log()

    # 从列表文件读取等待采集的链接
    list_file_path = self.fileManger.get_data_file_path(self.list_data_file)
    list_df = pd.read_csv(list_file_path, encoding=self.encoding)
    self.url_items = list_df.values  # 初始化待采集链接数组

    detail_file_path = self.fileManger.get_data_file_path(self.detail_data_file)
    if os.path.isfile(detail_file_path):
        # 从详情文件读取已采集的信息
        self.data_file_exist = True
        detail_df = pd.read_csv(detail_file_path, encoding=self.encoding)
        self.detail_df = detail_df

Pandas 保存数据 csv 文件

def save_to_detail_file(self, data, cols):
    # 保存到详情文件
    file_path = self.fileManger.get_data_file_path(self.detail_data_file)

    # 初始化数据
    frame = pd.DataFrame(data)

    if not self.data_file_exist:
        # 第一次写入带上列表头,原文件清空
        frame.columns = cols
        frame.to_csv(file_path, encoding=self.encoding, index=None)
        self.data_file_exist = True  # 写入后更新数据文件状态
    else:
        # 后续不写如列表头,追加写入
        frame.to_csv(file_path, mode="a", encoding=self.encoding, index=None, header=0)

    self.logger.debug("文件保存完成")

运行结果

运行效果

采集页面范围: 第[16]页至第[20]页

100%|██████████| 5/5 [00:14<00:00, 2.91s/it]

python 版本 3.10.4

连续采集截图

菜鸟实战,持续学习!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/151152.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

RealWorldCTF2023体验赛 部分WEB

WEB &#x1f411;了拼&#x1f411; 拼图或者直接搜索js文件代码 Evil Mysql Server Mysql恶意服务器读取文件&#xff0c;MySQL_Fake_Server或者Rogue-MySql-Server直接读文件&#xff0c;填写vps的ip端口让服务器连接。 Be-a-Language-Expert 前段时间thinkphp6 多语言…

初级软件测试面试会问什么 拿好这些问题的标准答案,offer不在话下

随着互联网的不断发展&#xff0c;企业对于IT方面的人才需求也越来越大&#xff0c;在追求人才数量的同时&#xff0c;也注重人才质量。而面试就成为把握质量的拦门砖&#xff0c;因此&#xff0c;你想要走心仪的公司&#xff0c;那么你在面试中的表现将会直接决定你求职的成败…

C++ 语法基础课7 —— 类、结构体、指针、引用

文章目录1. 类和结构体1.1 类的定义1.2 类的使用1.3 结构体1.4 构造函数2. 指针和引用2.1 指针2.2 数组2.3 引用2.4 查询地址3. 链表3.1 添加结点3.2 删除结点1. 类和结构体 1.1 类的定义 class Person {private:int age, height;double money;string books[100];public:stri…

嵌入式系统移植导学

目录 系统移植导学 系统移植过程 Windows装机 Linux系统移植 开发板启动过程 系统移植导学 操作系统&#xff1a;向下管理硬件、向上提供接口 操作系统为我们提供了&#xff1a; 1.进程管理 2.内存管理 3.网络接口 4.文件系统 5.设备管理 那系统移植是干什么呢&am…

Zabbix使用LLD自动发现规则发现监控docker容器(下)

本篇是使用Zabbix监控docker容器下篇。利用ZABBIX自动发现监控功能&#xff0c;在部署zabbix agent客户端的服务器上&#xff0c;编写自定义功能脚本&#xff0c;实现自动获取服务器上运行的docker服务并监控其运行状态。 前提条件 已经部署好的zabbix监控系统 Zabbix服务器…

自动驾驶专题介绍 ———— 惯性导航

文章目录介绍工作原理特点应用场景介绍 惯性导航系统&#xff08;Inertial Navigation System - INS&#xff09;是一种不依赖外部输入信息、也不向外辐射能量的自助式导航系统&#xff0c;是通过陀螺仪和加速度计为敏感器件的导航参数解算系统。该系统根据陀螺仪输出建立导航坐…

安全—03day

虚拟主机基于域名、端口、IP访问nginx 一、虚拟主机基于域名访问nginx 1.为虚拟主机提供域名解析 echo "192.168.181.130 www.nj.com www.benet.com" >> /etc/hosts2.为虚拟主机准备网页文档 mkdir -p /var/www/html/benet mkdir -p /var/www/html/nj echo…

linux系统中QT进行文本读写操作的方法

大家好&#xff0c;今天主要和大家聊一聊&#xff0c;利用QT进行文本的读写操作方法。 目录 第一&#xff1a;文本读写基本简介 第二&#xff1a;应用实例 第三&#xff1a;运行效果 第一&#xff1a;文本读写基本简介 有时候我们需要对文件进行读写&#xff0c;比如写个Mp3…

第01讲:Docker入门

一、什么是Docker 1、Docker 是一个开源的应用容器引擎 2、诞生于 2013 年初&#xff0c;基于 Go 语言实现&#xff0c; dotCloud 公司出品&#xff08;后改名为Docker Inc&#xff09; 3、Docker 是一个可以让开发者打包他们的应用以及依赖包到一个轻量级、可移植的容器引擎&…

Java--集合--经典七道综合练习题

文章目录 一、集合的遍历方式 二、添加数字并遍历 三、添加学生对象并遍历 四、添加学生对象并遍历 五、添加用户对象并判断是否存在 六、添加手机对象并返回要求的数据 七、创建学生管理系统&#xff08;*****&#xff09; 一、集合的遍历方式 需求&#xff1a;定义一…

深耕5G云专网,阿里云祝顺民入选“2022年度5G创新人物”

2022 年&#xff0c;5G 商用发展成效显著&#xff0c;正在加速产业数字化&#xff0c;全面赋能经济社会发展。运营商 5G 投资超过 4000 亿元&#xff0c;共带动 8.6 万亿元的经济产出&#xff0c;而这一切离不开奋战在 ICT 行业的 5G 应用推动者。 日前&#xff0c;由中国工信…

分享104个PHP源码,总有一款适合您

PHP源码 分享104个PHP源码&#xff0c;总有一款适合您 链接&#xff1a;https://pan.baidu.com/s/1MnmNb3vsofBnQ4kKoMlSBw?pwdkl4o 提取码&#xff1a;kl4o 下面是文件的名字&#xff0c;我放了一些图片&#xff0c;文章里不是所有的图主要是放不下...&#xff0c;大家下载…

Python学生信息管理系统源码,学生教师端分离,支持数据的增删查改、数据分析与统计 基于Tkinter带图形界面

介绍 Python学生信息管理系统。学生教师端分离&#xff0c;支持数据的增删查改、数据分析与统计。 下载地址&#xff1a;Python学生信息管理系统源码 软件架构 Python3.9版本 Python-Tkinter库开发的图形界面 Python-Pandas库数据处理 Python-matplotlib库数据分析与展示 P…

C语言经典100例(006,007)

题目&#xff1a;用*号输出字母C的图案。 程序分析&#xff1a;可先用*号在纸上写出字母C&#xff0c;再分行输出。 程序源代码&#xff1a; #include "stdio.h" int main() {printf("用 * 号输出字母 C!\n");printf(" ****\n");printf("…

CSS知识点精学7-小兔鲜项目实现案例

一.网页和网站的关系 包含关系 网页和网站的关系就是包含关系&#xff0c;网站包含了很多的网页&#xff0c;网页不能单独存在于网络中。 网站是一个整体&#xff0c;网页是一个个体&#xff0c;一个网站是由很多网页构建而成。就像进入百度网站&#xff0c;里面还有其他许多…

AI作画怎么弄?超详细ai绘画教程在这里

AI作画怎么弄&#xff1f;如何实现将照片生成ai漫画图&#xff0c;如何通过关键词描述生成好看的壁纸、背景&#xff1f;最全最详细教程来了&#xff0c;一分钟学会&#xff01; 一、将照片生成二次元 我们先打开数画ai绘画软件&#xff0c;在首页这里&#xff0c;点击“相册”…

【Git】Git常用命令

3、Git 常用命令 命令名称作用git config --global user.name 用户名设置用户签名git config --global user.email 邮箱设置用户签名git init初始化本地库git status查看本地库状态git add 文件名添加到暂存区git commit -m “日志信息” 文件名提交到本地库git reflog查看历史…

手写RPC框架06-基于线程和队列提升框架并发处理能力

源代码地址&#xff1a;https://github.com/lhj502819/IRpc/tree/v7 系列文章&#xff1a; 注册中心模块实现路由模块实现序列化模块实现过滤器模块实现自定义SPI机制增加框架的扩展性的设计与实现基于线程和队列提升框架并发处理能力 Server端 现有的问题 目前我们的RPC框…

酷早报:1月9日全球Web3加密行业重大资讯大汇总

2023年1月9日 星期一 【数据指标】 加密货币总市值&#xff1a;$0.84万亿 BTC市值占比&#xff1a;39.14% 恐慌贪婪指数&#xff1a;25 极度恐慌【今日快讯】 1、【政讯】 1.1、美债关键收益率曲线倒挂幅度创纪录以来新高 1.2.1、美联储博斯蒂克&#xff1a;倾向于将利率升至5%…

2020年MathorCup高校数学建模挑战赛—大数据竞赛A题移动通信基站流量预测求解全过程文档及程序

2020年MathorCup高校数学建模挑战赛—大数据竞赛 A题 移动通信基站流量预测 原题再现&#xff1a; 随着移动通信技术的发展&#xff0c;4G、5G 给人们带来了极大便利。移动互联网的飞速发展&#xff0c;使得移动流量呈现爆炸式增长&#xff0c;从而基站的流量负荷问题变得越来…