爬虫案例3——爬取彩票双色球数据

news2024/12/25 8:53:33

简介:个人学习分享,如有错误,欢迎批评指正

任务从500彩票网中爬取双色球数据

目标网页地址:https://datachart.500.com/ssq/

一、思路和过程

目标网页具体内容如下:
​​​​​
在这里插入图片描述

我们的任务是将上图中红色、蓝色两种颜色球的数字按行爬取下来。

1.定义目标URL

由于网页普遍具有反爬程序,不加修饰的直接访问网页可能会失败,所以第一步学会伪装自己。
如何伪装自己呢,可以通过找到正常访问网页时的访问状态,将自己的这次爬虫模拟成一次正常访问网页,因此我们的目标是找到正常访问网页时的User-Agent。User Agent中文名为用户代理,(简称 UA,它是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等)。User-Agent就是你访问网页的身份证明。具体操作如下:

首先打开目标(/任意)网页,然后点击鼠标右键后选择检查打开网页的HTML 页面。
在这里插入图片描述

在HTML 页面里面依次点击网络,然后任意点一条网络请求(如果没有显示任何网络请求可以点击网页左上角的刷新),然后选择标头,下拉列表找到User-Agent,User-Agent后面那段内容就是我们用来伪装自己的身份码。

在这里插入图片描述

2.发送GET请求获取网页内容

通过上面的步骤我们获得了
url = ‘https://datachart.500.com/ssq/’

User-Agent:‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36 Edg/126.0.0.0’

接下来发起网页访问请求,代码如下:

import requests  # 引入requests库,用于发送HTTP请求
from lxml import etree  # 引入lxml库中的etree模块,用于解析HTML文档

# 定义目标URL,即要爬取的网页地址
url = 'https://datachart.500.com/ssq/'

# 定义HTTP请求头,其中包括User-Agent信息,用于伪装成浏览器进行访问
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36 Edg/126.0.0.0'
}

# 发送GET请求获取网页内容,并将响应内容存储在resp变量中
resp = requests.get(url, headers=headers)
# 设置响应内容的编码格式为gbk,确保中文字符正常显示
resp.encoding = 'gbk'
# 打印响应内容,检查获取到的HTML文本
print(resp.text)

查看print结果,我们发现成功获得了网页相关的html表达,

在这里插入图片描述

3.分析网页内容

接下来对html进行解析获得我们目标内容。
这里,我们需要借助工具xpath来辅助内容解析,xpath安装教程

安装成功后,按Ctrl+Shift+Alt 启动 xpath,网页上方出现如下图所示框,
在这里插入图片描述
找到目标内容方法
例:我们的目标是找到红球7在html中的位置。点击如下图左边标记(1),该命令的含义是在网页中选择一个元素以进行检查,即当你把鼠标放在网页的某一位置,下面也会自动定位到html中该内容所在位置,如图所示,把鼠标放在红球数字7位置(2),下面显示红球数字7在html中所在位置(3)。
在这里插入图片描述

明确目标内容的位置。具体的,如下图所示,红框内的数字[1,3,4,8,7,3,7],它位于tboby id="tdata"中的tr层中的td层里面。

在这里插入图片描述

因此,我们可以通过这个层层关系来找到目标所有红球,借助刚才安装的工具xpath,下面一步步演示层层查找过程。
首先,在query中添加//tbody[@id=“tdata”],可以发现右边的results将所有球的数字信息以一个整体返回了。
在这里插入图片描述

其次,加上筛选条件tr得

在这里插入图片描述
但是,我们发现原表中还有横线这一情况,它不包含数字,但是却也被筛选进来了,因此,我们需要这个情况进行处理
在这里插入图片描述
添加条件: tr[not(contains(@class,"tdbck"))], 含义就是取所有不包含class=tdbck的tr,即排除了上面的横线部分。
在这里插入图片描述

需要注意的是,我们目标是红球的数字,在td中红球数字的格式与普通球的格式不一样,如下面红框框里面红球的数字格式。我们发现普通球的格式为class =“y101”,而红球为class=“chartBall01” ,
在这里插入图片描述

因此进一步添加条件:td[contains(@class,"chartBall01")],即取td里面class=chartBall01的值。如下图,可以发现所有的红球数字被单独取出来了。

在这里插入图片描述

蓝球数字的读取同上,下图可以发现所有的蓝球数字被单独取出来了
在这里插入图片描述

因此,通过xpath的可视化辅助,得上面地址
//tbody[@id="tdata"]/tr[not(contains(@class,"tdbck"))]/td[contains(@class,"chartBall01")]可以获取红球数据,
//tbody[@id=“tdata”]/tr[not(contains(@class,“tdbck”))]/td[contains(@class,“chartBall02”)]可以获取蓝球数据。

4.获取目标数据

上一步得到了目标数据的地址,接下来就是分别获得到目标数据,代码如下:

# 使用etree.HTML方法将HTML文本解析为一个HTML文档对象
e = etree.HTML(resp.text)

# 使用XPath语法从HTML文档中提取出红球号码数据
# 这里tr元素中包含class为"chartBall01"的td元素,代表红球号码
reds = [tr.xpath('./td[contains(@class,"chartBall01")]/text()') for tr in e.xpath('//tbody[@id="tdata"]/tr[not(contains(@class,"tdbck"))]')]

# 使用XPath语法从HTML文档中提取出蓝球号码数据
# 这里td元素中包含class为"chartBall02"的td元素,代表蓝球号码
blues = e.xpath('//tbody[@id="tdata"]/tr[not(contains(@class,"tdbck"))]/td[contains(@class,"chartBall02")]/text()')

5.保存数据

存为一个txt文件

# 打开一个名为'two_tone_ball.txt'的文件,使用utf-8编码进行写入
with open('two_tone_ball.txt', 'w', encoding='utf-8') as f:
    # 使用zip函数将红球号码和蓝球号码数据组合在一起,逐行写入文件
    for re, bl, in zip(reds, blues):
        # 写入格式为:红球号码:xxx 蓝球号码:xxx
        f.write(f'红球号码:{re} 蓝球号码:{bl}\n')

二、完整python代码

import requests  # 引入requests库,用于发送HTTP请求
from lxml import etree  # 引入lxml库中的etree模块,用于解析HTML文档

# 定义目标URL,即要爬取的网页地址
url = 'https://datachart.500.com/ssq/'

# 定义HTTP请求头,其中包括User-Agent信息,用于伪装成浏览器进行访问
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36 Edg/126.0.0.0'
}

# 发送GET请求获取网页内容,并将响应内容存储在resp变量中
resp = requests.get(url, headers=headers)
# 设置响应内容的编码格式为gbk,确保中文字符正常显示
resp.encoding = 'gbk'
# 打印响应内容,检查获取到的HTML文本
print(resp.text)

# 使用etree.HTML方法将HTML文本解析为一个HTML文档对象
e = etree.HTML(resp.text)

# 使用XPath语法从HTML文档中提取出红球号码数据
# 这里tr元素中包含class为"chartBall01"的td元素,代表红球号码
reds = [tr.xpath('./td[contains(@class,"chartBall01")]/text()') for tr in e.xpath('//tbody[@id="tdata"]/tr[not(contains(@class,"tdbck"))]')]

# 使用XPath语法从HTML文档中提取出蓝球号码数据
# 这里td元素中包含class为"chartBall02"的td元素,代表蓝球号码
blues = e.xpath('//tbody[@id="tdata"]/tr[not(contains(@class,"tdbck"))]/td[contains(@class,"chartBall02")]/text()')


# 打开一个名为'two_tone_ball.txt'的文件,使用utf-8编码进行写入
with open('two_tone_ball.txt', 'w', encoding='utf-8') as f:
    # 使用zip函数将红球号码和蓝球号码数据组合在一起,逐行写入文件
    for re, bl, in zip(reds, blues):
        # 写入格式为:红球号码:xxx 蓝球号码:xxx
        f.write(f'红球号码:{re} 蓝球号码:{bl}\n')

结~~~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2041106.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

数学建模——启发式算法(蚁群算法)

算法原理 蚁群算法来自于蚂蚁寻找食物过程中发现路径的行为。蚂蚁并没有视觉却可以寻找到食物,这得益于蚂蚁分泌的信息素,蚂蚁之间相互独立,彼此之间通过信息素进行交流, 从而实现群体行为。 蚁群算法的基本原理就是蚂蚁觅食的过程…

一套完整的NVR方案与部分NVR录像机GUI源码剖析

一、部分功能展示 1.1 通道管理部分 在NVR系统中,通道管理是核心功能之一。通过通道管理,用户可以对连接的摄像头进行配置和监控。 通道连接使能:用户可以选择开启或关闭特定通道的连接功能,以实现灵活的设备管理。 时间同步&…

Aigtek高压功率放大器指标参数是什么

高压功率放大器是一种用于将电信号放大到较高电压水平的设备。其指标参数对于选择、设计和应用都至关重要。以下是一些常见的高压功率放大器指标参数,详细了解这些参数可以帮助工程师更好地了解设备的性能和适用范围。 电压增益: 电压增益是功率放大器输…

每日一题,力扣leetcode Hot100之189.轮转数组

解题思路,把数组轮换想成栈的出栈后又入栈即可,当然要判断好K的量,因为K有可能会超过数组长度 class Solution:def rotate(self, nums: List[int], k: int) -> None:"""Do not return anything, modify nums in-place ins…

25款极氪007上市,小米SU7就不该买?

文 | AUTO芯球 作者 | 谦行 我是刚刚才知道 买小米SU7的原来是盯着他这两个功能 可爱的小女孩喊小爱同学帮她停个车 妈妈给她说SU7自己能停好,她还叮嘱一句“小爱同学你给我好好停” SU7滴溜溜的就停在车位上,全程不到一分钟 视频属实温馨&#x…

剪辑新手必备:2024年爱剪辑官网免费版下载指南

嘿,朋友们!现在视频在我们生活中就像空气一样,无处不在。无论是记录日常生活的小片段,还是制作一些有趣的视频内容,一款好的剪辑软件都特别关键。今天咱们就来聊聊2024年那些特别受欢迎的剪辑软件,顺便推荐…

Linux---03---网络及防火墙

课程回顾 虚拟安装 文件命令 本章重点 网络相关概念 静态网络配置 一、网络 1.1 什么是网络? 计算机网络是继电信网络、有线电视网络之后出现的世界级大型网络。 计算机网络由若干个结点和连接这些结点的链路组成。 网络中的结点可以是计算机、交换机、路…

虚幻5|给攻击添加特效

一,打开武器蓝图 选择武器网格体,在细节处找到组件开始重叠,点击 写下以下蓝图,这是最终蓝图,后面会分讲要点 二,actor拥有标签,就是被击打的敌人,我们给actor添加标签 到主界面&am…

Linux之sed命令和正则表达式

什么是sed编辑器? sed是一个命令行文本编辑工具,用于对文本进行处理和转换。它可以读取文本文件,对文件的各个行进行修改、删除和替换操作,并将结果输出到标准输出或者文件中。 sed 被广泛用于Unix和类Unix系统中的脚本和命令行操作中&#…

二极管作用

防止电源反接 电路目的是为了,防止电源反接,对电路中的电子元器件造成破坏,造成财产损失或者人身安全。 原理 二极管单向导电性,二极管0.7V正向压降不会对电路造成影响 原理图 这里U7是一个二极管,如果电源反接&…

C++STL初阶(10):list的简易实现(下)

在上一文中我们完成了链表的多数基本接口,本文主要围绕构造函数进行补充 1. 链表的拷贝 在前文中我们没有手动实现拷贝构造,所以使用的就是编译器自动生成的浅拷贝 先使用一下编译器自动生成的浅拷贝: 我们在打印li2之前给li1加入一个数据&…

Python 如何使用 Contextlib 模块

Python 中的 contextlib 模块提供了一些实用工具,帮助我们管理上下文管理器和与上下文相关的操作。上下文管理器是一种对象,它定义了进入和退出代码块时要执行的操作,通常用于资源管理,如文件操作、网络连接等。上下文管理器通常与…

【SPIE出版】第四届计算机视觉、应用与算法国际学术会议(CVAA 2024,10月11-13)

计算机视觉、应用与算法的领域,一直在飞速发展,第四届计算机视觉、应用与算法国际学术会议(CVAA 2024) 将汇聚世界各地的顶尖学者、研究人员和企业代表,共同分享和交流计算机视觉在各个领域的最新研究成果、技术突破和产业应用。 …

ElementPlus table上移下移操作、表格嵌套树选择器

步骤条圆圈中的数字根据所选样式展示&#xff1a; <el-stepsstyle"margin-top: 20px; max-width: 700px"align-center:active"formModel.testData.length 1"><el-steptitle"Step 1"v-for"(item, index) in formModel.testData&qu…

技术应用 | 外语专业如何借助大模型转型升级?

一、选哪一条路&#xff1a;评测大模型、应用大模型、研发大模型 如果把大语言模型当作是“一个人”&#xff0c;那么既可以把这个“人”当作研究对象&#xff0c;研究它几岁了、智商如何了、能做什么、不能做什么、危不危险&#xff0c;也就是“评测大模型”&#xff1b;也可…

django电商易购系统-计算机毕业设计源码61059

目 录 1 绪论 1.1选题背景 1.2研究意义 1.3论文结构与章节安排 2 电商易购系统系统分析 2.1 可行性分析 2.2 系统流程分析 2.2.1 数据流程 3.3.2 业务流程 2.3 系统功能分析 2.3.1 功能性分析 2.3.2 非功能性分析 2.4 系统用例分析 2.5本章小结 3 电商易购系统总…

Java设计模式-原型模式-一次性理解透

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 1. 前言2. 原型模式的主要角色2.1 原型接口或抽象类2.2 具体原型类2.3 客户端2.4 克隆方法 3. 原型模式使用场景3.1 创建对象是昂贵的3.2 对象的变化3.3 动态配置3.…

10-使用sentinel流控

本文介绍sentinel的直接流控的使用。 0、环境 jdk 1.8sentinel 1.8.2springboot 2.4.2 1、sentinel环境搭建 从官方发布的网站上下载: sentinel Jar&#xff0c;下载对应版本。 下载完成后&#xff0c;进入刚才下载的Jar文件所在的目录&#xff0c;执行如下命令&#xff1a…

Qt+OpenCV配置和测试

一、前言 OpenCV作为比较大众化的跨平台计算机视觉开源库&#xff0c;可以运行在多种操作系统上&#xff0c;通过与Qt的结合&#xff0c;能够轻松的是实现一些图像处理和识别的任务&#xff0c;本文在Windows操作系统的基础上具体讲解Qt和OpenCV的配置和环境搭建方法&#xff…

PHP企业员工考勤系统—计算机毕业设计源码17108

摘要 由于数据库和数据仓库技术的快速发展&#xff0c;企业员工考勤系统建设越来越向模块化、智能化、自我服务和管理科学化的方向发展。员工管理系统对处理对象和服务对象&#xff0c;自身的系统结构&#xff0c;处理能力&#xff0c;都将适应技术发展的要求发生重大的变化。 …