利用爬虫技术自动化采集汽车之家的车型参数数据

news2024/9/24 19:19:55

{亿牛云}.png

导语

汽车之家是一个专业的汽车网站,提供了丰富的汽车信息,包括车型参数、图片、视频、评测、报价等。如果我们想要获取这些信息,我们可以通过浏览器手动访问网站,或者利用爬虫技术自动化采集数据。本文将介绍如何使用Python编写一个简单的爬虫程序,实现对汽车之家的车型参数数据的自动化采集,并使用亿牛云爬虫代理服务来提高爬虫的稳定性和效率。

概述

爬虫技术是一种通过编程模拟浏览器访问网页,解析网页内容,提取所需数据的技术。爬虫程序通常需要完成以下几个步骤:

  • 发送HTTP请求,获取网页源代码
  • 解析网页源代码,提取所需数据
  • 存储或处理提取的数据

在实际的爬虫开发中,我们还需要考虑一些其他的问题,例如:

  • 如何避免被网站反爬机制识别和封禁
  • 如何提高爬虫的速度和效率
  • 如何处理异常和错误

为了解决这些问题,我们可以使用一些工具和服务来辅助我们的爬虫开发,例如:

  • 使用requests库来发送HTTP请求,简化网络编程
  • 使用BeautifulSoup库或者XPath语法来解析网页源代码,方便数据提取
  • 使用pandas库或者csv模块来存储或处理提取的数据,支持多种数据格式
  • 使用亿牛云爬虫代理服务来隐藏真实IP地址,防止被网站封禁
  • 使用多线程或者协程来并发发送HTTP请求,提高爬虫的速度和效率
  • 使用try-except语句或者logging模块来处理异常和错误,增加爬虫的稳定性和可维护性

正文

下面我们将使用Python编写一个简单的爬虫程序,实现对汽车之家的车型参数数据的自动化采集。我们以"奥迪A4L"为例,获取其所有在售车型的基本参数、动力参数、底盘转向参数、安全装备参数和外部配置参数。

1. 导入所需库和模块

首先,我们需要导入以下几个库和模块:

# 导入requests库,用于发送HTTP请求
import requests

# 导入BeautifulSoup库,用于解析网页源代码
from bs4 import BeautifulSoup

# 导入pandas库,用于存储或处理提取的数据
import pandas as pd

# 导入time模块,用于控制爬虫速度
import time

# 导入random模块,用于生成随机数
import random

# 导入threading模块,用于实现多线程爬虫
import threading

# 导入queue模块,用于实现线程间通信
import queue

# 导入logging模块,用于记录日志信息
import logging

2. 定义全局变量和常量

接下来,我们需要定义一些全局变量和常量,用于存储或控制爬虫程序的运行状态:

# 定义奥迪A4L的车型参数页面的URL
URL = 'https://www.autohome.com.cn/3170/#levelsource=000000000_0&pvareaid=101594'

# 定义亿牛云爬虫代理的域名、端口、用户名、密码
PROXY_HOST = 'www.16yun.cn'
PROXY_PORT = '8020'
PROXY_USER = '16YUN'
PROXY_PASS = '16IP'

# 定义爬虫代理的HTTP头部
PROXY_HEADERS = {
    'Proxy-Authorization': 'Basic ' + base64.b64encode((PROXY_USER + ':' + PROXY_PASS).encode()).decode()
}

# 定义爬虫请求的HTTP头部UserAgent
HEADERS = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36'
}

# 定义爬虫请求的超时时间(秒)
TIMEOUT = 10

# 定义爬虫请求的重试次数
RETRY = 3

# 定义爬虫请求的最小间隔时间(秒)
MIN_DELAY = 1

# 定义爬虫请求的最大间隔时间(秒)
MAX_DELAY = 3

# 定义爬虫线程的数量
THREADS = 10

# 定义车型参数数据的列名
COLUMNS = ['车型', '基本参数', '动力参数', '底盘转向参数', '安全装备参数', '外部配置参数']

# 定义车型参数数据的空列表,用于存储提取的数据
DATA = []

# 定义车型URL的队列,用于实现线程间通信
QUEUE = queue.Queue()

# 定义日志格式和级别
logging.basicConfig(format='%(asctime)s - %(levelname)s - %(message)s', level=logging.INFO)

3. 定义发送HTTP请求的函数

然后,我们需要定义一个函数,用于发送HTTP请求,获取网页源代码:

def get_html(url):
    # 初始化重试次数
    retry = RETRY
    
    # 循环发送HTTP请求,直到成功或达到重试次数上限
    while retry > 0:
        try:
            # 使用requests库发送HTTP请求,设置代理和超时时间
            response = requests.get(url, headers=HEADERS, proxies={'http': f'http://{PROXY_USER}:{PROXY_PASS}@{PROXY_HOST}:{PROXY_PORT}'}, timeout=TIMEOUT)
            
            # 判断HTTP响应状态码是否为200,即成功
            if response.status_code == 200:
                # 返回网页源代码
                return response.text
            
            # 否则,记录错误信息,并减少重试次数
            else:
                logging.error(f'请求失败,状态码:{response.status_code},URL:{url}')
                retry -= 1
        
        # 捕获异常,并记录错误信息,并减少重试次数
        except Exception as e:
            logging.error(f'请求异常,异常信息:{e},URL:{url}')
            retry -= 1
    
    # 如果重试次数为0,说明请求失败,返回空值
    if retry == 0:
        logging.error(f'请求失败,重试次数用尽,URL:{url}')
        return None

4. 定义解析网页源代码的函数

接着,我们需要定义一个函数,用于解析网页源代码,提取所需数据:

def parse_html(html):
    # 使用BeautifulSoup库解析网页源代码,指定解析器为lxml
    soup = BeautifulSoup(html, 'lxml')
    
    # 使用XPath语法提取车型名称
    car_name = soup.select_one('//div[@class="subnav-title-name"]/a/text()')
    
    # 使用XPath语法提取车型参数表格
    car_table = soup.select_one('//div[@id="config_data"]/div/table')
    
    # 判断车型名称和车型参数表格是否存在
    if car_name and car_table:
        # 初始化车型参数数据的字典,用于存储提取的数据
        car_data = {}
        
        # 将车型名称添加到车型参数数据的字典中,作为第一个键值对
            
        # 使用XPath语法提取车型参数表格的所有行
        car_rows = car_table.select('//tr')

        # 遍历车型参数表格的所有行
        for car_row in car_rows:
            # 使用XPath语法提取每一行的第一个单元格,即参数类别
            car_category = car_row.select_one('//th/text()')

            # 使用XPath语法提取每一行的第二个单元格,即参数值
            car_value = car_row.select_one('//td/div/text()')

             # 判断参数类别和参数值是否存在
            if car_category and car_value:
               # 将参数类别和参数值添加到车型参数数据的字典中,作为键值对
               car_data[car_category] = car_value

         # 返回车型参数数据的字典
         return car_data

    # 否则,记录错误信息,并返回空值
    else:
      logging.error('解析失败,无法提取车型名称或车型参数表格')
      return None

5. 定义存储或处理提取的数据的函数

然后,我们需要定义一个函数,用于存储或处理提取的数据:

def save_data(data):
    # 判断数据是否存在
    if data:
        # 将数据添加到车型参数数据的空列表中
        DATA.append(data)

        # 记录信息,显示数据已保存
        logging.info(f'数据已保存,车型:{data["车型"]}')
    
    # 否则,记录错误信息,显示数据为空
    else:
        logging.error('数据为空,无法保存')

6. 定义爬虫线程的类

接着,我们需要定义一个类,用于实现爬虫线程的功能:

class SpiderThread(threading.Thread):
    # 重写初始化方法,传入线程名称和队列对象
    def __init__(self, name, queue):
        # 调用父类的初始化方法
        super().__init__()

        # 设置线程名称
        self.name = name

        # 设置队列对象
        self.queue = queue
    
    # 重写运行方法,实现爬虫逻辑
    def run(self):
        # 记录信息,显示线程开始运行
        logging.info(f'线程{self.name}开始运行')

        # 循环从队列中获取车型URL,直到队列为空
        while not self.queue.empty():
            # 从队列中获取车型URL,并移除该元素
            url = self.queue.get()

            # 记录信息,显示正在处理该URL
            logging.info(f'线程{self.name}正在处理{url}')

            # 调用发送HTTP请求的函数,获取网页源代码
            html = get_html(url)

            # 判断网页源代码是否存在
            if html:
                # 调用解析网页源代码的函数,提取所需数据
                data = parse_html(html)

                # 调用存储或处理提取的数据的函数,保存或处理数据
                save_data(data)
            
            # 否则,记录错误信息,显示网页源代码为空
            else:
                logging.error(f'网页源代码为空,无法处理{url}')
            
            # 生成一个随机数,作为爬虫请求的间隔时间
            delay = random.randint(MIN_DELAY, MAX_DELAY)

            # 记录信息,显示爬虫请求的间隔时间
            logging.info(f'线程{self.name}等待{delay}秒')

            # 使用time模块暂停爬虫请求的间隔时间
            time.sleep(delay)
        
        # 记录信息,显示线程结束运行
        logging.info(f'线程{self.name}结束运行')

7. 定义主函数

最后,我们需要定义一个主函数,用于启动爬虫程序:

def main():
    # 记录信息,显示爬虫程序开始运行
    logging.info('爬虫程序开始运行')

    # 调用发送HTTP请求的函数,获取车型参数页面的网页源代码
    html = get_html(URL)

    # 判断网页源代码是否存在
    if html:
        # 使用BeautifulSoup库解析网页源代码,指定解析器为lxml
        soup = BeautifulSoup(html, 'lxml')

        # 使用XPath语法提取所有在售车型的URL列表
        car_urls = soup.select('//div[@id="config_data"]/div/div/ul/li/a/@href')

        # 判断车型URL列表是否存在
        if car_urls:
            # 遍历车型URL列表
            for car_url in car_urls:
                # 将车型URL添加到车型URL的队列中
                QUEUE.put(car_url)
            
            # 初始化一个空列表,用于存储爬虫线程对象
            threads = []

            # 遍历爬虫线程的数量范围
            for i in range(THREADS):
                # 创建一个爬虫线程对象,并传入线程名称和队列对象
                thread = SpiderThread(f'线程{i+1}', QUEUE)

                # 将爬虫线程对象添加到爬虫线程对象的空列表中
                threads.append(thread)
            
            # 遍历爬虫线程对象的空列表
            for thread in threads:
                # 启动爬虫线程
                thread.start()
            
            # 遍历爬虫线程对象的空列表
            for thread in threads:
                # 等待爬虫线程结束
                thread.join()
            
            # 记录信息,显示所有爬虫线程已结束
            logging.info('所有爬虫线程已结束')
        
        # 否则,记录错误信息,显示车型URL列表为空
        else:
            logging.error('车型URL列表为空,无法继续爬取')
    
    # 否则,记录错误信息,显示网页源代码为空
    else:
        logging.error('网页源代码为空,无法继续爬取')
    
    # 判断车型参数数据的空列表是否存在
    if DATA:
        # 使用pandas库创建一个数据框对象,传入车型参数数据的空列表和列名
        df = pd.DataFrame(DATA, columns=COLUMNS)

        # 使用pandas库将数据框对象保存为CSV文件,指定文件名和编码格式
        df.to_csv('car_data.csv', encoding='utf-8-sig', index=False)

        # 记录信息,显示数据已导出为CSV文件
        logging.info('数据已导出为CSV文件')
    
    # 否则,记录错误信息,显示数据为空
    else:
        logging.error('数据为空,无法导出')
    
    # 记录信息,显示爬虫程序结束运行
    logging.info('爬虫程序结束运行')

结语

本文介绍了如何使用Python编写一个简单的爬虫程序,实现对汽车之家的车型参数数据的自动化采集,并使用亿牛云爬虫代理服务来提高爬虫的稳定性和效率。本文只是一个简单的示例,实际的爬虫开发可能需要更多的技巧和知识。希望本文能够对你有所帮助和启发。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1019570.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

flutter开发实战-长按TextField输入框cut、copy设置为中文复制、粘贴

flutter开发实战-长按TextField输入框cut、copy设置为中文复制、粘贴 在开发过程中,需要长按TextField输入框cut、copy设置为中文“复制、粘贴”,这里记录一下设置的代码。 一、pubspec.yaml设置flutter_localizations 在pubspec.yaml中设置flutter_l…

教你制作简单的洪水淹没模型

制作思路: 利用GIS软件将地形图通过高程垂直夸大,显示出其地形地貌,绘制一个面,使面从下向上移动,因地形高程的不同,面穿过地形图的面积不同,从而视觉上模拟出了水淹没的过程。 前期准备&…

facechain环境部署

环境安装 # 创建虚拟环境facechain conda create -n facechain python3.8 conda activate facechain # 克隆 GIT_LFS_SKIP_SMUDGE1 git clone https://github.com/modelscope/facechain.git --depth 1 # 安装第三方库 cd facechain pip install -r requirements.txt pip insta…

【JavaEE】操作系统内核中的进程

文章目录 💐什么叫做进程💐进程在系统中是如何进行管理的💐PCB中一些比较重要的属性💐进程持有的CPU资源——进程调度💐内存分配——内存管理 💐什么叫做进程 进程概念:一个已经跑起来的程序就…

Scrum和Kanban方法的结合:Scrumban的实施指南

如果没有有效的项目管理,团队成员将不得不处理尽可能多的程序,而这种方法不会导致成功。有几种著名的项目管理方法,例如 Scrum 和看板。但是有一种方法可以结合他们的最佳实践。 Scrum 和看板的优势结合在称为 Scrumban 的混合方法中。它非常…

chales 重写/断点/映射/手机代理/其他主机代理

1 chales 安装和代理配置/手机代理配置/电脑代理配置 chales 安装和代理配置/手机代理配置/电脑代理配置 2 转载:Charles Rewrite重写(详解!必懂系列) Charles Rewrite重写(详解!必懂系列) 1.打开charles,点击菜单栏的Tools选中Rewrite2.…

企业架构LNMP学习笔记59

目录介绍: bin:存放的是启动和关闭tomcat的脚本文件; conf:存放tomcat服务器的各种全局配置文件,其中最重要的是server.xml和web.xml lib: 存放的是tomcat服务器所需要的各种jar文件。java打包类库。 logs&#xff…

区域图片上色

目录 下图中,记得点击Apply,然后再点击Symbology 实际选择的时候,不选1Categorized,因为其分段不方便。

js中如何判断两个对象是否相等?

聚沙成塔每天进步一点点 ⭐ 专栏简介⭐ 浅相等(Shallow Equality)⭐ 深相等(Deep Equality)⭐ 自定义深相等函数⭐ 使用第三方库⭐ 写在最后 ⭐ 专栏简介 前端入门之旅:探索Web开发的奇妙世界 记得点击上方或者右侧链接…

电路原理图字母缩写表示什么?

很多小白问,电路原理图上这些字母缩写都是些啥玩意儿啊? (一)EN :Enable,使能,使芯片能够工作。要用的时候,就打开 en 脚,不用的时候就关闭。有些芯片是高使能,有些是低…

SQLSERVER 数据库恢复挂起的解决办法

USE master GO ALTER DATABASE KH_Curve SET SINGLE_USER GO ALTER DATABASE KH_Curve SET EMERGENCY GO DBCC CHECKDB(KH_Curve,REPAIR_ALLOW_DATA_LOSS) go ALTER DATABASE KH_Curve SET ONLINE GO ALTER DATABASE KH_Curve SET MULTI_USER GO

.Net IDE智能提示汉化(.Net6、AspNetCore)

先上现成的.net6汉化文件,可以手动下载后参照 如何为 .NET 安装本地化的 IntelliSense 文件 进行安装。或者使用后文的工具进行自动安装。 无对照英文在前中文在前 汉化内容来自 官方在线文档 ,某些内容可能存在明显的机翻痕迹。 上一些效果图&#x…

destoon根据目录下的html文件生成地图索引

因为项目需要&#xff0c;destoon根据目录下的html文件生成地图索引&#xff0c;操作方法&#xff0c;代码如下&#xff1a; <?php $new_array array(); function loopDir($dir,&$new_array,$modurl) {$handle opendir($dir);header("Content-Type:text/xml&qu…

elasticsearch15-数据聚合

个人名片&#xff1a; 博主&#xff1a;酒徒ᝰ. 个人简介&#xff1a;沉醉在酒中&#xff0c;借着一股酒劲&#xff0c;去拼搏一个未来。 本篇励志&#xff1a;三人行&#xff0c;必有我师焉。 本项目基于B站黑马程序员Java《SpringCloud微服务技术栈》&#xff0c;SpringCloud…

为什么日本的网站看起来如此不同

首发于公众号 大迁世界&#xff0c;欢迎关注。&#x1f4dd; 每周一篇实用的前端文章 &#x1f6e0;️ 分享值得关注的开发工具 &#x1f61c; 分享个人创业过程中的趣事 该篇文章讨论了日本网站外观与设计的独特之处。作者指出日本网站设计与西方设计存在明显差异。文章首先强…

CSS动效合集之实现气泡发散动画

前言 &#x1f44f;CSS动效合集之实现气泡发散动画&#xff0c;速速来Get吧~ &#x1f947;文末分享源代码。记得点赞关注收藏&#xff01; 1.实现效果 2.实现步骤 定义一个数组bubbles&#xff0c;用来存储气泡列表的基本新&#xff0c;w表示宽高&#xff0c;x表示绝对定位…

一篇关于vue的入门的详细介绍

目录 一.介绍 二.库和框架的区别 三.什么是MVVM模式 四.实例 4.1. Vue开发示例 4.2. 双向数据绑定 4.3. 生命周期 好啦&#xff0c;今天的分享就到这了&#xff0c;希望能够帮到你呢&#xff01;&#x1f60a;&#x1f60a; 一.介绍 Vue.js是一种流行的JavaScript框架&am…

【CNN-FPGA开源项目解析】01--floatMult16模块

文章目录 (基础)半精度浮点数的表示和乘运算16位半精度浮点数浮点数的乘运算 floatMult16完整代码floatMult16代码逐步解析符号位sign判断指数exponent计算尾数fraction计算尾数fraction的标准化和舍位整合为最后的16位浮点数结果[sign,exponent,fraction] 其他变量宽度表alway…

软件系统性能测试报告+测试策略

一、服务背景 性能测试主要是针对信息系统的应用性能指标制订性能测试方案&#xff0c;通过自动化的测试工具执行测试用例&#xff0c;模拟多种正常、峰值以及异常负载条件来对系统的各项性能指标进行测试,负载测试和压力测试都属于性能测试&#xff0c;两者可以结合进行。 通…

Servlet 和 Cookie-Session 学习笔记(基础)

简单来说&#xff1a;是运行在服务器端的 Java 程序&#xff0c;它作为来自 Web 浏览器或其他 HTTP 客户端的请求和 HTTP 服务器上的数据库或应用程序之间的中间层。 用处&#xff1a; 使用 Servlet&#xff0c;您可以收集来自网页表单的用户输入&#xff0c;呈现来自数据库或者…