【爬虫实战】利用代理爬取电商数据

news2025/1/12 4:43:31

文章目录

  • 前言
  • 工具介绍
  • 实战获取网站数据
    • 编写代码
    • 数据展示
  • 推荐
  • 总结

前言

当今电商平台正经历着快速的转型与升级。随着技术的进步和用户需求的多样化,电商不仅从简单的在线购物演变为综合性的购物生态系统,还融合了人工智能、大数据和云计算等先进技术。平台通过精准的用户数据分析,提供个性化的购物体验,优化了商品推荐和服务,显著提升了用户满意度和忠诚度。

在这里插入图片描述

在这一过程中,爬虫技术扮演了至关重要的角色。通过自动化的数据抓取,爬虫可以高效地收集竞争对手的产品信息、价格变动和市场趋势,为商家提供宝贵的市场洞察。它不仅帮助商家进行实时的价格调整和库存优化,还支持更精确的市场分析和风险预警,使电商平台在竞争激烈的环境中保持领先地位。

工具介绍

工欲善其事必先利其器。今天给大家推荐的是Proxy302,它是一个专业的全球代理IP采购平台,提供按需付费的充值方式、最全面的代理类型以及简洁高效的用户界面。我们来展开描述下他的特色。

在这里插入图片描述

  • 按需付费,无月付套餐:无需套餐捆绑购买,按需付费,充值即可使用所有类型的代理IP,无阶梯式定价。
  • 最全面代理类型:Proxy302提供市面上最全面的代理类型,满足各种业务需求。
    • 全球240+国家和地区,6500万个住宅IP可供选择。
    • Proxy302支持HTTP、SOCKS5网络协议的代理。
    • Proxy302支持动态、静态代理,代理类型分为【动态按流量扣费】【动态按IP扣费】【静态按流量扣费】【静态按IP扣费】,静态代理还分为住宅IP数据中心IP
  • 简洁易用:用户界面简洁而不简单,易用且高效。提供浏览器扩展插件,实现一键设置代理,省去复杂配置步骤。

在这里插入图片描述

福利:点击右上角的调查问卷即可马上获取$1测试额度。

实战获取网站数据

这次我们要抓取的是某个知名的购书网站,内容包括:标题、链接、价格和图片链接。为了避免被检测为爬虫,我们首先需要获取登录用户的cookie。登录后,按下F12键,进入“网络”选项,选择任意一个流量记录,在请求头中找到cookie并复制下来。

在这里插入图片描述

然后,我们需要分析一下搜索框搜索“华为手机”之后的请求路径。可以从下图中看到,我们点击搜索之后,请求URL为https://search.dangdang.com/?key=%BB%AA%CE%AA%CA%D6%BB%FA&act=input&page_index=1,其中key为“华为手机”的转码,act为动作,page_index代表当前页是第一页。

在这里插入图片描述

接着我们需要确认商品元素在页面中的结构。可以观察到,所有商品都位于一个<ul>标签中,每个商品对应一个<li>标签,并且都有相应的class标记。

具体来说,标题位于<p>标签的title属性中,链接在<a>标签的href属性里,图片链接位于下层的<img>标签中,价格则位于另一个<p>标签中。接下来,我们将使用XPath来定位这些标签。

在这里插入图片描述
首先我们打开【帮助中心】

在这里插入图片描述

点击【快速入门】下的【查看更多】按钮

在这里插入图片描述

我们可以看到【非海外环境如何使用代理?】的标题,通过该内容我们了解到有4种实现海外环境的方式。此处阿Q选择使用VPN的方式进行,简单有效。

选择【静态IP】下的【按IP扣费】选项,选择【购买天数】和【国家】之后点击【生成】按钮即可获取到静态住宅IP。

在这里插入图片描述

出现下图即表示获取静态IP成功。

在这里插入图片描述

编写代码

拿到静态ip之后我们需要定义 get_html_str 函数,来向电商网站发送搜索请求:先定义请求头,模拟浏览器访问,其中包含了一些cookie信息。然后配置我们的代理信息,包含我们拿到的静态代理IP。最后发送HTTP请求到指定的URL,并返回网页源码。

# 发送请求,获取网页源码
def get_html_str(url):
    # 请求头模拟浏览器(注意这里一定添加自己已经登录的cookie才可以)
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36',
        'cookie': ''
    }
 
    # 添加代理IP,此处是我们刚拿到的静态代理ip
    proxies = "";
    # proxies = {}
    # 添加请求头和代理IP发送请求
    response = requests.get(url, headers=headers, proxies=proxies)
    # 获取网页源码
    html_str = response.text
    # 返回网页源码
    return html_str

接着我们定义 get_data 函数,来解析网页中的元素,找到目标文本:首先接收网页源码、页码和数据列表作为参数。然后使用lxml.etree解析网页源码,提取商品信息,包括标题、价格、商品链接和图片链接。最后将提取的数据添加到数据列表中。

# 提取数据写入列表
def get_data(html_str, page, data_list):
    # 将html字符串转换为etree对象方便后面使用xpath进行解析
    html_data = etree.HTML(html_str)
    # 利用xpath取到所有的li标签
    li_list = html_data.xpath('//div[@dd_name="普通商品区域"]/ul/li')
    # 遍历li_list列表取到某一个商品的对象标签
    for li in li_list:
        # 标题
        title = li.xpath('.//a[@class="pic"]/@title')
        title = ''.join(title)
        # 商品链接
        goods_url = 'https:' + li.xpath('.//a[@class="pic"]/@href')[0]
        # 价格
        price = li.xpath('.//p[@class="price"]/span[@class="price_n"]/text()')[0]
        print(price)
        # 图片链接
        img_url = 'https:' + li.xpath('.//a[@class="pic"]/img/@src')[0]
 
        print({'页码': page, '标题': title, '价格': price, '商品链接': goods_url,
               '图片链接': img_url})
        data_list.append(
            {'页码': page, '标题': title, '价格': price, '商品链接': goods_url,
             '图片链接': img_url})

接下来定义 to_excel 函数,将获取到的结果保存为excel文件:首先将数据列表转换为pandas的DataFrame对象。然后删除DataFrame中的重复数据。最后将DataFrame保存为Excel文件。

# 写入Excel
def to_excel(data_list):
    df = pd.DataFrame(data_list)
    df.drop_duplicates()  # 删除重复数据
    df.to_excel('当当采集数据集.xlsx')

最后定义一个main函数方便调节参数、控制流程:首先设置爬取的关键词和页数。然后初始化一个空的数据列表。之后循环遍历每一页,调用get_html_str和get_data函数获取数据。最后调用to_excel函数将数据写入Excel文件。

def main():
    # 1. 设置爬取的关键词和页数
    keyword = '华为手机'
    page_num = 1  # 爬取的页数
    data_list = []  # 空列表用于存储数据
    for page in range(1, page_num + 1):
        url = f'https://search.dangdang.com/?key={keyword}&act=input&page_index={page}'
        print(url)
        # 2. 获取指定页的网页源码
        html_str = get_html_str(url)
        # 3. 提取数据
        get_data(html_str, page, data_list)
        time.sleep(1)
    # 4. 写入Excel
    to_excel(data_list)

数据展示

以下是我们采集到的华为手机数据

在这里插入图片描述

推荐

值得注意的是Proxy302与302.AI是同一个开发团队,302.AI是一个汇集全球顶级品牌的AI超市,按需付费,无月费,全面开放使用各种类型AI。大家有需要可以自行体验!

总结

通过上面的实战,我们可以看到代理服务可以大大提高爬虫的匿名性和效率。Proxy302的代理可以满足这两点需求。

对开发者而言,Proxy302代理以其简单易用的特性,大幅降低了技术门槛。 开发者可以快速上手,无需深入了解代理服务的底层技术细节,即可实现高效的数据抓取。这不仅加快了开发进程,也使得开发者能够将更多精力投入到数据分析和业务逻辑的构建上。

Proxy302以其多维度的优势,为电商平台爬虫的实现提供了强有力的支持。无论是技术实现的便捷性,还是成本控制的灵活性,或是数据质量的高效性,以及整体操作的安全性,亮数据代理都是企业和个人在数据采集领域的理想选择。随着技术的不断进步和市场需求的日益增长,我们可以预见,代理服务将在电商数据采集领域扮演越来越重要的角色。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1986235.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

freeRTOS入门学习-基于STM32F103C8T6最小系统板-使用cubeMX创建一个新的工程

一、准备工作 首先打开我们的cubeMX软件&#xff0c;搜索我们对应的MCU&#xff0c;我这里使用的是c8t6最小系统板 接下来双击我们需要的芯片型号 二、System Core配置 进入界面后我们先进行时钟的配置 将HSE配置为晶振 然后我们将SYS配置成为serial wire&#xff0c; …

【单片机毕业设计选题24102】-基于STM32和阿里云的禽舍环境监测控制系统

系统功能: 系统分为主机端和从机端&#xff0c;主机端主动向从机端发送信息和命令&#xff0c;从机端 收到主机端的信息后回复温湿度氨气浓度和光照强度等信息。 从机端操作&#xff1a; 从机端上电后显示“欢迎使用环境监测系统请稍后”两秒后显示第一页面。 从机端口上电…

每日学习笔记:C++ STL算法之数值算法

目录 算法头文件 运算后产生结果 对容器所有元素(数列)进行某种运算&#xff1a; accumulate(beg, end, initValue) accumulate(beg, end, initValue, op) 计算两数列的内积&#xff1a; inner_product(beg1, end1, end2, initValue) inner_product(beg1, end1, end2…

红酒与奶酪:欧洲风情的整合

在欧洲的浪漫风情中&#xff0c;红酒与奶酪总是携手相伴&#xff0c;它们各自不同的魅力交织在一起&#xff0c;仿佛一首悠扬的交响曲&#xff0c;在味蕾上奏响。当洒派红酒&#xff08;Bold & Generous&#xff09;与精选奶酪相遇&#xff0c;一场欧洲风情的整合即将上演。…

亚马逊自发货erp,自动虚拟发货自动生成订单

亚马逊自发货 ERP 自动化虚拟发货&#xff0c;贴牌定制独立部署。 大家好&#xff0c;今天来讲一下 ERP 的虚拟自动发货&#xff01; 1. 以为发货都是人工手动去发货的&#xff0c;其实不然&#xff0c;很多产品一爆就是几十、一百单&#xff0c;不可能一个一个点的去发货&am…

vue3 ResizeObserver如何监听一个容器盒子div宽度高度发生改变

ResizeObserver定义 ResizeObserver&#xff1a;是一个 JavaScript API&#xff0c;用于监视元素的大小变化。它可以观察一个或多个 DOM 元素&#xff0c;以便在元素的大小或形状发生变化时触发回调函数。 ResizeObserver &#xff1a;为了更有效地处理元素尺寸变化而引入的&am…

Linux驱动开发—设备树传递给内核,匹配驱动过程分析

文章目录 总体流程图传递DTB过程编译设备树源文件将 .dtb 文件与内核或引导加载程序集成 内核初始化阶段解析DTB内核启动阶段解析 DTB注册设备树节点驱动程序绑定 内核解析设备树二进制文件&#xff08;DTB&#xff09;的过程主要分为几个步骤&#xff0c;从设备树的传递到最终…

Mybatis学习-day19

Mybatis学习-day19 1. resultMap resultMap 是 MyBatis 中最复杂的元素&#xff0c;主要用于解决实体类属性名与数据库表中字段名不一致的情况&#xff0c;可以将查询结果映射成实体对象。 <resultMap id"staffAndDep" type"com.easy.bean.Staff">…

apache 漏洞

影响版本 Apache HTTP Server 2.4.49 某些Apache HTTPd 2.4.50也存在此漏洞 环境搭建 docker pull blueteamsteve/cve-2021-41773:no-cgid 漏洞复现 http://1.15.136.212:8080 1.使⽤poc curl http://1.15.136.212:8080/cgi-bin/.%2e/.%2e/.%2e/.%2e/etc/passwd

在没有硬盘的情况下进行电脑数据迁移

电脑数据迁移方式 在更换电脑的时候需要进行文件的传输&#xff0c;但是没有硬盘可以选择使用网线直连或者无线文件共享。通用配置 1.将旧电脑的文件夹或者磁盘设置文件共享 找到指定的文件夹右键属》属性&#xff0c;点击共享》点击高级共享 选择共享文件夹以及修改共享用户…

缓冲区和文件IO--linux系统调用

缓冲区&#xff1a; 缓冲区是一块内存区域&#xff0c;用于存储数据&#xff0c;直到数据被真正写入到文件或设备中&#xff0c;或从文件或设备中读取。这种机制使得程序可以一次处理较大的数据块&#xff0c;而不是频繁地进行较小的I/O操作。 缓冲模式&#xff1a; 全缓冲&…

学习LLM大模型,不容错过的《大语言模型:基础与前沿》(附PDF下载)

前言 就目前来看&#xff0c;大量工作正逐渐被大型语言模型&#xff08;LLM&#xff09;所替代&#xff0c;就比如文本自动生成、智能客服、数据分析和预测等多个领域。这暗示着LLM正逐步成为支撑社会运作的关键基础设施。未来&#xff0c;比Devin更为智能的LLM将会问世。我们…

ARMxy 智能控制器:工业自动化的创新解决方案

工业自动化对控制器的要求也越来越高。ARMxy 智能控制器集成了 PLC 控制和 4G 边缘计算网关&#xff0c;具有多合一的功能&#xff0c;为工业自动化提供了创新的解决方案。 ARMxy 智能控制器的 PLC 控制功能使其能够实现对工业生产过程的精确控制。它可以接收各种传感器的信号…

mapbox-gl 实现绘制图形吸附功能

文章目录 一、前言二、实现代码 一、前言 mapbox-gl 为地图前端框架&#xff0c;以优美的地图样式著称。mapbox-gl-draw 插件可以实现绘制图形&#xff0c;编辑图形的功能&#xff0c;但是编辑图形时无法吸附点位&#xff0c;导致相邻面无法相接。使用mapbox-gl-draw-snap-mod…

JS+CSS案例:用CSS+JS做漂亮的拟真时钟

JSCSS案例&#xff1a;用CSSJS做漂亮的拟真时钟 今天给大家分享一个挺酷的CSSjs模拟的时钟。 案例效果图&#xff1a; 案例分析 通过CSS画一个表的外观&#xff0c;通过JS获取当前时间&#xff0c;并控制表针做对应角度的旋转。 制作时钟外观 HTML结构 首先&#xff0c;我…

python实现小游戏随机猜数

1、脚本练习 import random# 初始化剩余的猜测次数 counts 3 # 生成一个1到10之间的随机整数 numb random.randint(1, 10)# 循环直到猜测次数用完 while counts > 0:tmp input("请输入小鱼手里的数字 (你还剩下 {} 次机会): ".format(counts))guess int(tmp)…

精通剪辑艺术,2024年度四大必备剪辑软件推荐!

在这个视觉为王的时代&#xff0c;视频内容的创作和编辑已经成为了一种艺术形式。无论是个人创作者还是专业团队&#xff0c;都在寻找能够提升工作效率和创作质量的工具。今天&#xff0c;就让我们一起探索几款市面上广受好评的视频剪辑工具&#xff0c;它们将帮助你将创意变为…

测试总结8/6

1.签到 判断其大小写是否与之相等 #include<bits/stdc.h> using namespace std; long long t,x,y; int ans,n,m,k0; const int N2e57; int s[N]; string sum; string num"CodeForces"; int main() {cin>>n;for(int i1; i<n; i) {cin>>sum;int …

细腻呵护静音生活缓冲器,家具中的隐形侍者

在忙碌的生活节奏中&#xff0c;家是我们寻找宁静与放松的避风港。而家具缓冲器&#xff0c;就像一位隐形的侍者&#xff0c;在不经意间为我们营造出温馨、宁静的居住环境。它们静静地工作&#xff0c;细腻地呵护着每一处细节&#xff0c;让家的每一次触碰成为一次尊享体验。 细…

当上领导,不可不懂的3大管人法则

当上领导&#xff0c;不可不懂的3大管人法则&#xff0c;精辟&#xff01; 法则一&#xff1a;软硬都要 在团队管理中&#xff0c;只硬不软或只软不硬都无法达到理想的效果。 只有软硬兼施&#xff0c;刚柔并济&#xff0c;才能四两拨千斤&#xff0c;根据不同的情况和员工&a…