Python爬虫实战:利用代理IP获取电商数据

news2024/12/24 2:16:47

文章目录

  • 1.电商数据介绍
  • 2.爬取目标
  • 3.代理IP推荐
  • 4.准备工作
    • 4.1 模块安装
    • 4.2 代理IP获取
  • 5.爬虫代码实战
    • 5.1分析网页
      • 5.1.1 获取cookie
      • 5.1.2 关键词分析
      • 5.1.3 翻页分析
      • 5.1.4 数据获取分析
    • 5.2 发送请求
    • 5.3 提取数据
    • 5.4 保存数据
    • 5.5 完整源码
    • 5.6 数据分析
    • 六、总结

1.电商数据介绍

● 电商数据对于了解用户行为、优化营销策略、提高转化率等方面具有重要作用。

●通过分析用户数据,企业可以找到目标用户,精准投放广告和推广活动,有效提高广告的转化率和投资回报率。

●电商数据还可以用于个性化推荐、营销活动优化、供应链管理等场景,帮助企业提升用户体验和运营效率。

2.爬取目标

本次博主爬取的目标是某东,代码实现输入关键词后翻页获取相关的商品信息,如:标题、价格、评论数、商铺名、商品链接、店铺链接、图片链接:

3.代理IP推荐

由于电商数据量巨大,为了安全快速获取数据,博主使用的是亮数据家的代理IP,质量很高个人感觉还不错,并且可以免费使用:
亮数据代理IP免费试用

4.准备工作

4.1 模块安装

Python:3.10

编辑器:PyCharm

第三方模块,自行安装:

pip install requests # 网页数据爬取
pip install lxml # 提取网页数据
pip install pandas #写入Excel表格

4.2 代理IP获取

1、首先先免费注册一个亮数据账号:亮数据代理IP免费试用

2、选择查看代理IP产品:

3、有动态IP、静态IP、机房IP、移动代理IP可以选择,博主这里选择是机房IP:

4、配置通道,可以设置IP类型(共享/独享)、IP数、IP来源国家等等:

5、配置完成后可以看到主机、用户名和密码,等下我们添加到代码中去获取IP:

6、下面代码只需要修改刚才获取到的主机、用户名和密码,即可返回代理IP:

import re # 正则,用于提取字符串
import pandas as pd # pandas,用于写入Excel文件
import requests  # python基础爬虫库
from lxml import etree  # 可以将网页转换为Elements对象
import time  # 防止爬取过快可以睡眠一秒


def get_ip():
    """获取亮数据代理IP"""
    host = '你的主机' # 主机
    user_name = '你的用户名' # 用户名
    password = '你的密码' # 密码

    proxy_url = f'http://{user_name}:{password}@{host}' # 将上面三个参数拼接为专属代理IP获取网址
    proxies = {
        'http':proxy_url,
        'https':proxy_url
    }

    url = "http://lumtest.com/myip.json" # 默认获取的接口(不用修改)
    response = requests.get(url,proxies=proxies,timeout=10).text # 发送请求获取IP
    # print('代理IP详情信息:',response)
    response_dict = eval(response)  # 将字符串转为字典,方便我们提取代理IP
    ip =  response_dict['ip']
    # print('IP:',ip)
    return ip

5.爬虫代码实战

5.1分析网页

5.1.1 获取cookie

目前某东需要登录后才看得到数据,所以我们需要获取登录后的cookie:

5.1.2 关键词分析

只要在keyword传入我们需要获取的关键词即可:

5.1.3 翻页分析

第一页:

https://search.jd.com/Search?keyword=Python%E4%B9%A6%E7%B1%8&page=1

第二页:

https://search.jd.com/Search?keyword=Python%E4%B9%A6%E7%B1%8&page=2

可以看到是通过page进行控制翻页的。

5.1.4 数据获取分析

首先可以看到我们所需要的每个商品数据都在一个一个li标签下面:

li标签下面有我们所需要的全部数据:

数据没问题接下来我们就可以开始写代码了

5.2 发送请求

1、设置关键词和翻页拼接网页链接:

def main():
    keyword = '手机'
    page_num = 10 # 爬取的页数
    for page in range(1,page_num+1):
        url = f'https://search.jd.com/Search?keyword={keyword}&page={page}'

2、获取网页源代码,注意:下面代码需要看4.2获取并添加代理IP信息(主机、用户名和密码 )和看5.1.1添加自己的cookie

import re # 正则,用于提取字符串
import pandas as pd # pandas,用于写入Excel文件
import requests  # python基础爬虫库
from lxml import etree  # 可以将网页转换为Elements对象
import time  # 防止爬取过快可以睡眠一秒

def get_ip():

    host = '' # 主机
    user_name = '' # 用户名
    password = '' # 密码

    proxy_url = f'http://{user_name}:{password}@{host}' # 将上面三个参数拼接为专属代理IP获取网址
    proxies = {
        'http':proxy_url,
        'https':proxy_url
    }

    url = "http://lumtest.com/myip.json" # 默认获取的接口(不用修改)
    response = requests.get(url,proxies=proxies,timeout=10).text # 发送请求获取IP
    # print('代理IP详情信息:',response)
    response_dict = eval(response)  # 将字符串转为字典,方便我们提取代理IP
    ip =  response_dict['ip']
    # print('IP:',ip)
    return ip


def get_html_str(url):
    """发送请求,获取网页源码"""
    # 请求头模拟浏览器(注意这里一定添加自己已经登录的cookie才可以)
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36',
        'cookie':''
    }

    # 添加代理IP(这里代理IP这里需要看`5.1 获取代理IP`自己去获取,博主的已过期)
    proxies = get_ip()
    # 添加请求头和代理IP发送请求
    response = requests.get(url,headers=headers,proxies=proxies) # 
    # 获取网页源码
    html_str = response.content.decode()
    # 返回网页源码
    return html_str


def main():
    keyword = '手机'
    page_num = 1 # 爬取的页数
    for page in range(1,page_num+1):
        url = f'https://search.jd.com/Search?keyword={keyword}&page={page}'
        print(url)
        html_str = get_html_str(url)
        print(html_str)


if __name__ == '__main__':
    main()

3、运行成功翻页网页数据:

5.3 提取数据

下面代码实现提取相关的商品信息,如:标题、价格、评论数(获取失败大家可以自行尝试一下)、商铺名、商品链接、店铺链接、图片链接:

def get_data(html_str,page, data_list):
    """提取数据写入列表"""
    # 将html字符串转换为etree对象方便后面使用xpath进行解析
    html_data = etree.HTML(html_str)
    # 利用xpath取到所有的li标签
    li_list = html_data.xpath("//ul[@class='gl-warp clearfix']/li")
    # 打印一下li标签个数
    # print(len(li_list))
    # 遍历li_list列表取到某一个商品的对象标签
    for li in li_list:
        # 标题
        try:
            title = li.xpath(".//div[@class='p-name p-name-type-2']/a/em//text()")
            title = ''.join(title)
        except:
            title = None
        # 商品链接
        try:
            goods_url = 'https:' +li.xpath(".//div[@class='p-name p-name-type-2']/a/@href")[0]
        except:
            goods_url= None
        # 价格
        try:
            price = li.xpath(".//div[@class='p-price']/strong/i/text()")[0]
        except:
            price= None
        # 评论数,有问题获取不到
        try:
            comment_num = li.xpath(".//div[@class='p-commit']/strong/a/text()")[0]
        except:
            comment_num= None
        # 店铺名
        try:
            shop = li.xpath(".//div[@class='p-shop']/span/a/text()")[0]
        except:
            shop = None
        # 店铺链接
        try:
            shop_url = 'https:' + li.xpath(".//div[@class='p-shop']/span[@class='J_im_icon']/a[@class='curr-shop hd-shopname']/@href")[0]
        except:
            shop_url = None
        # 图片链接
        try:
            img_url = 'https:' + li.xpath(".//div[@class='p-img']/a/img/@data-lazy-img")[0].replace('.avif','')
        except:
            img_url = None

        print({'页码':page,'标题':title,'价格':price,'评论数':comment_num,'店铺名':shop,'店铺链接':shop_url,'商品链接':goods_url,'图片链接':img_url})
        data_list.append({'页码':page,'标题':title,'价格':price,'评论数':comment_num,'店铺名':shop,'店铺链接':shop_url,'商品链接':goods_url,'图片链接':img_url})

运行成功:

5.4 保存数据

将获取到的数据写入Excel:

def to_excel(data_list):
    """写入Excel"""
    df = pd.DataFrame(data_list)
    df.drop_duplicates() # 删除重复数据
    df.to_excel('京东采集数据集.xlsx')

5.5 完整源码

下面完整代码需要看4.2获取并添加代理IP信息(主机、用户名和密码 )和看5.1.1添加自己的cookie,可以修改关键词和爬取的页数:

import re # 正则,用于提取字符串
import pandas as pd # pandas,用于写入Excel文件
import requests  # python基础爬虫库
from lxml import etree  # 可以将网页转换为Elements对象
import time  # 防止爬取过快可以睡眠一秒


def get_ip():
    """获取亮数据代理IP"""
    host = '你的主机' # 主机
    user_name = '你的用户名' # 用户名
    password = '你的密码' # 密码

    proxy_url = f'http://{user_name}:{password}@{host}' # 将上面三个参数拼接为专属代理IP获取网址
    proxies = {
        'http':proxy_url,
        'https':proxy_url
    }

    url = "http://lumtest.com/myip.json" # 默认获取的接口(不用修改)
    response = requests.get(url,proxies=proxies,timeout=10).text # 发送请求获取IP
    # print('代理IP详情信息:',response)
    response_dict = eval(response)  # 将字符串转为字典,方便我们提取代理IP
    ip =  response_dict['ip']
    # print('IP:',ip)
    return ip


def get_html_str(url):
    """发送请求,获取网页源码"""
    # 请求头模拟浏览器(注意这里一定添加自己已经登录的cookie才可以)
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36',
        'cookie':'你的京东登录cookie'
    }

    # 添加代理IP(这里代理IP这里需要看`5.1 获取代理IP`自己去获取,博主的已过期)
    proxies = get_ip()
    # 添加请求头和代理IP发送请求
    response = requests.get(url,headers=headers,proxies=proxies) #
    # 获取网页源码
    html_str = response.content.decode()
    # 返回网页源码
    return html_str


def get_data(html_str,page, data_list):
    """提取数据写入列表"""
    # 将html字符串转换为etree对象方便后面使用xpath进行解析
    html_data = etree.HTML(html_str)
    # 利用xpath取到所有的li标签
    li_list = html_data.xpath("//ul[@class='gl-warp clearfix']/li")
    # 打印一下li标签个数
    # print(len(li_list))
    # 遍历li_list列表取到某一个商品的对象标签
    for li in li_list:
        # 标题
        try:
            title = li.xpath(".//div[@class='p-name p-name-type-2']/a/em//text()")
            title = ''.join(title)
        except:
            title = None
        # 商品链接
        try:
            goods_url = 'https:' +li.xpath(".//div[@class='p-name p-name-type-2']/a/@href")[0]
        except:
            goods_url= None
        # 价格
        try:
            price = li.xpath(".//div[@class='p-price']/strong/i/text()")[0]
        except:
            price= None
        # 评论数,有问题获取不到
        try:
            comment_num = li.xpath(".//div[@class='p-commit']/strong/a/text()")[0]
        except:
            comment_num= None
        # 店铺名
        try:
            shop = li.xpath(".//div[@class='p-shop']/span/a/text()")[0]
        except:
            shop = None
        # 店铺链接
        try:
            shop_url = 'https:' + li.xpath(".//div[@class='p-shop']/span[@class='J_im_icon']/a[@class='curr-shop hd-shopname']/@href")[0]
        except:
            shop_url = None
        # 图片链接
        try:
            img_url = 'https:' + li.xpath(".//div[@class='p-img']/a/img/@data-lazy-img")[0].replace('.avif','')
        except:
            img_url = None

        print({'页码':page,'标题':title,'价格':price,'评论数':comment_num,'店铺名':shop,'店铺链接':shop_url,'商品链接':goods_url,'图片链接':img_url})
        data_list.append({'页码':page,'标题':title,'价格':price,'评论数':comment_num,'店铺名':shop,'店铺链接':shop_url,'商品链接':goods_url,'图片链接':img_url})


def to_excel(data_list):
    """写入Excel"""
    df = pd.DataFrame(data_list)
    df.drop_duplicates() # 删除重复数据
    df.to_excel('京东采集数据集.xlsx')


def main():
    # 1. 设置爬取的关键词和页数
    keyword = '手机'
    page_num = 10 # 爬取的页数
    data_list = [] # 空列表用于存储数据
    for page in range(1,page_num+1):
        url = f'https://search.jd.com/Search?keyword={keyword}&page={page}'
        print(url)
        # 2. 获取指定页的网页源码
        html_str = get_html_str(url)
        print(html_str)
        # 3. 提取数据
        get_data(html_str,page, data_list)
        time.sleep(1)
    # 4. 写入Excel
    to_excel(data_list)


if __name__ == '__main__':
    main()

运行结果:

5.6 数据分析

博主这里获取10页数据,手机价格最多的是1099元的手机,如下图所示:

还可以分析店铺、品牌、价格分布区间等等,大家可以自行尝试。

六、总结

代理IP对于爬虫是密不可分的,但使用代理IP需要遵守相关法律法规和目标网站的使用规则,不得进行非法活动或滥用代理IP服务,亮数据家的高质量代理IP可以帮助爬虫安全采集公开数据信息,有需要代理IP的小伙伴可以试试:亮数据代理IP免费试用

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1700574.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

[随笔] 在CSDN的6周年纪念日随笔

纪念 转眼已过6年,大一的时候学习编程,潜水 CSDN 学习各类博文,才学浅薄就没有主动写博文记录自己的学习历程。 过了段时间刚刚到了大二,很喜欢 Todolist,意气风发的写下《一份清爽的编程计划》,哈哈。 …

冷冻式压缩空气干燥机常见几种系统原理图

冷冻式压缩空气干燥机 我们以两种典型的设计流程图为例 1.干式蒸发型,这类冷干机是我们最为常见的设计型式。下图为deltech公司的典型流程图 此类设备各家设计不同的最大区别基本就是在换热器的结构型式上有比较大的区别。换热器主要有:管壳式、铝板换、…

【openlayers系统学习】00官网的Workshop介绍

00Workshop介绍 官方文档:https://openlayers.org/workshop/en/ openlayers官网Workshop学习。 通过官网Workshop,系统学习openlayers的使用。 基本设置 这些说明假定您从最新Workshop版本的 openlayers-workshop-en.zip​ 文件开始。此外&#xff…

KingbaseES数据库merge语法

数据库版本:KingbaseES V008R006C008B0014 简介 MERGE 语句是一种用于数据操作的 SQL 语句,它能够根据指定的条件将 INSERT、UPDATE 和 DELETE 操作结合到单个语句中。其主要作用是在目标表和源表之间进行数据比较和同步,根据条件的匹配情况来…

IBERT眼图扫描(高速收发器八)

前文讲解了GTX的时钟及收发数据通道的组成,之后讲解了眼图、加重、均衡等原理及原因,本文通过xilinx提供的IBERT IP完成实际工程的眼图扫描,确定加重和幅值调节的参数。 1、回环模式 在此之前,需要了解一下GTX的回环模式。如果板…

批处理作业调度问题 (回溯法)

目录 一、问题解析 二、实例剖析 三、算法思路 四、代码实现 结果: 总结 前言 【问题】n 个作业{1, 2, …, n}要在两台机器上处理,每个作业必须先由机器 1 处理,再由机器 2 处理,机器 1 处理作业i所需时间为 ai,…

【Unity实战篇 】| Unity实现 文本框可以自适应大小,到达最大宽度之后再缩小字体

前言 在文本框可以自适应大小拉伸的前提下,增加一个最大限制宽度,使其到达最大宽度后 再启用 Best Fit 实现自适应改变文字大小以适应文本框的大小。 【Unity实战篇 】 | Unity实现 Text文本框可以自适应大小,到达最大宽度之后再缩小字体 在Unity中经常会用到文本组件的自…

Jmeter插件下载(下载和使用教程)

插件管理器:plugins-manager下载安装和使用 下载: 官网地址:https://jmeter-plugins.org/install/Install/ 步骤1:将下载jmeter-plugins-manager-1.10.jar放到目录apache-jmeter-5.1.1\lib\ext,如下图 步骤2&#x…

《最新出炉》系列入门篇-Python+Playwright自动化测试-42-强大的可视化追踪利器Trace Viewer

宏哥微信粉丝群:https://bbs.csdn.net/topics/618423372 有兴趣的可以扫码加入 1.简介 在我们日常执行自动化测试工作的过程中,经常会遇到一些偶发性的bug,但是因为bug是偶发性的,我们不一定每次执行都能复现,所以我…

力扣刷题--747. 至少是其他数字两倍的最大数【简单】

题目描述 给你一个整数数组 nums ,其中总是存在 唯一的 一个最大整数 。 请你找出数组中的最大元素并检查它是否 至少是数组中每个其他数字的两倍 。如果是,则返回 最大元素的下标 ,否则返回 -1 。 示例 1: 输入:n…

Android端 可使用Yolov5训练 路标识别

相信大家对于路标识别,红绿灯识别,图形识别opencv中也是一件烦人的事情,其参数是及其受到现实环境因素的影响的,那么今天我就给大家推荐一种方式,缺点是周期长,但其优点是如果训练效果好久对于环境的各种变…

河南乙级道路与桥梁资质年审材料准备要点解析

河南乙级道路与桥梁资质年审材料准备要点解析如下:河南宽信权经理 一、企业基本情况材料 营业执照副本复印件:确保复印件清晰、完整,并加盖企业公章。 企业章程:提供最新的企业章程,并加盖企业公章。此材料需反映企业…

matepad11和matepad2023区别

​ 华为MatePad11和MatePad2023是华为公司推出的两款平板电脑,它们在处理器、价格和屏幕等方面存在差异。具体分析如下: 处理器 MatePad 11英寸2023款:搭载骁龙865处理器,最高主频为2.84GHz。 MatePad 2023:配备骁…

Android:使用Kotlin搭建MVVM+组件化App架构

一、简介Android MVVM架构模式 请点击查看Android:使用Kotlin搭建MVVM架构模式 二、简介组件化 以前一个项目所有业务代码都在App(model)里开发,App里按照功能模块分包,例如:首页(home&#xff…

58同城前端社招一面挂了,面试总结:coding能力有待提高

总结面试不足:coding能力有待提高,项目对于大厂面试来说不够有亮点,难度不够,对于技术细节不够深入。下周继续加油,噢力给给!!!😭😭😭 面试题 1、…

[Algorihm][简单多状态DP问题][买卖股票的最佳时机含冷冻期][买卖股票的最佳时机含手续费]详细讲解

目录 1.买卖股票的最佳时机含冷冻期1.题目链接买卖股票的最佳时机含冷冻期2.算法原理详解3.代码实现 2.买卖股票的最佳时机含手续费1.题目链接2.算法原理详解3.代码实现 1.买卖股票的最佳时机含冷冻期 1.题目链接 买卖股票的最佳时机含冷冻期 2.算法原理详解 思路&#xff…

Realcome:AI赋能,引领虚拟博主创业新纪元

在数字化浪潮汹涌的时代,一个崭新的科技品牌正在崭露头角——Realcome,一家以AI智能交互服务为核心,为企业提供全方位数字化营销解决方案的科技服务公司。自2021年成立以来,Realcome凭借其前沿的技术和创新的理念,迅速…

漂流瓶挂机项目,聊天脚本赚钱新玩法,号称单机30-50+ (教程+软件)

一、项目简介: 漂流瓶挂机项目主要是通过使用探遇漂流瓶、音麦漂流瓶等聊天软件,为用户提供一个聊天赚钱的平台。男性用户需要充值后才能发送消息,而女性用户则可以通过接收消息赚取分红。男性用户发送给女性用户的消息费用大约在.1-.2元之间…

【openlayers系统学习】4.2Mapbox 样式渲染图层

二、Mapbox 样式渲染图层 显然我们目前的地图需要一些样式。 VectorTile​ 图层的样式与 Vector​ 图层的样式工作方式完全相同。那里描述的样式在这里也适用。 对于这样的地图,创建数据驱动的样式(对矢量图层操作)非常简单。但矢量切片也用…

自动驾驶技术现状与需求分析

随着科技的不断进步和智能化浪潮的席卷,自动驾驶技术已成为当今交通领域的热点话题。本文旨在深入探讨自动驾驶技术的当前发展状况,并对其未来的市场需求进行细致分析。首先,我们将回顾自动驾驶技术的起源、发展历程以及当前的技术水平&#…