7.1.4 Selenium 爬取京东商品信息实战

news2024/11/26 17:29:14

目录

1、实战内容

2、思路

3、分析 url

4、开始操作

1、得到 Cookies

2、访问页面,得到 response

3、解析页面

4、存入 MySQL

5、1-3步总代码


1、实战内容

爬取京东笔记本电脑商品的信息(如:价格、商品名、评论数量),存入 MySQL 中

2、思路

京东需要登录才能搜索进入,所以首先从登录页面出发,自己登录,然后等待,得到 Cookies,之后带着 Cookies 模拟访问页面,得到页面的 response,再对 response 进行分析,将分析内容存入 MySQL 中。

3、分析 url

来到 京东搜索 笔记本电脑,之后观察首页之后的几页的链接,如下:

不难发现,除了首页之外,其他链接的区别是从第四行的 page 开始,大胆猜测链接就到此即可,且规律也显而易见,就可以直接构造链接。

4、开始操作

1、得到 Cookies

from selenium import webdriver
import json, time

def get_cookie(url):
    browser = webdriver.Chrome()
    browser.get(url)    # 进入登录页面
    time.sleep(10)      # 停一段时间,自己手动登录
    cookies_dict_list = browser.get_cookies()  # 获取list的cookies
    cookies_json = json.dumps(cookies_dict_list)  # 列表转换成字符串保存
    with open('cookies.txt', 'w') as f:
        f.write(cookies_json)
    print('cookies保存成功!')
    browser.close()


if __name__ == '__main__':
    url_login = 'https://passport.jd.com/uc/login?'     # 登录页面url
    get_cookie(url_login)

之后就可看到 txt 文件中的 cookies(多个),之后模拟登录构造 cookie 时,对照其中的即可.

2、访问页面,得到 response

当 selenium 访问时,若页面是笔记本电脑页,直接进行爬取;若不是,即在登录页,构造 cookie,添加,登录;

js 语句是使页面滑倒最低端,等待数据包刷新出来,才能得到完整的页面 response(这里的 resposne 相当于使用 request 时候的 response.text );

def get_html(url):    # 此 url 为分析的笔记本电脑页面的 url
    browser = webdriver.Chrome()
    browser.get(url)
    if browser.current_url == url:
        js = "var q=document.documentElement.scrollTop=100000"
        browser.execute_script(js)
        time.sleep(2)
        responses = browser.page_source
        browser.close()
        return responses
    else:
        with open('cookies.txt', 'r', encoding='utf8') as f:
            listCookies = json.loads(f.read())
        for cookie in listCookies:
            cookie_dict = {
                'domain': '.jd.com',
                'name': cookie.get('name'),
                'value': cookie.get('value'),
                "expires": '1746673777',    # 表示 cookies到期时间
                'path': '/',            # expiry必须为整数,所以使用 expires
                'httpOnly': False,
                "sameSite": "Lax",
                'Secure': False
            }
            browser.add_cookie(cookie_dict) # 将获得的所有 cookies 都加入
        time.sleep(1)
        browser.get(url)
        js = "var q=document.documentElement.scrollTop=100000"
        browser.execute_script(js)
        time.sleep(2)
        response = browser.page_source
        browser.close()
        return response

cookies 到期时间是用时间戳来记录的,可用工具查看时间戳(Unix timestamp)转换工具 - 在线工具

3、解析页面

这里我使用了 Xpath 的解析方法,并将结果构造成字典列表,输出。

def parse(response):
    html = etree.HTML(response)
    products_lis = html.xpath('//li[contains(@class, "gl-item")]')
    products_list = []
    for product_li in products_lis:
        product = {}
        price = product_li.xpath('./div/div[@class="p-price"]/strong/i/text()')
        name = product_li.xpath('./div/div[contains(@class, "p-name")]/a/em/text()')
        comment = product_li.xpath('./div/div[@class="p-commit"]/strong/a/text()')

        product['price'] = price[0]
        product['name'] = name[0].strip()
        product['comment'] = comment[0]
        products_list.append(product)
    print(products_list)
    print(len(products_list))

4、存入 MySQL

上述已经得到每一个商品数据的字典,所以直接对字典或字典列表进行存储即可。

参考链接:4.4 MySQL存储-CSDN博客 5.2 Ajax 数据爬取实战-CSDN博客

5、1-3步总代码

from selenium import webdriver
import json, time
from lxml import etree


def get_cookie(url):
    browser = webdriver.Chrome()
    browser.get(url)    # 进入登录页面
    time.sleep(10)      # 停一段时间,自己手动登录
    cookies_dict_list = browser.get_cookies()  # 获取list的cookies
    cookies_json = json.dumps(cookies_dict_list)  # 转换成字符串保存
    with open('cookies.txt', 'w') as f:
        f.write(cookies_json)
    print('cookies保存成功!')
    browser.close()


def get_html(url):
    browser = webdriver.Chrome()
    browser.get(url)
    if browser.current_url == url:
        js = "var q=document.documentElement.scrollTop=100000"
        browser.execute_script(js)
        time.sleep(2)
        responses = browser.page_source
        browser.close()
        return responses
    else:
        with open('cookies.txt', 'r', encoding='utf8') as f:
            listCookies = json.loads(f.read())
        for cookie in listCookies:
            cookie_dict = {
                'domain': '.jd.com',
                'name': cookie.get('name'),
                'value': cookie.get('value'),
                "expires": '1746673777',
                'path': '/',
                'httpOnly': False,
                "sameSite": "Lax",
                'Secure': False
            }
            browser.add_cookie(cookie_dict) # 将获得的所有 cookies 都加入
        time.sleep(1)
        browser.get(url)
        js = "var q=document.documentElement.scrollTop=100000"
        browser.execute_script(js)
        time.sleep(2)
        response = browser.page_source
        browser.close()
        return response


def parse(response):
    html = etree.HTML(response)
    products_lis = html.xpath('//li[contains(@class, "gl-item")]')
    products_list = []
    for product_li in products_lis:
        product = {}
        price = product_li.xpath('./div/div[@class="p-price"]/strong/i/text()')
        name = product_li.xpath('./div/div[contains(@class, "p-name")]/a/em/text()')
        comment = product_li.xpath('./div/div[@class="p-commit"]/strong/a/text()')

        product['price'] = price[0]
        product['name'] = name[0].strip()
        product['comment'] = comment[0]
        products_list.append(product)
    print(products_list)
    print(len(products_list))


if __name__ == '__main__':
    keyword = '笔记本电脑'
    url_login = 'https://passport.jd.com/uc/login?'     # 登录页面url
    get_cookie(url_login)
    for page in range(1, 20, 2):
        base_url = f'https://search.jd.com/Search?keyword={keyword}&wq=%E7%AC%94%E8%AE%B0%E6%9C%AC%E7%94%B5%E8%84%91&pvid=222071d82c0344059f4aac713b1679b4&isList=0&page={page}'
        response = get_html(base_url)
        parse(response)

文章参考:python爬虫之使用selenium爬取京东商品信息并把数据保存至mongodb数据库_seleniu获取京东cookie-CSDN博客

 文章到此结束,本人新手,若有错误,欢迎指正;若有疑问,欢迎讨论。若文章对你有用,点个小赞鼓励一下,谢谢大家,一起加油吧!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1578447.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

RAG基础知识及应用

简单介绍下RAG的基础知识和RAG开源应用 “茴香豆" 一. RAG 基础知识 1. RAG工作原理 RAG是将向量数据库和大模型问答能力的有效结合,从而达到让大模型的知识能力增加的目的。首先将知识源存储在向量数据库中,当提出问题时,去向量数据库…

ENVI实战-影像的下载和矢量边界裁剪

实验1:学会使用不同的遥感数据检索和下载平台 目的:学会使用不同的数据平台,检索和下载所需的遥感数据。 过程: ①基于地理空间数据云的数据检索和下载方法: A.网站进入:网络搜索:https://w…

Notepad++软件安装及配置说明

Notepad是 Windows操作系统下的一套文本编辑器,有完整的中文化接口及支持多国语言编写的功能。 Notepad功能比 Windows自带记事本强大,除了可以用来制作一般的纯文字说明文件,也十分适合编写计算机程序代码。Notepad不但可以显示行号&#xf…

ABC库存分类管理法

ABC库存分类管理法? ABC分类法是根据物品在技术或经济方面的主要特征,进行分类排队,将分析对象划分成A、B、C三类,从而有区别地确定管理方式的分析方法。 ABC分类法来源与定义 1951年美国通用公司经理戴克将“关键的少数和次要的…

day76 jquery

知识点: 1 在HTML中引入jQuery 2 jQuery中就绪函数 3 jQuery中选择器 4 使用jQuery获取表单元素的值 及标签中间的内容 5 jQuery中获取标签属性 6 jQuery设置和获取标签样式 ----------------------------------- 一 在HTML中引入jQuery 1 1) 把jQue…

3.C++ Make

1.Makefile 1.1 什么是 Makefile 一个工程中有很多文件,文件之间都是相辅相成有着编译的先后顺序,但是如果自己手动根据编译顺序编译文件造成速度非常慢。Makefile 是”自动化编译“,只需一个 make 指令系统就会根据编译顺序帮自己编译文件…

excel散点图怎么每个点添加名称

最终效果图: 添加图标元素->数据标签->其他数据标签选项 选择单元格中的值 手动拖动数据标签,调整到合适的位置。

Spring学习笔记:IOC控制反转、AOP面向切面

挺快的,框架这一部分 文章目录 一、Spring概述入门案例导入依赖包在src下写配置文件创建普通类和测试类 二、IOC(控制反转)2.1 IOC bean 的XML操作(创建对象,注入属性2.2 IOC bean 的 注解 操作 三、AOP(面…

《UE5_C++多人TPS完整教程》学习笔记31 ——《P32 角色移动(Character Movement)》

本文为B站系列教学视频 《UE5_C多人TPS完整教程》 —— 《P32 角色移动(Character Movement)》 的学习笔记,该系列教学视频为 Udemy 课程 《Unreal Engine 5 C Multiplayer Shooter》 的中文字幕翻译版,UP主(也是译者&…

用国内版Devin:DevOpsGPT开发一个简易官网

前言: 世界上第一个AI程序员Devin想必已经给大家带来了不小的震撼,这种L4级的技术也许已经昭示着AGI离我们或许真的不远了。 这里先给大家普及一个概念: L4是谷歌对AGI划分的第四个等级,把代码丢给 AI 改这个是 L1 或者 L2 级别的…

CentOS7安装Docker及禅道

https://blog.csdn.net/weixin_46453070/article/details/136183615?ops_request_misc%257B%2522request%255Fid%2522%253A%2522171246925816800222886233%2522%252C%2522scm%2522%253A%252220140713.130102334…%2522%257D&request_id171246925816800222886233&biz_i…

基于RTThread的学习(三):正点原子潘多拉 QSPI 通信 W25Q128 实验

1、基于芯片创建工程 2、QSPI配置 2.1、RTThing_setting 设置组件 2.2、配置board.h 文件 2.3、cubemx生成QSPI的硬件初始化代码;HAL_QSPI_MapInit; 这里注意:你所买的开发板对应的qspi 连接的是否是cubemx 上边显示的,如果不是你需要将引脚…

Spring Security——13,认证成功失败注销成功处理器

认证成功&&失败&&注销成功处理器 说明:一、认证成功处理器1.1 自定义成功处理器1.2 配置自定义成功处理器 二、认证失败处理器2.1 自定义失败处理器2.2 配置自定义失败处理器 三、登出成功处理器3.1 自定义登出处理器3.2 配置登出处理器 四、完结撒…

聊一聊,JMeter分布式性能测试!

在做后端服务器性能测试中,我们会经常听到’分布式’。但你是否了解分布式呢?今天,我们就来给大家讲讲,在企业实战中,如何使用分布式进行性能测试,实战过程中,又有哪些地方要特别注意&#xff1…

Inotify

一、关于Inotify linux内核的inotify机制 可以监测文件系统的变动情况,并做出通知响应 二、关于inotify 使用inotify通知接口,可以用来监控文件系统的各种变化情况,可以非常方便地实现文件异动告警、增量备份,并针对目录或文件的…

transformer上手(1) —— transformer介绍

1 起源与发展 2017 年 Google 在《Attention Is All You Need》中提出了 Transformer 结构用于序列标注,在翻译任务上超过了之前最优秀的循环神经网络模型;与此同时,Fast AI 在《Universal Language Model Fine-tuning for Text Classificat…

烤羊肉串引来的思考--命令模式

1.1 吃羊肉串! 烧烤摊旁边等着拿肉串的人七嘴八舌地叫开了。场面有些混乱,由于人实在太多,烤羊肉串的老板已经分不清谁是谁,造成分发错误,收钱错误,烤肉质量不过关等。 外面打游击烤羊肉串和这种开门店做烤…

Windows系统下安装java开发环境所需的JDK开发工具包

目录 一、JDK开发工具包下载二、安装三、环境变量配置3.1 添加安装包路径3.2 添加lib路径3.3 添加bin目录 四、检查是否安装成功五、总结 一、JDK开发工具包下载 官网地址:JDK下载 打开网址后有多个版本的JDK,学者根据自己电脑需求选择对应版本下载。如…

类,构造,this,static

第1关:什么是类,如何创建类 100 任务要求参考答案 任务描述相关知识 什么是类怎么定义类创建对象并且使用对象的属性和方法编程要求测试说明 任务描述 本关任务:创建一个类和一个对象,调用这个对象的属性和方法。 相关知识 …

34-5 CSRF漏洞 - CSRF分类

环境准备:构建完善的安全渗透测试环境:推荐工具、资源和下载链接_渗透测试靶机下载-CSDN博客 1)GET 类型 传参: 参数连接在URL后面 POC构造及执行流程: 构造URL,诱导受害者访问点击利用利用标签进行攻击: 构造虚假URL,在链接上添加payload抓包获取数据包,通过CSRF POC…