Python爬虫实战:京东商品信息爬取

news2024/10/6 1:42:48

项目背景

需要获取京东的某一领域的商品信息数据,为后续项目推进做准备

实现思路

京东商品API数据采集接口可以实现大批量稳定数据采集。去获取每一个商品的数据首先需要去利用京东的搜索,利用关键字得到相关商品信息,由搜索结果去进行信息获取;这里以洗面奶商品举例:

图片

图片

具体实现

在搜索页面,我们关注的信息是每个商品的商品名称,商品价格,商品uid,商品备注,以及商品网址

的独特之处。

很多人学习蟒蛇,不知道从何学起。

很多人学习寻找python,掌握了基本语法之后,不知道在哪里案例上手。

很多已经可能知道案例的人,却不怎么去学习更多高深的知识。

这三类人,我给大家提供一个好的学习平台,免费获取视频教程,电子书,以及课程的源代码!

QQ群:101677771

欢迎加入,一起讨论学习

step1

由观察可知,京东的搜索页面是动态加载的,数据会随着你的下拉而不断地加载出来,为了保证数据获取的完整,我们需要借助selenium模拟浏览器下拉,得到完整的页面;同时借助开发者工具,去定位我们需要的数据所位于的元素位置

图片

step1.1

这里有一个值得注意的点,在获取商品名称时,如果利用xpath去获取时,如果不做针对性处理,很容易导致名称获取不全,甚至无法获取;

图片

原因分析:观察上图可知,在搜索时,我们的关键词在商品中会被标红,且被包裹在更深层的元素标签中,不处理的话,将会使得所获取的商品名称内容缺失

解决方法:查阅了很多资料后,确定了解决方法,即利用xpath取出指定多标签内所有文字text
实现代码如下:

def get_data(html):
    # 创建etree对象
    tree = etree.HTML(html)
    # titles= tree.xpath('//div[@id="J_searchWrap"]//div[@class="gl-i-wrap"]//div[@class="p-name p-name-type-2"]//em')
    # print(len(titles))
    # for title in titles:
    #     print(title.xpath('string(.)').strip())
    lis=tree.xpath('//ul[@class="gl-warp clearfix"]/li')
    for li in lis:
        try:
            title_r=li.xpath('.//div[@class="p-name p-name-type-2"]//em')
            #print(title.xpath('string(.)').strip())
            title=title_r[0].xpath('string(.)').strip()
            title=title.replace('\n','')
            #print(title.replace('\n',''))
            price = li.xpath('.//div[@class="p-price"]//i/text()')[0].strip()  # 价格
            #print(price)
            data_sku = li.xpath('./@data-sku')[0].strip() # 商品唯一id
            #print(data_sku)
            #comment = li.xpath('.//div[@class="p-commit"]//a')  # 评论数
            shop_name = li.xpath('.//div[@class="p-shop"]//a//text()')[0].strip() # 商铺名字
            #print(shop_name)
            icons = li.xpath('.//div[@class="p-icons"]/i/text()') # 备注
            #comment = comment[0] if comment != [] else ''
            icons_n = ''
            for x in icons:
                icons_n = icons_n+ x.replace('\n','')
                icons_n=icons_n+';'
            #print(icons_n)
            detail_url = li.xpath('.//div[@class="p-name p-name-type-2"]/a/@href')[0]  # 详情页网址
            detail_url = 'https:' + detail_url
            #print(detail_url)
            item = [title, price, shop_name,data_sku, icons_n, detail_url]
            print(item)
            sheet.append(item)
        except Exception as e:
            print("错误原因:", e)

step1.2

借助如上思路,我们可以完成对所有商品信息的一个基本获取,实现的具体效果如下:

图片

step2

这一部分,我们利用前述得到的每一个商品url,进入获取每一个商品的所有评论

同样的我们利用开发者工具,观察网页布局,以及文件加载状况,得到加载数据的json文件,

这里以

https://club.jd.com/comment/productPageComments.action?&productId=100008054085&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1

为例,打开,可看到我们需要的数据信息;

图片

注意:此处json文件不够标准,还需要调整,即删除开头的fetchJSON_comment98(以及结尾的)
通过解析jsonurl内容可知相关参数指代

json文件参数
https://club.jd.com/comment/productPageComments.action?&productId=100008054085&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1

productId=5561746 产品id--利用这个得到网页json
score=0/1/2/3/4/5 产品评价 全部评价/差评/中评/好评/追评
page 页码

由此我们就可以得到我们需要的相关信息,这里我采集了==‘用户名’, ‘用户id’, ‘评论内容’,‘评论时间’==

具体效果如下:

图片


至此我们的爬取工作暂时告一段落。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1490761.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

数据库和缓存如何保持一致性

目录 前言 更新数据库更新缓存: 1.在更新缓存前先加一个分布式锁 2.在更新完缓存时,给缓存加上较短的过期时间 Cache Aside策略 1.先删除缓存,再更新数据库 延迟双删 2.先更新数据库,再删除缓存 保证两个操作都能执行成功…

软考58-上午题-【数据库】-分布式数据库

一、四个透明 二、四种性质 三、真题 真题1: 真题2: 真题3: 真题4: 真题5:

信钰证券|沪指震荡涨0.26%,传媒等板块拉升,消费电子概念活跃

5日早盘,沪指盘中窄幅震荡上扬,创业板指、科创50指数走高,北证50指数跌超2%;北向资金小幅流入。 截至午间收盘,沪指涨0.26%报3047.2点,深成指微涨0.05%,创业板指涨0.42%,科创50指数…

mysql高可用架构设计

一、主从架构 主从架构一般如下所示 这里从节点一般设置成只读(readonly)模式。这样做,有以下几个考虑: 有时候一些运营类的查询语句会被放到备库上去查,设置为只读可以防止误操作; 防止切换逻辑有 bug&a…

uniapp制作--简单的tab切换

一、实现思路 在UniApp中&#xff0c;可以使用v-if来控制Tab栏并进行切换。 创建一个方法来控制点击时的效果。 二、实现步骤 ①view部分展示 <!-- tab选项 --><view class"select-area"><view class"select-top"><view clas…

软件测试行业最真实的写照,我后悔了。。。

&#x1f345; 视频学习&#xff1a;文末有免费的配套视频可观看 &#x1f345; 点击文末小卡片&#xff0c;免费获取软件测试全套资料&#xff0c;资料在手&#xff0c;涨薪更快 软件测试是一个付出就有回报的工作&#xff0c;可能很多人会说软件测试就是吃青春饭&#xff0c;…

vs创建asp.net core webapi发布到ISS服务器

打开服务器创建test123文件夹&#xff0c;并设置共享。 ISS配置信息&#xff1a; 邮件网站&#xff0c;添加网站 webapi asp.net core发布到ISS服务器网页无法打开解决方法 点击ISS Express测试&#xff0c;可以成功打开网页。 点击生成&#xff0c;发布到服务器 找到服务器IP…

如何处理微服务之间的通信和数据一致性?

✨✨祝屏幕前的兄弟姐妹们每天都有好运相伴左右&#xff0c;一定要天天开心哦&#xff01;✨✨ &#x1f388;&#x1f388;作者主页&#xff1a; 喔的嘛呀&#x1f388;&#x1f388; 目录 引言 一、微服务通信 1、同步通信&#xff1a;HTTP 1.1.同步通信示例代码&#xf…

Q-Align Teaching LMMs for Visual Scoring via Discrete Text-Defined Levels

Q-Align: Teaching LMMs for Visual Scoring via Discrete Text-Defined Levels TL; DR&#xff1a;教会多模态大模型用文本等级评价词&#xff08;如 Good、Bad、Excellent 等&#xff09;来评估视觉质量分。 图像美学质量评估是一个小方向&#xff0c;但是实际业务中很有用&…

Jenkins 将shell脚本启动方式修改为bash

platform"arm x86" if [[ "$platform" ~ "arm" ]] thenecho "arm" fi最近在调试Jenkins实现的一些功能&#xff0c;发现在本地可以运行的脚本内容到了Jenkins里面就没办法运行了&#xff0c;不是提示unexpected operator就是提示[[ : …

鸿蒙Harmony应用开发—ArkTS声明式开发(通用属性:拖拽控制)

设置组件是否可以响应拖拽事件。 说明&#xff1a; 从API Version 10开始支持。后续版本如有新增内容&#xff0c;则采用上角标单独标记该内容的起始版本。 ArkUI框架对以下组件实现了默认的拖拽能力&#xff0c;支持对数据的拖出或拖入响应&#xff0c;开发者只需要将这些组件…

商家转账到零钱申请时间要多久

商家转账到零钱是什么&#xff1f; 【商家转账到零钱】功能整合了微信支付之前的【企业付款到零钱】【批量转账到零钱】功能&#xff0c;支持批量对外转账&#xff0c;对有批量对用户付款需求的应用场景更友好&#xff0c;操作便捷。如果你的应用场景是单付款场景的话&#xf…

运维打工人,周末兼职送外卖的一天

运维打工人&#xff0c;周末兼职送外卖的一天 在那个不经意的周末&#xff0c;我决定尝试一份新的工作——为美团外卖做兼职配送员。这份工作对于一向规律生活的我来说&#xff0c;既是突破也是挑战。 早晨&#xff0c;空气中带着几分凉意和宁静。准备好出发时&#xff0c;线…

如何做代币分析:以 CRO 币为例

作者&#xff1a;lesleyfootprint.network 编译&#xff1a;Mingfootprint.network 数据源&#xff1a;CRO Token Dashboard &#xff08;仅包括以太坊数据&#xff09; 在加密货币和数字资产领域&#xff0c;代币分析起着至关重要的作用。代币分析指的是深入研究与代币相关…

Unity编辑器功能Inspector快捷自动填充数据

我们有时候可能需要在面板增加一些引用&#xff0c;可能添加脚本后要手动拖动&#xff0c;这样如果有大量的脚本拖动也是不小的工作量 实例 例如&#xff1a;我的脚本需要添加一个Bone的列表&#xff0c;一个个拖动很麻烦。 实现脚本 我们可以用这样的脚本来实现。 public…

鼠标右键没有git bash here,右键添加git bash here并增加图标

突然发现自己鼠标右键没有git bash here&#xff0c;或者安装之后就没有git bash here。后面那种情况多半是没有默认装在C盘。我们装在其他盘的时候就需要自己去配置。git gui目前用不上&#xff0c;这里只讲git bash here。网上一堆教程&#xff0c;说法不同大多不能用要么就很…

Vue router文件中本地路由配置使用i18n【解决tab名称出现undefined,导致i18n没有实现问题】

问题 点击按钮 跳转详情页后 tab名称出现错误&#xff0c;报 undefined ## 需求 点击工单详情按钮&#xff0c;跳转详情页面&#xff08;新页面&#xff09;&#xff0c;新页面tab栏名称 还是为 工单出库&#xff0c;但要求工单出库文字配置为多语言&#xff0c;使用i18n来配置…

SPC 之 I-MR 控制图

概述 1924 年&#xff0c;美国的休哈特博士应用统计数学理论将 3Sigma 原理运用于生产过程中&#xff0c;并发表了 著名的“控制图法”&#xff0c;对产品特性和过程变量进行控制&#xff0c;开启了统计过程控制新时代。 什么是控制图 控制图指示过程何时不受控制&#xff…

中医舌苔笔记

舌诊时按照舌尖-舌中-舌根-舌侧的顺序进行观察。 先看舌体再看舌苔&#xff0c;30秒左右。 如果一次望舌判断不清&#xff0c;可令病人休息3~5分钟后&#xff0c;重新观察一次 舌诊脏腑部位分属图 舌体 胖嫩而边有齿痕为气虚、阳虚。 薄白而润为风寒&#xff1b; 薄白而燥…

RabbitMQ如何实现延迟消息?

RabbitMQ中是可以实现延迟消息的&#xff0c;一般有两种方式&#xff0c;分别是通过死信队列以及通过延迟消息插件来实现。 扩展&#xff1a; 死信队列 当rabbitMQ中的一条正常的消息&#xff0c;因为过了存活时间&#xff08;TTL过期&#xff09;&#xff0c;队列长度超限&a…