Python爬取京东商品评论

news2024/11/25 14:24:05

寻找数据真实接口

打开京东商品网址查看商品评价。我们点击评论翻页,发现网址未发生变化,说明该网页是动态网页。

 

API名称:item_review-获得JD商品评论

公共参数

获取API测试key&secret

名称类型必须描述
keyString调用key(必须以GET方式拼接在URL中)
secretString调用密钥
api_nameStringAPI接口名称(包括在请求地址中)[item_search,item_get,item_search_shop等]
cacheString[yes,no]默认yes,将调用缓存的数据,速度比较快
result_typeString[json,jsonu,xml,serialize,var_export]返回数据格式,默认为json,jsonu输出的内容中文可以直接阅读
langString[cn,en,ru]翻译语言,默认cn简体中文
versionStringAPI版本

请求参数

请求参数:num_iid=71619129750&page=1

参数说明:item_id:商品ID
page:页数

响应参数

Version: Date:

名称类型必须示例值描述

items

items[]0获得JD商品评论

rate_content

String0这个帆布鞋的款式挺不错的,穿着也很百搭,做工很精细。!评论内容

rate_date

Date02020-07-16 17:04:45评论日期

pics

MIX0["//img30.360buyimg.com/n0/s128x96_jfs/t1/143538/26/2997/98915/5f10182dE075cf6f4/3893a6ebd54bf20b.jpg"]评论图片

display_user_nick

String0j***X买家昵称

auction_sku

String0颜色:白色(加绒);尺码:2XL评论商品属性

add_feedback

String0衣服面料很好 穿起来很舒服 衣服挺合适的!追评内容

通过循环,爬取所有页面的评论数据

翻页爬取的关键是找到真实地址的“翻页”规律。我们分别点击第1页、第2页、第3页,发现不同页码的除了page参数不一致,其余相同。第1页的“page”是1,第2页的“page”是2,第2页的“page”是2,以此类推。 我们嵌套一个For循环,并通过pandas存储数据。运行代码让其自动爬取其他页面的评论信息,并储存t.xlsx的文件中。 所有代码如下:

import requests
import pandas as pd
items=[]
for i in range(1,20):
    header = {'User-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Safari/537.36 SLBrowser/8.0.1.4031 SLBChan/105'}
    url=f'https://api.m.jd.com/?appid=item-v3&functionId=pc_club_productPageComments&client=pc&clientVersion=1.0.0&t=1684832645932&loginType=3&uuid=122270672.2081861737.1683857907.1684829964.1684832583.3&productId=100009464799&score=0&sortType=5&page={i}&pageSize=10&isShadowSku=0&rid=0&fold=1&bbtf=1&shield='
    response= requests.get(url=url,headers=header)
    json=response.json()
    data=json['comments']
    for t in data:
        content =t['content']
        time    =t['creationTime']
        item=[content,time]
        items.append(item)
df = pd.DataFrame(items,columns=['评论内容','发布时间'])
df.to_excel(r'C:\Users\蓝胖子\Desktop\t.xlsx',encoding='utf_8_sig')

最后,得到爬取的数据结果如下:

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/959564.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

source insight 宏 MakeBufClip

趁着工作间隙在搞一些source insight 的宏,当在使用这个 MakeBufClip 的时候,出现了问题,如: 居然是未知的命令,可是这个是从官方文档里参考的啊:MakeBufClip (hbuf, fClip) 然后我也是尝试一下发邮件给 s…

Ansible自动化运维工具(三)

目录 Ansible 的脚本 --- playbook 剧本 ​编辑2.vars模块实战实例 3.指定远程主机sudo切换用户 4.when模块实战实例 5.with_items迭代模块实战实例 6.Templates 模块实战实例 (1)先准备一个以 .j2 为后缀的 template 模板文件,设置引用…

Linux 常见命令操作

一、目录管理 1.1 列出目录 ls # ls 命令 # -a 参数,查看全部的文件,包括隐藏的文件 # -l 参数,列出所有的文件,包括文件的属性和权限,不显示隐藏文件 [rootlocalhost /]# ls bin boot dev etc home lib lib64…

<数据结构>AVL树详解

目录 AVL是什么? 平衡因子 旋转 左单旋 右单旋 左右双旋 右左双旋 全部的代码 AVL树又叫平衡树(Balance_Tree),笔者认为这个名字非常不错,中国嘛,就是在意阴阳平衡,之前小编还拿这个当过自己网络IP&#xff0c…

计算机组成原理之计算机系统概述(补充)

目录 一、引入二、计算机发展历程2.1 什么是计算机系统2.2 硬件的发展2.3 软件的发展2.4 目前的发展趋势2.5 小结 三、计算机硬件的基本组成3.1 早期冯诺依曼机的结构3.2 现代计算机的结构3.3 小结 四、各个硬件的工作原理4.1 主存储器的基本构成4.2 小结 五、计算机系统的层次…

常见项目管理中npm包操作总结

前言 我们在日常工作中,可能需要下载包、创建包、发布包等等。本篇推文将记录日常项目中关于npm包的操作。 引用包 npm仓库公开的包我们都可以通过npm install的命令进行引用下载。 而我们开发的业务公共组件需要在公司内部项目公共引用,而不希望公开为外…

Java“牵手”京东店铺所有商品API接口数据,通过店铺ID获取整店商品详情数据,京东店铺所有商品API申请指南

京东平台店铺所有商品数据接口是开放平台提供的一种API接口,通过调用API接口,开发者可以获取京东整店的商品的标题、价格、库存、月销量、总销量、库存、详情描述、图片、价格信息等详细信息 。 获取店铺所有商品接口API是一种用于获取电商平台上商品详…

狂神汇编原理

1.汇编(可以破解软件,写外挂…) ------计算器语言----- 2.机器语言 0和1 c>汇编—>二进制 INC --抽象-->编译器 0100 0000DECMULDIV3.进制 10进制(10个手指) 可以自己定义进制,作为进制加密解密,查数 1进制 一进一 写出2 ->1 1 2进制 0 1 10 11 100 101 110…

使用Arrays.asList生成的List集合,操作add方法报错

早上到公司,刚到工位,测试同事就跑来说"功能不行了,报服务器异常了,咋回事";我一脸蒙,早饭都顾不上吃,要来了测试账号复现了一下,然后仔细观察测试服务器日志,发现报了一个…

springboot实战(四)之整合mybatis-plus

目录 环境: 准备: 开始: 1.创建表t_user 2.项目添加依赖 3.配置 1.配置mysql链接信息 2.在启动类配置mapper扫描路径 4.创建实体类 5.创建mapper 6.测试 环境: jdk:1.8 springboot版本:2.7.15…

3D虚拟数字人定制+AI交互数字人技术,助力企业开启营销新思路

近日,番茄小说推出数字人IP番卷卷,其承担着连接现实世界与番茄世界的重要角色,作为用户进入番茄世界的数字导游。数字人番卷卷的出现,一方面能够强化品牌在用户层面的心智,另一方面可以让用户拥有多层次、多情感、角色…

C++ while 循环

只要给定的条件为真,while 循环语句会重复执行一个目标语句。 语法 C 中 while 循环的语法: while(condition) {statement(s); }在这里,statement(s) 可以是一个单独的语句,也可以是几个语句组成的代码块。condition 可以是任意…

防雷接地+防雷检测综合应用解决方案

防雷接地和防雷检测是防雷工程中的重要内容,它们旨在保护建筑物和设备免受雷电的危害。地凯科技将介绍防雷接地和防雷检测的基本原理、施工案例方案和国标措施。 防雷接地是指将建筑物的金属结构、防雷装置和电气设备与地面连接,形成一个接地系统&#…

vscode宏键绑定

开发语言php 实现输入[ 得到 [];的效果 [win]ctrlp,[mac]superp 输入>keyboard 选择 在json文件里增加(目前有缺陷,sublime的设置是比较完美的.或者phpstorm默认不需要配置): {"key": "[","command": "editor.action.insertSnippet&…

CUDA Toolkit多版本安装与配置

CUDA Toolkit多版本安装目的是为了将CUDA Toolkit支持多个版本,并将当前版本更新到后续支持常见pytorch的版本(即cuda11.6),目前该系统默认安装的是cuda10.2,cuda11.0和cuda11.2。CUDA一般有两种API,一个是…

PMD代码检查:没有使用的私有字段(UnusedPrivateField)

https://docs.pmd-code.org/pmd-doc-6.55.0/pmd_rules_java_bestpractices.html#unusedprivatefield 如果代码中的private字段声明了、或者赋值了,但没有被用到,就报违反项。例如: 但是从PMD 6.50.0版本开始,如果私有字段上有任…

h5网站开发,页面加载wow.js动画时,出现了左右滚动条,怎么解决?

一、问题描述: 如下图所示,页面在加载WOW动画时出现了左右滚动条: 二、解决方法: 使用CSS样式来隐藏滚动条 在CSS文件中添加以下样式: body {overflow-x: hidden; /* 隐藏水平滚动条 */ }完美解决,还不会…

智慧电力方案:安防监控/视频分析/智能分析网关AI识别技术在电力领域中的应用

一、行业痛点 随着经济的飞速发展,电力已经是人们生活中必不可少的,无论是在生活还是工作中,电的存在都是不可或缺的。但电力的高效运维,一直是一个难题,当前普通的电力运维系统已无法满足人们的管理需求,…

什么是帧呢

在处理图片时,经常听到帧的概念,什么是帧呢? 概念 帧就是一幅静止的画面。 1、帧率(Frame rate)是称为帧的位图图像连续出现在显示器上的频率(速率),就是每秒有多少帧。 2、帧就是…

线性代数的学习和整理17:向量空间的基,自然基,基变换等(未完成)

目录 3 向量空间的基:矩阵的基础/轴 3.1 从颜色RGB说起 3.2 附属知识 3.3 什么样的向量可以做基? 3.4 基的分类 3.1.1 不同空间的基---向量组的数量可能不同 3.1.2 自然基 3.1.3 正交基 3.1.4 标准正交基 3.1.5 基和向量/矩阵 3.1.6 基变换 …