目录
前言
道路千万条,安全第一条
爬虫不谨慎,亲人两行泪
获取京东商品评论信息
一、实例示范
二、爬虫四步走
1.UA伪装
2.获取Url
3.发送请求
4获取响应数据进行解析并保存
总结
前言
道路千万条,安全第一条
爬虫不谨慎,亲人两行泪
获取京东商品评论信息
进行爬取操作之前先来讲个json大字符串的概念
虽然叫它大字符串,但它的本质是一个字典,字典里嵌套了字符串。
以下是一个简单的json类型示例:
{
"name": "John Doe",
"age": 30,
"city": "New York",
"isStudent": false,
"courses": ["Math", "Science", "History"]
}
这时候想要取"Math"这个字符串就需要先取json里的"courses"键的值,再从这个列表里取出来"Math"。
一、实例示范
代码:
# jd评论信息
# 获取json数据
# UA 浏览器身份标识
# Cookie 用户身份标识
import requests
import json
if __name__ == '__main__':
head = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36 Edg/126.0.0.0"
,
"Cookie": "__jdv=76161171|direct|-|none|-|1721304228745; areaId=14; PCSYCityID=CN_340000_340100_0; shshshfpa=9d6bb9f5-2df3-f0ae-84d7-9feb10409507-1721304230; shshshfpx=9d6bb9f5-2df3-f0ae-84d7-9feb10409507-1721304230; TrackID=1SJUe62_7OhOVdSNSNv6lwEH0sw12qyvR6hDeXSwe4OhNq5cPWZYpVlkMNucopWsu9l4a0oc-QPQhUD-BbyWgKCikwyHwiFL9QUCXSp9UnXgrytWf_8ZiqczStzHjFr1A; thor=0A5DE5C934900F151550690E68060DD6BEA12900C6BC00C995B1B61C8F9064CE30722A092BCFC7F7873EA432399BA54B0DF30610257CF29A8CE328D655A0030564CA4070E9126D05708BE4374B1CD5E6E40647F2621EC119FD452E89B3DB501BC6BCD02FB491FDFD0663802C735C8E8B1298A50463A731F69DCD105FD6B33179C8AC2A1A78FD18D8D56CB9217B04738F; pinId=DVnUbUvl6BlafyIN32ve9Q; pin=18715561029_p; unick=%E6%88%91%E4%B9%9F%E6%83%B3%E5%BD%93T0; ceshi3.com=201; _tp=boW%2Bsld6syhCSOJuTx4dYQ%3D%3D; _pst=18715561029_p; jsavif=1; 3AB9D23F7A4B3C9B=G3FMFVHJRKO4WY2EEEJ3J3FHKJF3JSXE63GVJHBN6JLN4OFZ7BV6NMFF63SJ7DTPILE4E3W25GJTFMSEKGSRGW6MPI; token=690ddf6b97c63e862c77d945cc6a1029,3,956280; __tk=fxbANskE2sM4zxgPqvyxzRbCfxT3zzbQfvH4gakExBr3gzbPfzrwN0bCfxx3NRbPfxbRrwTz,3,956280; __jda=181111935.1721304228744546785809.1721304229.1721304229.1721304229.1; __jdc=181111935; ipLoc-djd=14-1116-3431-57939; 3AB9D23F7A4B3CSS=jdd03G3FMFVHJRKO4WY2EEEJ3J3FHKJF3JSXE63GVJHBN6JLN4OFZ7BV6NMFF63SJ7DTPILE4E3W25GJTFMSEKGSRGW6MPIAAAAMQYXDC36QAAAAACRMAR6DBKZXZVUX; __jdb=181111935.12.1721304228744546785809|1.1721304229; flash=2_SRV9wrohYNkwkrnrUUWyOh6Q94WEbnJYPVF5HukZ4VtMMxsChmr8umAs5etO9Xx-mtPF6876tvH0TQyiCSpajuBolLqR47qW-utU1gbdlarx9OGSmDfk5gxVJZDn-49J05Om2EaAMSQCksRp1z4SA3Aiy0KCY6AYwm7HcJGp_CV*; shshshfpb=BApXccfrPxvVAnRfl37QeGjYe9pyrhiTdBmNxRR9o9xJ1MhE_hIC2"
}
url = "https://api.m.jd.com/?appid=item-v3&functionId=pc_club_productPageComments&client=pc&clientVersion=1.0.0&t=1721305271570&body=%7B%22productId%22%3A100068388451%2C%22score%22%3A0%2C%22sortType%22%3A5%2C%22page%22%3A0%2C%22pageSize%22%3A10%2C%22isShadowSku%22%3A0%2C%22fold%22%3A1%2C%22bbtf%22%3A%22%22%2C%22shield%22%3A%22%22%7D&h5st=20240718202111580%3Big6g5g5i55myz9n0%3Bfb5df%3Btk03wceac1d1e18nF1RxAuQkMBnxcaSi9YAM6QhwyaPQHXALcgMlONnknzgltofi9MT9EWeyA_OyYvSly1UAbMBxmM92%3Bb7a5f127e6358a6267abdd04b03a4189%3B4.7%3B1721305271580%3BTKmWTgopg3DOi83l2nbmQrRfhXRbpXfzQrLnqQ9ZeBVcG45Mydm0vj5DgYBKYM5hZc1KUDtyZ77AcASL_Kw1uCrZwdTs6gnSTv6n-sZ3E90bR6m3RpKcYhB6R4lvuoWoaHhqwUYjLwYQzZQqJUQtPGvV9Fb6k9mMjWyQxbrsP_LzW7maBLk25RDEfJjqTyghIhyuXtkd5U3g1f4WRquhq87-IlcT_0qtwCRLTvmL0A8ZwtRockghB5MFwoHdkfzXritjd0tmlMkHxujIYGYA7f6Ld_aimyKu_NdwWMWSgIo4oCbHshgy-r2UvXyZ5y6SUHdcC-Ds8ALaDcDlbSxCu5xddGz2E4fV-HgaEgFE4K6RZxp3uyusd6pZ-N3xwAnfxe6gccMvmO383p1nrhZ7ebB-zadhIREWTeGamldfk3aKPsGSkRY-t1RAX9AKJH0e3ZOPNWzvreiO1lP-YKP2GegBuGBIhe71aRDUfqUVmTeVhO3X9ZOMUqVhUXgACI3Cb32eQwwUHNK5z27MMbEOjXG5ATJzL6JiPbE9j1zIClUT0kDcYppyM7AXF5Q9gMfSAtB3ggE7nDk8PeheJO0dl8zjLad9Prk3hGJ0DQIeqffFGvzEemLTD52YgeDqWQHLXbk3%3B0fbcf08e3977ece11f50cb4184254712&x-api-eid-token=jdd03G3FMFVHJRKO4WY2EEEJ3J3FHKJF3JSXE63GVJHBN6JLN4OFZ7BV6NMFF63SJ7DTPILE4E3W25GJTFMSEKGSRGW6MPIAAAAMQYXDC36QAAAAACRMAR6DBKZXZVUX&loginType=3&uuid=181111935.1721304228744546785809.1721304229.1721304229.1721304229.1"
response = requests.get(url, headers=head)
ls = response.json()
for i in ls["comments"]:
print(i["content"])
pass
输出:
这个苹果手机非常的好用,512的内存也非常的合适,颜值是非常的高,质感也非常得好,拍照效果也非常得好运行,速度也很好,很值得购买哦。
IPhone15Promax
外形外观:外观设计典雅大气,边框工艺精湛,尽显高端质感
屏幕音效:边视网膜XDR显示屏,色彩鲜活,细节毕现,视觉盛宴一触即发,
音效震撼,立体声效营造沉浸体验
拍照效果:拍照效果再升级,夜景模式清晰明亮,人像模式自然动人,记录生活美好瞬间
运行速度:A系列芯片加持,运行速度飞快,流畅无阻挡,
待机时间:电池续航强劲,满足全天候使用需求
更有创新灵动岛设计,解锁更多交互可能,尽显科技魅力
设计感太强了,让人眼前一亮,用起来也很顺手。
虽然手机价格略高,但是质量绝对没得说,用了很多年都没出现问题,真的很耐用。"
手机的系统稳定性非常高,不会出现卡顿和死机的情况,真的很靠谱。"
手机的音质和屏幕显示效果真的没得挑剔,听歌、看电影都超级爽!"
手机使用起来方便,系统流畅,页面简洁,工作生活学习的好帮手。外观好看,三星屏,德赛电池,整体机子还是很优秀。
不错的购物体验,没有翻车,京东自营店的东西就是要比其他的可靠,我看评论,很多都翻车,买之前,我还挺惊心胆颤,收到手机后,一点点打开,检查,完美,不得不说苹果的包装设计以及系统,用起来是真的舒服,推荐大家购买,不说了,我先去体验了
哈哈哈哈哈哈哈,真不错啊真不错哈哈哈
店家发货非常快,服务态度很好,应该是正品,一次很愉快的购物已经用过一段时间了,效果不错😍,客服服务有耐心,解答详细,赞一个东西很满意哦,美观时尚大气,客服超级有耐心,服务细致贴心,大品牌就是不一样
苹果15promax真的超棒,屏幕清晰,运行流畅,拍照效果也一级棒!卖家服务热情周到,发货速度也很快,非常满意!
材质结实,手感好,很得劲,物流也快,性价比很高,值得购买产品包装精致美观大气,目前用着非常不错,真实评价,希望可以帮到集美们
安全下车,手机是原封,256g刚刚好,续航还是promax给力,出去外面一整天不用担心电量。Pro和pro max区别是长焦看个人取舍哪个使用场景多。
一直在京东上购买手机,正好618活动,直接就在京东上下单,苹果手机没得说,就是手机信号有的时候确实是个问题,走高架的时候,手机没有信号,拨打不出去电话……
屏幕音效:屏幕比我用饿13感觉更加细腻,更清楚了!
拍照效果:手机拍照还原度高,清楚!
二、爬虫四步走
1.UA伪装
获取京东的商品评论信息需要在网页登录京东账号,因为不登录的话需要验证码,这是一种反爬取机制。
具体操作:
- 到京东商品界面,此处示例是iphone15pmax
- 按f12打开检查界面,点击1,再点击2进行清空请求
- 然后按 ctrl+r 刷新请求
- 点击3【商品评论】
- 最后点击4 到该界面
- 翻找appid开头的请求,点击响应查看是否有评论,直到看到content评论
- 这些评论也就是买家发的评论
- 这时即可使用标头去寻找User-Agent
- 但是因为京东需要用户登录信息,所以我们还需要获取用户的Cookie
2.获取Url
3.发送请求
还是熟悉的requests.get()请求
response = requests.get(url, headers=head)
4获取响应数据进行解析并保存
这样获取的响应数据是json类型的,所以我们需要用.json()的方法将该响应解析为Python对象
进行取评论之前可以print(ls)观察一下长什么样子,思考一下如何取出里面"content"的内容。
ls = response.json() # 将响应数据转换成json大字符串储存在ls里面
for i in ls["comments"]: # 遍历json大字符串里"comments"键的值
print(i["content"]) # 获取评论数据
总结
有时爬取数据需要 UA 浏览器身份标识 和 Cookie 用户身份标识。还要注意获取的响应类型是text还是json类型。