采集场景:
在京东搜索页 https://search.jd.com/Search 输入搜索,搜出后得到的多个商品列表数据。
征地:
商品名称、价格、评论数、店铺名称、店铺链接等字段。
采集结果:
采集结果可导出为Excel,CSV,HTML,数据库等格式。导出为Excel示例:
步骤 采集
步骤一、打开网页
步骤二、批量输入多个并搜索关键词
步骤三、创建【循环列表】,获取所有商品列表中的数据
步骤四、编辑场地
步骤五、创建【循环翻页】,获取多页数据
步骤六、设置滚动和修改【循环翻页】XPath
步骤七、启动收集
下面为封装接口具体步骤:
1.请求方式:HTTP POST GET
2 公共参数:
名称 类型 必须 描述
key String 是 调用key(必须以GET方式拼接在URL中,请求链接:http://c0b.cc/R4rbK2)
secret String 是 调用密钥 (复制v:Taobaoapi2014 )
api_name String 是 API接口名称(包括在请求地址中)[item_search,item_get,item_search_shop等]
cache String 否 [yes,no]默认yes,将调用缓存的数据,速度比较快
result_type String 否 [json,jsonu,xml,serialize,var_export]返回数据格式,默认为json,jsonu输出的内容中文可以直接阅读
lang String 否 [cn,en,ru]翻译语言,默认cn简体中文
version String 否 API版本
3.请求参数:
请求参数:q=女装&start_price=0&end_price=0&page=1&cat=0&discount_only=&sort=&seller_info=no&nick=&seller_info=&nick=&ppath=&imgid=&filter=
参数说明:q:搜索关键字,支持url
cat:分类ID
start_price:开始价格
end_price:结束价格
sort:排序[bid,_bid,_sale,_review,_new]
(bid:总价,sale:销量,review评论数,new新品,加_前缀为从大到小排序)<
page:
4.请求代码示例,支持高并发请求(CURL、PHP 、PHPsdk 、Java 、C# 、Python...)
# coding:utf-8
"""
Compatible for python2.x and python3.x
requirement: pip install requests
"""
from __future__ import print_function
import requests
# 请求示例 url 默认请求参数已经做URL编码
url = "https://api-gw.19970108018.cn/jd/item_search/?key=<您自己的apiKey>&secret=<您自己的apiSecret>&q=女装&start_price=0&end_price=0&page=1&cat=0&discount_only=&sort=&seller_info=no&nick=&seller_info=&nick=&ppath=&imgid=&filter="
headers = {
"Accept-Encoding": "gzip",
"Connection": "close"
}
if __name__ == "__main__":
r = requests.get(url, headers=headers)
json_obj = r.json()
print(json_obj)
5.响应示例