【淘宝】商品详情页+商品列表数据采集

news2024/11/26 13:34:32

 作为国内最大的电商平台之一,淘宝数据采集具有多个维度。 

有人需要采集商品信息,包括品类、品牌、产品名、价格、销量等字段,以了解商品销售状况、热门商品属性,进行市场扩大和重要决策; 

有人需要采集产品评论,以明确产品优缺点、市场意向,进行新商品调研优化; 

除了以上之外,还有很多的应用场景等待挖掘。下面为大家详细介绍淘宝数据采集的方法。 

淘宝数据采集的方法 

既然淘宝数据采集极为需要势在必行,那么该如何进行操作呢?是找到要淘宝的京东网址,将数据一条条复制粘贴到excel表格中?还是找一个爬虫工程师,写爬虫程序进行采集? 

于普通人而言,这两种方法成本极高,效率低下——第一种耗费大量人力,还可能有多次出错;第二种成本很高且需要较长的学习时间,短时间内难以完成。有没有一种普通人都能简单采集淘宝的方法呢? 

以下是我们整理的淘宝数据采集教程,大家可以按描述来操作即可,字段提取可根据自己的实际需求增减。 
item_get-获得淘宝商品详情

公共参数

名称类型必须描述
keyString调用key(必须以GET方式拼接在URL中)调用API接口入口
secretString调用密钥
api_nameStringAPI接口名称(包括在请求地址中)[item_search,item_get,item_search_shop等]
cacheString[yes,no]默认yes,将调用缓存的数据,速度比较快
result_typeString[json,jsonu,xml,serialize,var_export]返回数据格式,默认为json,jsonu输出的内容中文可以直接阅读
langString[cn,en,ru]翻译语言,默认cn简体中文
versionStringAPI版本

请求参数

请求参数:num_iid=652874751412&is_promotion=1

参数说明:num_iid:淘宝商品ID
is_promotion:是否获取取促销价

响应参数

Version: Date:2022-04-04

名称类型必须示例值描述

item

item[]1宝贝详情数据

num_iid

Bigint1520813250866宝贝ID

title

String1三刃木折叠刀过安检创意迷你钥匙扣钥匙刀军刀随身多功能小刀包邮宝贝标题

desc_short

String0商品简介

promotion_price

Int0优惠价

price

Float125.8价格

total_price

Float00

suggestive_price

Float00

orginal_price

String025.80原价

nick

String0欢乐购客栈掌柜昵称

num

Int03836库存

min_num

Int00最小购买数

detail_url

String0http://item.taobao.com/item.htm?id=520813250866宝贝链接

pic_url

String1//gd2.alicdn.com/imgextra/i4/2596264565/TB2p30elFXXXXXQXpXXXXXXXXXX_!!2596264565.jpg宝贝图片

brand

String0三刃木品牌名称

brandId

Int08879363品牌ID

rootCatId

Int050013886顶级分类ID

cid

Int150014822

crumbs

Mix0[]导航菜单

created_time

String0

modified_time

String0

delist_time

String0

desc

String0商品详情

desc_img

Mix0[]商品详情图片

item_imgs

Mix0item_imgs[]商品图片

item_weight

String0

item_size

String0

location

String0发货地

express_fee

Float00.00快递费用

ems_fee

Float0EMS费用

post_fee

Float0物流费用

shipping_to

String0发货至

has_discount

Boolean0false是否有优惠

video

video[]0商品视频

is_virtual

String0

is_promotion

Boolean0false是否促销

props_name

String01627207:1347647754:颜色分类:长方形带开瓶器+送工具刀卡+链子;1627207:1347647753:颜色分类:椭圆形带开瓶器+送工具刀卡+链子;商品属性名。格式为pid1:vid1:name1:value1;pid1:vid2:name2:value2。

prop_imgs

prop_imgs[]0商品属性图片列表

property_alias

String020509:9974422:36;1627207:28326:红色;20509:9975710:38;1627207:28326:红色;20509:9981357:40;1627207:28326:红色销售属性值别名。格式为pid1:vid1:alias1;pid1:vid2:alia2。

props

Mix0[{ "name": "产地","value": "中国" }]商品属性

total_sold

Int0

skus

skus[]0商品规格信息列表

seller_id

Int02844096782卖家ID

sales

Int0138销量

shop_id

Int0151372205店铺ID

props_list

Mix0{20509:9974422: 尺码:36}商品属性

seller_info

seller_info[]1卖家信息

tmall

Boolean0false是否天猫

error

String0错误信息

warning

String0警告信息

url_log

Mix0[]

favcount

Int00

fanscount

Int00

method

String0item_tmall:pget_item

promo_type

String0

props_img

Mix01627207:28326": "//img.alicdn.com/imgextra/i2/2844096782/O1CN01VrjpXt1zyCc9DvERE_!!2844096782.jpg属性图片

shop_item

Mix0[]

relate_items

Mix0[]

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/903591.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

EndNote(二)【文献导入、全文检索】

在开始之前我们可以先分个组以管理自己的文件,如果不分组的话,它所有的文件都会放在unfiled这个目录下: 如何分组也很简单: 然后给个名字即可: 文献导入(五种方法) 第一种:pdf直接导…

STM32F4X USART串口使用

STM32F4X USART串口使用 串口概念起始位波特率数据位停止位校验位串口间接线 STM32F4串口使用步骤GPIO引脚复用函数串口初始化函数串口例程 串口概念 串口是MCU与外部通信的重要通信接口,也是MCU在开发过程中的调试利器。串口通信有几个重要的参数,分别…

基于蚁狮算法优化的BP神经网络(预测应用) - 附代码

基于蚁狮算法优化的BP神经网络(预测应用) - 附代码 文章目录 基于蚁狮算法优化的BP神经网络(预测应用) - 附代码1.数据介绍2.蚁狮优化BP神经网络2.1 BP神经网络参数设置2.2 蚁狮算法应用 4.测试结果:5.Matlab代码 摘要…

Chrome如何安装插件(文件夹)

1.下载的插件 说明:插件文件夹 2.打开扩展程序位置 3.点击已加载的扩展程序 说明:找到插件的位置 4.报错 说明:那还要进入文件里面。 5.插件的位置 说明:如果已经安装了插件,那么需要查看插件的位置。chrome输入 …

todesk远程连接出现闪退如何解决

官方提供方案:ToDesk远程桌面软件-免费安全流畅的远程连接电脑手机https://www.todesk.com/faq/88.html 图1 打开上述网址,输入“闪退”进行搜索 图2 超级实用解决方法 (本机软件设置一下即可) 图3 其实图2就已经解决问题了&…

【汇编语言】CS、IP与代码段

文章目录 两个关键的寄存器在CS和IP指示下代码的运行问答 两个关键的寄存器 CS: 代码段寄存器;IP: 指令指针寄存器;CS:IP : CPU将内存中CS:IP只想的内容当作指令执行; 在CS和IP指示下代码的运行 具体步骤描述: 1、第…

【rust/egui】(四)看看template的app.rs:update以及组件TopBottomPanelButton

说在前面 rust新手,egui没啥找到啥教程,这里自己记录下学习过程环境:windows11 22H2rust版本:rustc 1.71.1egui版本:0.22.0eframe版本:0.22.0上一篇:这里 update update实际上还是eframe::App的…

利用快慢指针,求链表的中间结点,判断链表是否是环形链表

前言 (1)在学习数据结构链表部分的时候,老师给出了几个题目。其中两个题目采用了快慢指针的技术,感觉有意思,于是写一篇博客记录一下。 快慢指针 (1)我们先来介绍一下快慢指针技术。这个说起来其…

Java性能分析中常用命令和工具

当涉及到 Java 性能分析时,有一系列强大的命令和工具可以帮助开发人员分析应用程序的性能瓶颈、内存使用情况和线程问题。以下是一些常用的 Java 性能分析命令和工具,以及它们的详细说明和示例。 以下是一些常用的性能分析命令和工具汇总: …

vscode远程调试PHP代码

目录 一、准备工作 二、ssh连接和xdebug配置 1.ssh连接 2.xdebug配置 三、xdebug调试,访问 一、准备工作 1.安装vscode里面的两个扩展 2.安装对应PHP版本的xdebug 去xdebug官方,复制自己的phpinfo源码到方框里,再点击Analyse Xdebug: …

【⑫MySQL | 约束(二)】外键 | 默认值 | 检查约束 — 综合案例

前言 ✨欢迎来到小K的MySQL专栏,本节将为大家带来MySQL外键 | 默认值 | 检查约束 以及综合案例的分享✨ 目录 前言6. 外键约束(FOREIGN KEY,FK)7. 默认值约束和检查约束8. 综合实战总结 6. 外键约束(FOREIGN KEY,FK) 前面介绍的完整性约束都是在单表中进行设置&…

VB6创建ActiveX exe简单方法

VB6创建的COM即可以是线程内的DLL,也可以是线程外独立的EXE,有些32位的旧东西做activex.exe封装后在新硬件新软件x64位上用还是可以的。其实activex DLL和activeX EXE主要功能并不需要改变。activex DLL可以是如下的样子: 一个主工程文件&…

​​Linux 信号量​​​​

信号量的产生原因 我们将可能会被多个执行流同时访问的资源叫做临界资源,临界资源需要进行保护否则会出现数据不一致等问题。 当我们仅用一个互斥锁对临界资源进行保护时,相当于我们将这块临界资源看作一个整体,同一时刻只允许一个执行流对…

WPF入门到精通:2.WPF常用控件及布局

WPF(Windows Presentation Foundation)是一个用于构建 Windows 应用程序的框架,它提供了丰富的控件和布局方式,帮助开发者快速构建出现代化的应用程序。 WPF常用控件 Button 控件 WPF 中最常用的控件之一。它由一个文本标签和一个…

设计模式之迭代器模式(Iterator)的C++实现

1、迭代器模式的提出 在软件开发过程中,操作的集合对象内部结构常常变化,在访问这些对象元素的同时,也要保证对象内部的封装性。迭代器模式提供了一种利用面向对象的遍历方法来遍历对象元素。迭代器模式通过抽象一个迭代器类,不同…

list使用

list的使用于string的使用都类似,首先通过查阅来看list有哪些函数: 可以看到函数还是蛮多的,我们值重点一些常用的和常见的: 1.关于push_back,push_front,和对应迭代器的使用 //关于push_back和push_front void test_list1() {l…

算法通关村——字符串反转问题解析

1. 反转字符串 反转字符串 编写一个函数,其作用是将输入的字符串反转过来。输入字符串以字符数组 s 的形式给出。 不要给另外的数组分配额外的空间,你必须原地修改输入数组、使用 O(1) 的额外空间解决这一问题。 1.1 交换 这一题的思路还是简单的&…

Flink状态和状态管理

1.什么是状态 官方定义:当前计算流程需要依赖到之前计算的结果,那么之前计算的结果就是状态。 这句话还是挺好理解的,状态不只存在于Flink,也存在生活的方方面面,比如看到一个认识的人,如何识别认识呢&am…

程序的编译流程

程序的编译过程大致可以分为以下几个阶段

八大排序算法 - Java实现

冒泡排序 排序原理: 比较相邻的元素。如果前一个元素比后一个元素大,就交换这两个元素的位置。对每一对相邻元素做同样的工作,从开始第一对元素到结尾的最后一对元素。最终最后位置的元素就是最大值 代码实现: import java.uti…