记录一次爬虫接单项目【采集国际淘宝数据】

news2025/2/27 11:10:43

1.背景

前几天接了一个爬虫的单子,上周六已经完成这个单子,也收到了酬劳(数目还不错,哈哈哈,小喜了一下)。这个项目大概我用了两天写完了(空闲时间写的)。

2.介绍

大概要采集的数据步骤:1)输入商品名称;2)搜索供应商;3)爬取所有供应商的里所有商品数据和对应商品的交易数据;

alibaba国际淘宝API接口数据采集

链接:

https://www.alibaba.com/

1.这个爬虫项目是对alibaba国际淘宝网站采集数据。

图片

2.通过输入商品,比如:蓝牙耳机

tws+bluetooth+earphone

链接

https://www.alibaba.com/trade/search?fsb=y&IndexArea=company_en&CatId=&SearchText=tws%2Bbluetooth%2Bearphone&viewtype=&tab=

图片

3.其中某一个商家的所有商品

链接

https://bhdchina.en.alibaba.com/productlist.html?spm=a2700.shop_cp.88.30

图片

4.对应的交易数据记录

链接

https://bhdchina.en.alibaba.com/company_profile/transaction_history.html?spm=a2700.shop_cp.13934.2.2c8f3fa0rt2lHo

图片

3.爬取商家信息

为什么要先爬取商家信息,因为商品数据和交易数据都是需要根据商家名称去爬取,所有先开始爬取商家信息。

导入库包

import requestsimport jsonfrom lxml import etreeimport datetimeimport xlwtimport osimport time

requests请求头

headers = {     'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:64.0) Gecko/20100101 Firefox/64.0'}

先看看要采集哪些字段

图片

红框中的这些数据都是需要的(years,product_img,product_title,supperherf,Main Products,Country_Region,Total_Revenue,Top3_Markets,Transactions_6months,Response_Rate......)

其中supperherf是从url链接里面提取出的商家名称,后面爬取商品数据和交易数据需要用到

解析网页标签

比如名称对应的网页标签div是title ellipsis,在代码里面通过xpath可以解析到内容(这里都比较简单所以就介绍原理,小白不懂的可以看之前的文章去进行学习)

请求url数据

url = "https://www.alibaba.com/trade/search?spm=a2700.supplier-normal.16.1.7b4779adaAmpGa&page="+str(page)+"&f1=y&n=38&viewType=L&keyword="+keyword+"&indexArea=company_en"r = requests.get(url, headers=headers)r.encoding = 'utf-8's = r.text

解析字段内容

items = selector.xpath('//*[@class="f-icon m-item  "]')if(len(items)>1):    for item in items:        try:            years = item.xpath('.//*[@class="s-gold-supplier-year-icon"]/text()')            print("years=" + str(years[0])+"YRS")

            for i in item.xpath('.//*[@class="product"]'):                 product_img = i.xpath('.//*[@class="img-thumb"]/@data-big')[0]                 product_title = i.xpath('.//a/@title')[0]                 product_img = str(product_img)                 index1 = product_img.index("imgUrl:'")                 index2 = product_img.index("title:")                 product_img = "https:"+product_img[index1 + 8:index2 - 2]                 print("product_img="+str(product_img))                 print("product_title=" + str(product_title))
            title = item.xpath('.//*[@class="title ellipsis"]/a/text()')            print("title="+str(title[0]))            supperherf = item.xpath('.//*[@class="title ellipsis"]/a/@href')[0]            index1 = supperherf.index("://")            index2 = supperherf.index("en.alibaba")            supperherf = supperherf[index1 + 3:index2 - 1]            print("supperherf=" + str(supperherf))            Main_Products = item.xpath('.//*[@class="value ellipsis ph"]/@title')            Main_Products = "、".join(Main_Products)            print("Main Products=" + str(Main_Products))            CTT = item.xpath('.//*[@class="ellipsis search"]/text()')            Country_Region=CTT[0]            Total_Revenue=CTT[1]            Top3_Markets = CTT[2:]            Top3_Markets = "、".join(Top3_Markets)            print("Country_Region=" + str(Country_Region))            print("Total_Revenue=" + str(Total_Revenue))            print("Top3_Markets=" + str(Top3_Markets))            Transactions_6months= item.xpath('.//*[@class="lab"]/b/text()')            print("Transactions_6months=" + str(Transactions_6months))            num = item.xpath('.//*[@class="num"]/text()')[0]            print("num=" + str(num))            Response_Rate = item.xpath('.//*[@class="record util-clearfix"]/li[2]/div[2]/a/text()')[0]            print("Response_Rate=" + str(Response_Rate))            count =count+1            print("count="+str(count))            print("page=" + str(page))            print("------------------")

解析结果

图片

到这里就采集完商家数据了,下面开始爬取商家商品数据

4.采集商品数据

图片

这里商品数据的内容就少了很多(商品图片imgurl,名称title,价格piece,最低价格minorder)。

解析网页标签

图片

请求网页数据

url = "https://" + str(compayname) + ".en.alibaba.com/productlist-" + str(            page) + ".html?spm=a2700.shop_pl.41413.41.140b44809b9ZBY&filterSimilar=true&filter=null&sortType=null"r = requests.get(url, headers=headers)r.encoding = 'utf-8's = r.text

解析标签内容

items = selector.xpath('//*[@class="icbu-product-card vertical large product-item"]')if(len(items)>1):        try:            for item in items:                imgurl = item.xpath(                    './/*[@class="next-row next-row-no-padding next-row-justify-center next-row-align-center img-box"]/img/@src')                title = item.xpath('.//*[@class="product-info"]/div/a/span/text()')                piece = item.xpath('.//*[@class="product-info"]/div[@class="price"]/span/text()')                minorder = item.xpath('.//*[@class="product-info"]/div[@class="moq"]/span/text()')                print("imgurl=" + str("".join(imgurl)))                print("title=" + str(title[0]))                print("piece=" + str("".join(piece)))                print("minorder=" + str(minorder[0]))                print("count="+str(count))                print("-----------------------------------")                count =count+1

爬取结果

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1528505.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Flutter-仿淘宝京东录音识别图标效果

效果 需求 弹起键盘,录制按钮紧挨着输入框收起键盘,录制按钮回到初始位置 实现 第一步:监听键盘弹起并获取键盘高度第二步:根据键盘高度,录制按钮高度计算偏移高度,并动画移动第三步:键盘收起…

深度学习_卷积

卷积 卷积(Convolution)是数学和计算机科学中的一个重要概念,特别在信号处理和图像处理中应用广泛。在信号处理领域,卷积是两个函数之间的一种数学操作,它表示两个函数的重叠部分的积分量。 在图像处理中&#xff0c…

KKVIEW远程: TODESK退出了还能远程吗

Todesk退出了还能远程吗 当我们谈论Todesk或其他远程桌面软件时,一个经常被提及的问题是:当我退出Todesk后,是否仍然可以远程访问我的计算机?为了回答这个问题,我们首先需要了解Todesk的工作原理和远程访问的基本条件…

WhatsApp商业推广有哪些推广技巧?

在现代化商业,与用户创造紧密、良好的互动体验,建立强大的品牌形象以及找到最佳的推广途径,变得尤为重要。而WhatsApp作为全球使用最广泛的即时通讯应用之一,成为无数企业选择优选的推广平台。那么,在WhatsApp商业推广…

图书推荐|西门子S7-1200 PLC编程与应用实例

一线资深工程师的全彩版PLC实战教程,软硬件及编程全方位详解(配视频教学) 本书内容 《西门子S7-1200 PLC编程与应用实例》对西门子S7-1200 PLC的硬件和编程软件的功能进行详细讲解,内容包括PLC编程基础、博途TIA软件入门、指令介…

使用OCC进行切割操作

OCC中切割操作以一个平面作为切割面,对物体进行切割操作 //要操作的图形 TopoDS_Shape shape getHanleShape(); //构造切割面 TopoDS_Shape faceShape getSplitterFace(); //切割操作 BOPAlgo_Splitter splitter; splitter.AddArgument(shape); splitter.AddTool(…

13.Python从入门到精通—Python 集合操作与方法概览

13.Python从入门到精通—Python 集合操作与方法概览 Python 集合集合的基本操作1、添加元素2、移除元素3、计算集合元素个数4、清空集合5、判断元素是否在集合中存在 集合内置方法完整列表 Python 集合 在Python中,集合是一种无序、不重复的数据类型。集合通常用于…

unicloud快速上手,unicloud项目创建以及项目创建注意事项

uniCloud快速上手 本项目地址https://gitee.com/qayrup/unicloud-demo 创建unicloud项目 新建一个uni项目,并选择启用unicloud,选择阿里云或腾讯云 阿里云和支付宝云都支持一个月免费的云,如果只想体验啥的,可以选择这两个, 但是需要注意,支付宝云需要配置跨域,否则很多云函…

0基础学习VR全景平台篇第145篇:图层控件功能

大家好,欢迎观看蛙色VR官方——后台使用系列课程!这期,我们将为大家介绍如何使用图层控件功能。 一.如何使用图层控件功能? 进入作品编辑页面,点击左边的控件后就可以在右边进行相应设置。 二.图层控件有哪些功能&am…

C++有关内存的那些事

个人主页:PingdiGuo_guo 收录转栏:C干货专栏 前言 本篇博客是讲解关于C内存的一些知识点的。 文章目录 前言 1.内存函数 1.1memcpy函数 1.2memmove函数 1.3 memset函数 2.各数据类型占用 2.1bool类型 2.2char类型 2.3short、int、long类型及整数…

英语广场杂志英语广场杂志社英语广场编辑部2024年第3期目录

英语翻译理论与实践 浅析钱钟书“化境论”与文言文英译的适配度 冯睿;姚锦宁;李佳彧; 3-6《英语广场》投稿:cn7kantougao163.com 目的论视角下《写作、阅读和演讲的艺术》的翻译分析报告 张俊怡; 7-10 新加坡籍译者温宏文翻译行为研究 周梦; 11-14 …

CVE-2024-24112 XMall后台管理系统 SQL 注入漏洞分析

------作者本科毕业设计项目 基于 Spring Boot Vue 开发而成...... [Affected Component] /item/list /item/listSearch /sys/log /order/list /member/list (need time-based blind injection) /member/list/remove 项目下载地址 Exrick/xmall: 基于SOA架构的分布式…

百年难遇:3款良心好用的国产软件,常被误以为是外国佬开发

许多出色的国产软件,但由于某些特殊原因,我们常常错过了它们。 今天,笔者将向大家推荐三款电脑必备的软件,每一款都堪称神器。 Teamind Teamind是一款功能强大的在线白板工具,支持多人协作,成为众多居家…

收银软件多少钱一套?亿发全面解析超市收银系统软件价位

当超市经营达到一定规模时,商户通常会选择配置收银系统软件,以提升收银效率和为顾客提供更完善的购物体验。然而,人们常问:收银系统软件一套需要多少钱?安装一个收银系统又需要多少费用呢?了解收银系统软件…

JDK1.8安装环境变量配置检测是否安装成功

前言 目前市面上最常用的还是java1.8和Mysql5.7(企业)2024 安装包 已上传CSDN,审核中 JDK安装细节 注:如果怕麻烦就直接安装在C盘(默认) 环境变量配置 Win10打开左下角图标点击系统,下滑点…

ET框架新起一个服务及实现服务之间的消息通讯

ET框架是熊猫大大写的双端框架,游戏客户端和服务端都是用C#语言来编写 新起一个服务名比如叫做Activity 1.配置文件StartSceneConfig 2. SceneFactory switch (scene.SceneType) {case SceneType.Activity:break; } 定义SceneType枚举类型 public enum SceneTyp…

计算机网络——物理层(物理传输介质和物理层的设备)

计算机网络——物理层(物理传输介质和物理层的设备 物理传输介质导向性传输介质双绞线同轴电缆光纤 非导向性传输介质无线电波多径效应 微波地面微波通信ISM 频段 卫星通信 物理层设备中继器集线器中继器和集线器的区别 我们今天进入物理层的物理传输介质和物理层的…

【原创】手动安装open-webui,非官方docker安装方法,可汉化ui

open-webui是一个为LLMs(大型语言模型)设计的友好型Web用户界面,支持Ollama和OpenAI兼容的API。它提供了直观的聊天界面、响应式设计、快速响应性能、简易安装、代码语法高亮、Markdown和LaTeX支持、本地RAG集成、Web浏览能力、提示预设支持、…

Vue 中使用事件总线来进行组件间通信($emit()、$on() 和 $off())

使用场景: 上一篇文章中写到的: echarts图表左击显示自定义弹框,右击取消自定义弹框 结构图:(removet修改为remove) 假设这个echarts图表是子组件B页面中。而父页面A的自定义弹框标签里调用了子组件B&am…

如何使用生成式AI来制定SEO内容策略?

SEO内容策略是一系列旨在优化网站内容以提高其在搜索引擎中排名的行动计划,从而增加网站流量并提升品牌影响力。在当今互联网信息海量的情况下,优秀的SEO内容策略可以帮助您的网站脱颖而出,吸引更多目标用户。 背景知识 SEO(搜索…