【Python爬虫】爬取淘宝商品数据——新手教程

news2025/1/18 20:23:37

大数据时代,

数据收集不仅是科学研究的基石,

更是企业决策的关键。

然而,如何高效地收集数据

成了摆在我们面前的一项重要任务。

本文将为你揭示,

一系列实时数据采集方法,

助你在信息洪流中,

找到真正有价值的信息。

提升方法


今天,我们就用python爬取淘宝上某一商品的数据

Python版本:Python3.6

浏览器:谷歌
一键爬取

目的:爬取淘宝上所有卖高跟鞋的商家的商品名称、商品价格、付款人数、店铺和发货地址,将爬取到的数据保存在data.csv文件中

一、输入关键词和网址

keywords = '高跟鞋'
while 1:
 try:
        driver = webdriver.Chrome()
        break
 except:
        time.sleep(1)
driver.get('https://www.taobao.com/')
page = search_product(keywords)

关键词keywords为高跟鞋,while的目的是防止出现因为网不好导致报错。这一部分运行后,会自动打开淘宝官网,并将关键词自动输入。

二、构建存储表格

with open('data.csv','a',newline='') as filecsv:
    csvwriter = csv.writer(filecsv,delimiter = ',')
    csvwriter.writerow(['商品名称','商品价格','付款人数','店铺','发货地址'])
    get_product()
    page_num = 1

三、爬取每一页的商品数据

while page_num != page:
        print('正在爬取第'+str(page_num)+'页数据')
        driver.get('https://s.taobao.com/search?q='+keywords+'&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=a21bo.2017.201856-taobao-item.2&ie=utf8&initiative_id=tbindexz_20170306&bcoffset=3&ntoffset=3&p4ppushleft=1%2C48&s='+str(page_num*44))
        driver.implicitly_wait(2)                      #浏览器等待 因为爬取速度过快
        driver.maximize_window()                       #浏览器最大化
        get_product()
        page_num = page_num+1

def get_product():
    divs = driver.find_elements_by_xpath('//div[@class="items"]/div[@class="item J_MouserOnverReq  "]')
    product = {}
    product_all = {}
 with open('data.csv','a',newline='') as filecsv:
        csvwriter = csv.writer(filecsv,delimiter = ',')
 for id_product,div in enumerate(divs):
            product['info'] = div.find_elements_by_xpath('.//div[@class="row row-2 title"]')[0].text
            product['price'] = div.find_elements_by_xpath('.//div[@class="price g_price g_price-highlight"]/strong')[0].text+'元'
            product['Number_of_people'] = div.find_elements_by_xpath('.//div[@class="deal-cnt"]')[0].text
            product['address'] = div.find_elements_by_xpath('.//div[@class="location"]')[0].text
            product['Shop'] = div.find_elements_by_xpath('//div[@class="shop"]/a/span[2]')[0].text
 #   with open('data.csv','a',newline='') as filecsv:
 #       csvwriter = csv.writer(filecsv,delimiter = ',')
            csvwriter.writerow([product['info'],product['price'],product['Number_of_people'],product['Shop'],product['address']])

page为需要爬取的总页数,在本代码中为所有页码,如果只需要前10页,可手动将其改为10。

driver.implicitly_wait(2) 为页面等待两秒,是为了防止网址发现是爬虫而不让爬取数据。

driver.implicitly_wait(2) 函数为提取每一页商品的具体数据。

最后的保存结果为:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1622595.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【前端缓存】localStorage是同步还是异步的?为什么?

写在开头 点赞 收藏 学会 首先明确一点,localStorage是同步的 一、首先为什么会有这样的问题 localStorage 是 Web Storage API 的一部分,它提供了一种存储键值对的机制。localStorage 的数据是持久存储在用户的硬盘上的,而不是内存。这意…

JavaScript实现代码雨

一、功能描述 使用canvas实现一个代码雨的功能&#xff0c;炫一个~~~ 二、上码 html <canvas id"canvas"></canvas> js let canvas document.querySelector(canvas);let ctx canvas.getContext(2d);// screen.availWidth:可视区域的宽度canvas.width…

解决 uniapp uni.getLocation 定位经纬度不准问题

【问题描述】 直接使用uni.getLocation获取经纬度不准确&#xff0c;有几百米的偏移。 【解决办法】 加偏移量 //加偏移 let x longitude let y latitude let x_pi (3.14159265358979324 * 3000.0) / 180.0 let z Math.sqrt(x * x y * y) 0.00002 * Math.sin(y * x_pi)…

时装购物系统,基于 SpringBoot+Vue+MySql 开发的前后端分离的时装购物系统分析设计与实现

目录 一. 前言 二. 功能模块 2.1. 管理员功能模块 2.2. 用户功能模块 2.3. 前台首页功能模块 三. 部分代码实现 四. 源码下载 一. 前言 随着科学技术的飞速发展&#xff0c;社会的方方面面、各行各业都在努力与现代的先进技术接轨&#xff0c;通过科技手段来提高自身的…

回归预测 | Matlab实现ESN回声状态网络的多输入单输出回归预测

回归预测 | Matlab实现ESN回声状态网络的多输入单输出回归预测 目录 回归预测 | Matlab实现ESN回声状态网络的多输入单输出回归预测预测效果基本介绍程序设计参考资料 预测效果 基本介绍 1.Matlab实现ESN回声状态网络的多输入单输出回归预测&#xff08;完整源码和数据)&#x…

盲人安全过马路:科技赋能,独立出行不再难

作为一位资深记者&#xff0c;我长期关注特殊群体的生活现状与科技助力下的改善举措。今天&#xff0c;我要讲述的是盲人朋友在独立出行&#xff0c;尤其是过马路时面临的挑战&#xff0c;以及一款叫做蝙蝠避障的创新辅助应用如何通过实时避障与拍照识别功能&#xff0c;显著提…

Github仓库每日更新京东、淘宝、天猫各品类优惠券

1、⚠️ ⚠️ 每次都是最新的&#xff0c;不保留历史文档&#xff0c;每天批量更新 1 &#xff5e; 3 次&#xff0c;都是精选&#xff0c;钱难赚&#xff0c;屎难吃&#xff0c;能省则省&#xff0c;看到合适的及时上车。 2、Gitee仓库地址 和 Github仓库地址 同步更新。 3、…

一键智能改写文案怎么做,4个方法教你轻松搞定

文案在我们的生活中随处可见&#xff0c;所以文案的重要性也是很大的。而对于文案创作者来说&#xff0c;改写文案是工作中必不可少的任务。但人工手动改写文案是一件非常消耗时间与精力的工作&#xff0c;因此&#xff0c;一键智能改写文案成了创作者们最适合的方法&#xff0…

C++必修:从C到C++的过渡(下)

✨✨ 欢迎大家来到贝蒂大讲堂✨✨ &#x1f388;&#x1f388;养成好习惯&#xff0c;先赞后看哦~&#x1f388;&#x1f388; 所属专栏&#xff1a;C学习 贝蒂的主页&#xff1a;Betty’s blog 1. 缺省参数 1.1. 缺省参数的使用 缺省参数是声明或定义函数时为函数的参数指定…

【Nginx】Nginx启动显示80端口占用问题的解决方案

目录 &#x1f305;1. 问题描述 &#x1f30a;2. 解决方案 &#x1f305;1. 问题描述 在启动nginx服务的时候显示内容如下&#xff1a; sudo systemctl status nginx 问题出现原因&#xff1a; 根据日志显示&#xff0c;Nginx 服务启动失败&#xff0c;主要原因是无法绑定…

Oracle Linux 8.8 一键安装 Oracle 11GR2 RAC(231017)

前言 Oracle 一键安装脚本&#xff0c;演示 Oracle Linux 8.8 一键安装 Oracle 11GR2 RAC&#xff08;231017&#xff09;过程&#xff08;全程无需人工干预&#xff09;&#xff1a;&#xff08;脚本包括 ORALCE PSU/OJVM 等补丁自动安装&#xff09; ⭐️ 脚本下载地址&…

热知识:更多团队采用3个及以上内部开发者平台

01 介绍 根据 Perforce Puppet 的一份新报告中&#xff0c;平台工程的采用已经在一些企业内看到了成效&#xff0c;78% 的受访者表示他们的组织拥有专门的平台团队至少三年了。 然而&#xff0c;这并不意味着这些组织只使用同一套工具。四分之三的调查参与者表示&#xff0c;他…

【笔记】头部比例知识

1.三庭五眼 三庭&#xff1a;颅骨-眼睛 五眼&#xff1a;发际线-眉心-鼻底-下巴 2.结构位置 耳朵底部尽量不要超过鼻子底部&#xff0c;耳朵最高点一般是在眉心。 眼睛可以简化为五边形或梯形&#xff0c;但上面的最高点和下面的最高的最好不要平行&#xff0c;而是连起来是…

手撕sql面试题:根据分数进行排名,不使用窗口函数

分享一道面试题&#xff1a; 有一个分数表id 是该表的主键。该表的每一行都包含了一场考试的分数。Score 是一个有两位小数点的浮点值。 以下是表结构和数据&#xff1a; Create table Scores ( id int(11) NOT NULL AUTO_INCREMENT, score DECIMAL(3,2), PRIMARY KEY…

redis中的缓存穿透问题

缓存穿透 缓存穿透问题&#xff1a; 一般请求来到后端&#xff0c;都是先从缓存中查找数据&#xff0c;如果缓存中找不到&#xff0c;才会去数据库中查询数据。 而缓存穿透就是基于这一点&#xff0c;不断发送请求查询不存在的数据&#xff0c;从而使数据库压力过大&#xff…

java-springboot 01 手写springboot

01.springboot 一般都是一个父项目&#xff0c;而后子项目依赖父项目&#xff0c;保持依赖的版本相同 首先创建一个maven的父项目&#xff0c;由于idea更新&#xff0c;所以用Maven Archetype 来创建maven项目 具体的配置&#xff1a; 在已经创建的wzpWriteSpringboot的父mav…

低代码信创开发核心技术(四)动态元数据系统设计

一、概述 在当今快速发展的信息技术领域&#xff0c;动态元数据系统扮演着至关重要的角色。它不仅能够提供数据的描述信息&#xff0c;还能动态地适应业务需求的变化&#xff0c;从而提高系统的灵活性和可扩展性。构建一个动态元数据系统意味着我们可以在不重启系统的情况下&a…

HIL 测试

HIL是什么&#xff1f; 即硬件在环测试&#xff08;Hardware-in-the-Loop Testing&#xff09;&#xff0c;是一种广泛应用于汽车电子控制系统领域的测试方法。它将实际的硬件&#xff08;如ECU、传感器、执行器等&#xff09;与模拟器件&#xff08;如模型、仿真器等&#xf…

企业微信hook接口协议,根据用户id批量获取详细信息

根据用户id批量获取详细信息 参数名必选类型说明uuid是String每个实例的唯一标识&#xff0c;根据uuid操作具体企业微信 请求示例 {"uuid": "3240fde0-45e2-48c0-90e8-cb098d0ebe43","vids":[7881302555913738,1688853794914376] } 返回示例 {&…

内网穿透下的 wordpress 地址冲突问题与 https 下的后台登陆问题

内网穿透下的 wordpress 地址冲突问题与 https 下的后台登陆问题 内网穿透下的地址冲突https 登录管理后台总结 同步发布在个人笔记内网穿透下的 wordpress 地址冲突问题与 https 下的后台登陆问题 笔记记录解决两个 wordpress 相关问题 如果我们使用内网穿透把本地的 wordpre…