Python采集某购物软件数据信息,轻松拿捏千元外包项目

news2024/12/29 9:51:30

前言

嗨嗨,想必知道外包这个词的人应该不少吧

话说,接外包有多的也有少的,少的几十,多的emm上限我就不说了,嘿嘿

今天要不要来看看一个千元的外包项目?

是采集某购物软件的一些数据信息

咋说,有点吸引力吗,有的话就好好学python,赶紧接外包挣钱吧

请添加图片描述

selenium

Selenium 是一个 Web 的自动化测试工具,最初是为网站自动化测试而开发的,就像玩游戏用的按键精灵,可以按指定的命令自动操作。

Selenium 测试工具直接操控浏览器中,就像真正的用户在操作一样。Selenium 可以根据的指令,让浏览器自动加载页面,获取需要的数据,甚至页面截屏,或者判断网站上某些动作是否发生等。

模块安装

源码.资料.素材.工具安装包.点击领取即可

pip install selenium

谷歌驱动下载地址:

https://npm.**.org/mirrors/chromedriver/
http://chromedriver.storage.googleapis.com/index.html

配置浏览器驱动:

将下载好的浏览器驱动解压,将解压出的 exe 文件放到Python的安装目录下,也就是和python.exe同目录即可。

或者

把驱动和代码放在同一个路径里面

确定目标网页

请添加图片描述

爬取内容:

商品价格
商品名字
销量
店铺名字
发货地

1.获取搜索框元素,输入想要搜索的内容

这里咱们呢搜索女士包包的关键词

driver.find_element_by_css_selector('#q').send_keys('女式包包')

2.获取搜索按钮元素,点击搜索

driver.find_element_by_css_selector('.search-button').click()

3.会弹出登陆页面

方案一:

  • 获取账号和密码元素,用代码输入
  • 合理设置好延时,并不会出现验证码

方案二:

  • 获取支付宝登陆元素,点击手动扫码登陆

请添加图片描述

这边选择方案二,方案一是可行的,但是会账号密码,所以这个你们可以自己去尝试

driver.find_element_by_css_selector('#login-form > div.login-blocks.sns-login-links > a.alipay-login').click()

请添加图片描述

4.获取商品列表页数据

在这里插入图片描述

和普通爬虫解析网站数据一样的~获取列表页标签,然后再二次提取。

这里创建一个字典,接收数据,方便等会保存到csv文件。

源码.点击领取即可

lis = driver.find_elements_by_css_selector('#mainsrp-itemlist .item')
python学习交流Q群:770699889 ###
dit = {}
for li in lis:
    time.sleep(1)
    price = li.find_element_by_css_selector('.ctx-box .price strong').text + '元'  # 商品价格
    dit['商品价格'] = price
    deal = li.find_element_by_css_selector('.ctx-box .deal-cnt').text      # 成交量
    dit['成交量'] = deal
    row = li.find_element_by_css_selector('.ctx-box .row-2 a').text      # 商品名字
    dit['商品名字'] = row
    shop = li.find_element_by_css_selector('.shop > a > span:nth-child(2)').text      # 店铺名字
    dit['店铺名字'] = shop
    city = li.find_element_by_css_selector('.row-3 > div.location').text      # 发货地址
    dit['发货地址'] = city

5.保存数据

最后一步就是保存数据了,基本操作了

python学习交流Q群:770699889 ###
f = open('淘宝数据.csv', mode='a', encoding='utf-8-sig', newline='')
csv_writer = csv.DictWriter(f, fieldnames=['商品价格', '成交量', '商品名字', '店铺名字', '发货地址'])
csv_writer.writeheader()
csv_writer.writerow(dit)

6.翻页点击下一页

def next_page():
    driver.find_element_by_css_selector('#mainsrp-pager > div > div > div > ul > li.item.next > a').click()
    driver.implicitly_wait(10)

7.运行效果图

在这里插入图片描述

在这里插入图片描述

最后

今天的分享到这里就结束了

给大家推荐一些Python视频教程,希望对大家有所帮助:

Python零基础教学合集

对文章有问题的,或者有其他关于python的问题,可以在评论区留言或者私信我哦
觉得我分享的文章不错的话,可以关注一下我,或者给文章点赞(/≧▽≦)/

请添加图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/25552.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Excel常用图表,看看哪个还不会?

图表是指可以直接展示数据关于时间、数量等关系,对知识挖掘和信息直观生动感起关键作用的图形结果,是对数据关系进行形象“可视化”的手段。所以将数据转换为图表能使数据更为直观。 常见图表 Excel为用户提供了10几种图表,包括柱形图、折线…

【网安神器篇】——Crunch字典生成工具

作者名:Demo不是emo 主页面链接:主页传送门 创作初心:舞台再大,你不上台,永远是观众,没人会关心你努不努力,摔的痛不痛,他们只会看你最后站在什么位置,然后羡慕或鄙夷座…

小啊呜产品读书笔记001:《邱岳的产品手记-07》第13讲 无用却必要:产品规划【上】 第14讲 留白与节奏:产品规划【下】

小啊呜产品读书笔记001:《邱岳的产品手记-07》第13讲 无用却必要:产品规划【上】 & 第14讲 留白与节奏:产品规划【下】一、今日阅读计划二、泛读&知识摘录1、第13讲 无用却必要:产品规划【上】2、第14讲 留白与节奏&#…

Linux set 命令的使用方法

Linux set 命令的使用方法 set 语句是内置的 shell 命令,可以显示并设置 shell 和 Linux 的环境变量。在这篇文章中,我们将尝试使用 set 命令,并且进行一些简单的剖析。 预备工作 请登录您的终端,或者打开虚拟机并且连接&#x…

出海淘金TikTok,正确姿势是什么?

提起海外版抖音TikTok,相信大家并不陌生。TikTok在继美国封禁风波之后,虽然在美国市场的扩张受到了一定阻碍,但并不妨碍它的电商领域在英国市场以及东南亚市场混得风生水起。据统计,TikTok目前是Apple App Store上下载次数最多的应…

显示DataFrame中每行(或列)中,每个位置以前出现过的最小值:cummin()函数

【小白从小学Python、C、Java】 【计算机等级考试500强双证书】 【Python-数据分析】 显示DataFrame中每行(或列)中 每个位置以前出现过的最小值 cummin()函数 选择题 下列说法错误的是? import pandas as pd myDF pd.DataFrame({"A":[5,2,6], "B":[9…

通用后台管理系统前端界面Ⅸ——数据表格渲染及处理+前端分页

1、找 在页面添加table表格&#xff0c;从element-ui官网查找&#xff0c;包括数据一起复制过来&#xff0c;查看显示没有问题后&#xff0c;把tableData清空为空数组。 <template><div><el-table :data"tableData" height"auto" border …

智慧燃气解决方案-最新全套文件

智慧燃气解决方案-最新全套文件一、建设背景二、建设思路三、建设方案四、获取 - 智慧燃气全套最新解决方案合集一、建设背景 近年来城市燃气取得了巨大的发展&#xff0c;我们在享受清洁能源带来方便的同时&#xff0c;也带来了新的问题&#xff1a; ● 居民用户数量的大量增…

想知道如何图片转文字?这几个方法你别错过

工作中我们经常要处理很多含有文字的图片&#xff0c;并且大多数时候我们都需要里面的文字内容&#xff0c;如果你一个一个对照着码出来的话&#xff0c;这是很费时费力的工程&#xff0c;其实我们可以想办法将图片内容转换成文字&#xff0c;然后直接复制就可以使用了。那么你…

第十章:字典树(trie)与并查集

第十章&#xff1a;字典树&#xff08;trie&#xff09;与并查集一、字典树&#xff08;trie&#xff09;引入1、什么是字典树&#xff1f;2、思路分析3、复杂度分析4、模板&#xff08;1&#xff09;问题&#xff1a;&#xff08;2&#xff09;模板&#xff1a;&#xff08;3&…

vscode开发高频、通用插件集合(精选15个)

vscode开发通用插件集合1.Live Serve2. Chinese3. GitLens4. Color Highlight5. Highlight Matching Tag6. any-rule7. Time Master 或 Code Time8. Vetur9. ESLint10. Vue-format11. ENV12. background13. Code Runner14. Local History15. Postcode此文仅是本人多年的一些经验…

在全链路追踪中加入对方法(Method)追踪

在全链路追踪中加入对方法(Method)追踪 全链路追踪主要是在微服务场景下&#xff0c;实现了服务和服务之间的调用链关系。 这次尝试一下在单体应用中&#xff0c;怎么在全链路追踪技术中加入对方法(Method)追踪。 单体应用是用Springboot开放的一个简单CRUD应用&#xff0c;全…

.NET 企业基本通用权限框架系统源码

源码分享&#xff01; 系统介绍&#xff1a; 1、组织机构多级树型显示&#xff0c;各级部门从属关系一目了然操作便捷 2、用户所有的权限最终分配给用户&#xff0c;如果按用户去分配权限会把系统管理员给累死&#xff0c;系统中先建立角色&#xff0c;角色中再分配权限&#x…

一种词库的比对、保存方式

一种词库的比对、保存方式 词库以树状链表存储&#xff0c;示意图如下&#xff1a; 对于词库&#xff1a;&#xff5b;A,AB,ABC,ADE&#xff5d;可以按以下方式存储 注&#xff1a;每个链表在末尾添加\0表示结束 1 数组形式存储的空间复杂度为O(N^2) 即O(N*M) -N为敏感词长…

vscode配置linux私钥远程免密登录

安装romote-ssh 将linux下的 ssh-keygen -t rsa 生成的密钥id_rsa放到windows的目录下&#xff1a; 在vscode中配置文件路径&#xff1a; 修改配置文件的权限为666&#xff1a; chmod 666 id_rsa_179

电脑录屏快捷键是什么?电脑录屏是什么键

​在日常的生活之中&#xff0c;电脑录屏是比较常用的功能。有些小伙伴知道如何使用电脑自带的录屏软件&#xff0c;可普通的操作步骤实在是有些繁琐&#xff0c;想要通过录屏快捷键&#xff0c;快速进行录屏操作。那么电脑录屏快捷键是什么&#xff1f;电脑录屏是什么键&#…

【SpringMVC】提问问题汇总

【SpringMVC】提问问题汇总&#xff08;1&#xff09;什么是Spring MVC &#xff1f;对springMVC的理解?&#xff08;2&#xff09;SpringMVC的流程&#xff1f;&#xff08;3&#xff09;Springmvc的重要组件&#xff08;3&#xff09;Springmvc的优点&#xff08;设计模式&a…

工程机械流通行业BI经营分析框架(一)四大关注方向

工程机械流通行业的商业智能BI经营分析框架大体可以从四大方向出发来进行整体规划&#xff0c;厂商目标、业务经营目标、战略目标和行业数据这四部分内容。核心还是企业的业务经营目标&#xff0c;但是和其它三类也有很大的关系&#xff0c;所以这四部分需要放在一起去看、去规…

Java多线程(二)

目录 一、线程的使用 Thread类的有关方法 线程的调度 调度策略&#xff1a; java的调度方法 线程的优先级 线程的优先等级 如何获取优先级 线程有关方法及线程优先级练习 线程的分类 二、线程的生命周期 三、线程的同步&#xff08;一&#xff09;&#xff08;线程安…

【Linux】基本指令(二)

文章目录rmdir&&rm 指令nano 指令whoami 指令man 指令cp 指令mv 指令echo 指令cat 指令wc 指令more 指令less 指令head 指令tail 指令date 指令cal 指令rmdir&&rm 指令 &#x1f495; rmdir是一个与mkdir相对应的命令。 mkdir是建立目录&#xff0c;而rmdir是…