scrapy实践-02

news2024/11/24 9:45:07

双师demo

ptpress.com.cn/shopping/index

解析每一首歌

<ul class="f-hide"><li><a href="/song?id=2037945324">芯房</a></li><li><a href="/song?id=2037926385">知足</a></li><li><a href="/song?id=2036808675">经典</a></li><li><a href="/song?id=2036809063">烟</a></li><li><a href="/song?id=2037904328">你啊你啊·2023</a></li><li><a href="/song?id=34723470">东京不太热</a></li><li><a href="/song?id=2036331318">爱不单行</a></li><li><a href="/song?id=2037542587">我要你有我</a></li><li><a href="/song?id=2037916536">仙都梦茶</a></li><li><a href="/song?id=2036803442">MELODY LOVE</a></li><li><a href="/song?id=1961056433">肯定</a></li><li><a href="/song?id=2037202513">迷失的季节</a></li><li><a href="/song?id=2036841029">如期</a></li><li><a href="/song?id=2009060751">不属于地球上的</a></li><li><a href="/song?id=2037930284">葵语</a></li><li><a href="/song?id=2031946213">RUN</a></li><li><a href="/song?id=1978706347">遗憾吗</a></li><li><a href="/song?id=2033897126">迷宫</a></li><li><a href="/song?id=1996476772">Give You What You Want</a></li><li><a href="/song?id=2037917658">数呀数</a></li><li><a href="/song?id=2037904519">人间指南</a></li><li><a href="/song?id=1995089745">Surround Sound</a></li><li><a href="/song?id=2037904394">8Hz</a></li><li><a href="/song?id=1821073603">Falling for You</a></li><li><a href="/song?id=1981557398">孤雏</a></li><li><a href="/song?id=382358">Our Story</a></li><li><a href="/song?id=499673023">越过山丘 (Live)</a></li><li><a href="/song?id=2006721186">我们的歌</a></li><li><a href="/song?id=2024299143">丘比特信号</a></li><li><a href="/song?id=2035180495">姑娘在远方 (青春版)</a></li><li><a href="/song?id=1999314675">赦免</a></li><li><a href="/song?id=2037918332">追逐日落</a></li><li><a href="/song?id=526081111">到此为止</a></li><li><a href="/song?id=2028871055">循迹</a></li><li><a href="/song?id=1318721004">失眠酒</a></li><li><a href="/song?id=1963132367">PLAY</a></li><li><a href="/song?id=1915969053">Do My Ting</a></li><li><a href="/song?id=514765154">世界上的另一个我</a></li><li><a href="/song?id=552575157">Ice On My Baby</a></li><li><a href="/song?id=2037916407">爱煎熬</a></li><li><a href="/song?id=402070838">大地 (Live)</a></li><li><a href="/song?id=2025227743">Cupid (Twin Ver.)</a></li><li><a href="/song?id=2037926081">粉碎机</a></li><li><a href="/song?id=1833837324">你头顶的风</a></li><li><a href="/song?id=2037904735">夏夜没有你,但有海风吹</a></li><li><a href="/song?id=1437188905">你是我昨晚的梦</a></li><li><a href="/song?id=2008251973">吴德周</a></li><li><a href="/song?id=2037542572">日夜迁徙</a></li><li><a href="/song?id=255574">恶作剧</a></li><li><a href="/song?id=1309995372">Coffee</a></li><li><a href="/song?id=2033568298">你会看向我嘛</a></li><li><a href="/song?id=1956990495">Start Again</a></li><li><a href="/song?id=1303027499">总有一天你会出现在我身边</a></li><li><a href="/song?id=2017217006">So Low</a></li><li><a href="/song?id=87111">好想好想</a></li><li><a href="/song?id=1895575577">摊牌</a></li><li><a href="/song?id=2033025814">舍离去 (男女合唱版)</a></li><li><a href="/song?id=2035966239">姑娘在远方</a></li><li><a href="/song?id=2022649218">自知结局</a></li><li><a href="/song?id=347758">大地</a></li><li><a href="/song?id=1479199254">愿爱无忧 (Live)</a></li><li><a href="/song?id=190449">吻别</a></li><li><a href="/song?id=1468115100">不为谁而作的歌</a></li><li><a href="/song?id=2037133801">海</a></li><li><a href="/song?id=2019279516">精卫</a></li><li><a href="/song?id=1996687234">拥抱直到世界毁灭</a></li><li><a href="/song?id=440208643">Psycho, Pt. 2</a></li><li><a href="/song?id=2019562367">恨幸福来过</a></li><li><a href="/song?id=29803535">爱笑的眼睛</a></li><li><a href="/song?id=1447663247">i still think of you</a></li><li><a href="/song?id=2037148762">Hata Boldimu</a></li><li><a href="/song?id=34228130">剩下的盛夏</a></li><li><a href="/song?id=1887031463">杭州,利群,你</a></li><li><a href="/song?id=2037054152">univus</a></li><li><a href="/song?id=2002926115">Players</a></li><li><a href="/song?id=2034542374">流浪猫日记2.0</a></li><li><a href="/song?id=1831899575">Умри, если меня не любишь</a></li><li><a href="/song?id=1913064744">Waiting for Love</a></li><li><a href="/song?id=1407525373">Ex B***h</a></li><li><a href="/song?id=479408221">其实都没有</a></li><li><a href="/song?id=1831946241">Sweet But Psycho</a></li><li><a href="/song?id=2034851941">16BOOSTERZ</a></li><li><a href="/song?id=1960885799">现代史-下</a></li><li><a href="/song?id=115794">一生不变</a></li><li><a href="/song?id=469998923">别问很可怕</a></li><li><a href="/song?id=2003472053">People</a></li><li><a href="/song?id=191252">我们都一样</a></li><li><a href="/song?id=1955734902">Feeling Falling(Song Version)</a></li><li><a href="/song?id=1937340367">A Thousand Years</a></li><li><a href="/song?id=550936829">Ferrari</a></li><li><a href="/song?id=5240852">自由行走的花</a></li><li><a href="/song?id=2034227756">风儿是从哪说</a></li><li><a href="/song?id=2035989613">弥渡山歌(笛子版)</a></li><li><a href="/song?id=1950524577">Molde Canticle</a></li><li><a href="/song?id=2035119931">再见罗曼史</a></li><li><a href="/song?id=2037843658">美しい鰭</a></li><li><a href="/song?id=16435051">Rolling in the Deep</a></li><li><a href="/song?id=2023931078">病</a></li><li><a href="/song?id=1888937212">NEW BOY</a></li><li><a href="/song?id=2034521128">叮咚</a></li></ul>

scrapy

Day8 - 3.scrapy基本使用_哔哩哔哩_bilibili

【左素爬虫】课26 微博Scrapy实现_哔哩哔哩_bilibili30min

前面也有写过,大家可以区看看看

什么是scrapy?

一爬虫中封装好的一个明星框架。功能:高性能的持久化存储,异步的数据下载,高性能的数据解析,分布式

twisted异步数据下载

在路径下载下安装轮子

pip install 轮子

操作

  1. 创建一个工程:scrapy startproject xxxPro
  2. 进入文件cd xxxPro
  3. 创建爬虫文件scrapy genspider spiderName[爬虫文件名字] www.xxx.com[爬虫网址]
  4. 执行工程:scrapy crawl spiderName[爬虫文件名字]

scrapy crawl first

演示

爬虫first文件讲解

定义一个类,继承spider,包含
三个变量:name:唯一标识 allowed_domains允许的域名
一个方法 : 自动请求,跟request不一样,解析

setting基础配置

不遵守robosts协议

打印日志信息: scrapy crawl first --nolog

LOG_LEVEL='ERROR' 只显示错误日志信息

请求delay相当于sleep

# Configure a delay for requests for the same website (default: 0)
# See Settings — Scrapy 2.8.0 documentation
# See also autothrottle settings and docs
DOWNLOAD_DELAY = 3

创建pipelines文件并修改

# Configure item pipelines
# See Item Pipeline — Scrapy 2.8.0 documentation
ITEM_PIPELINES = {
"Firstblood.pipelines.RequestsPipeline": 300,
}

爬虫文件的解析

微博爬虫文件书写

Sina Visitor System

设置cookie

日志输出

#初始化url

多个链接,可以放多个请求池

class FirstSpider(scrapy.Spider):

name = "first"

# allowed_domains = ["www.baidu.com"]

start_urls = ["https://weibo.com/ajax/profile/getImageWall?uid=2127946391&sinceid=0&has_album=true"]

#解析数据

def parse(self, response):

ImageWallDict=json.loads(response.text) #转换成字典类型数据

data=ImageWallDict['data'] if 'data' in ImageWallDict else {}

sinceId=data['since_id'] if 'since_id' in data else None

pics=data['list'] if 'list' in data else []

for pic in pics:

pid=pic['pid'] if 'pid' in pic else None

src='https://wx4.sinaimg.cn/mw2000/{}.jpg'.format(pid)

print(src)

# with open('weibo.html','w') as f:

# f.write(response.text)

print(response)

#翻页

if sinceId: #判断是否存在

next_page=self.url.format(sinceId)

#创建scrapy解析池

yield scrapy.Request(url=next_page, callback=self.parse) #解析器是他自己

items创建

2023-04-14 08:12:28 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://weibo.com/ajax/profile/getImageWall?uid=2127946391&sinceid=4887140483072307_4887143686343092|1034:4887143328
448620_20230406_-1&has_album=true> (referer: https://weibo.com/ajax/profile/getImageWall?uid=2127946391&sinceid=4887372570689565_4887149583794583|1034:4887148739100724_20230406_-1&has_album=true)

2023-04-14 08:13:49 [scrapy.extensions.logstats] INFO: Crawled 17 pages (at 6 pages/min), scraped 0 items (at 0 items/min)

2023-04-14 08:15:42 [scrapy.crawler] INFO: Received SIGINT twice, forcing unclean shutdown

scrapy爬虫错误一:无法爬到期望的数据

scrapy爬虫没有任何的返回数据( Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min))

这种情况一般有以下几种可能性:

1. 网络连接问题:爬虫无法连接目标网站,或者连接超时。你可以尝试手动访问目标网站,看是否能够正常访问。如果不能,那么就需要检查网络连接、DNS解析等问题。

2. User-Agent被禁用:一些网站会根据User-Agent屏蔽爬虫,在scrapy中可以通过设置User-Agent来规避这个问题。

3. Robots协议限制:如果网站开启了Robot协议限制,则爬虫将无法进行抓取。你可以在浏览器中查看网站的robots.txt文件以确认是否存在这样的限制。

4. 数据提取规则问题:爬虫虽然能够完成访问和请求,但是无法正确提取所需的数据,这可能是因为Xpath或CSS选择器使用不正确等问题导致的。建议在代码中加入日志或者调试信息,以便迅速排查问题。

5. 其他问题:还有一些其他可能的问题,例如爬虫程序本身逻辑错误、服务器限制等等。建议仔细检查代码,并根据需求调整相关参数。

scrapy爬虫错误一:无法爬到期望的数据_不要影响我叠Q的博客-CSDN博客

代码实列

Scrapy框架的使用之Scrapy爬取新浪微博 - 掘金 (juejin.cn)

GitHub - Python3WebSpider/Weibo: Weibo Spider Using Scrapy

崔清才Python3WebSpider (github.com)

配套文字娇嗔【稳定可用 | 持续更新】微博超级爬虫 | BuyiXiao's Blog

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/457050.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

QMS-云质说质量 - 3 来料检验的九大坑,你踩过几个?

大家好&#xff0c;今天我们来讲一讲来料检验。 先重点强调一下&#xff0c;我们讨论的范围是采购大量零部件的离散制造企业&#xff0c;而不是全部类型的企业。 负责来料检验的是IQC部门。相对于整个公司的组织架构来说&#xff0c;IQC是一个很小、很小的部门。负责的事情也很…

2023找工作,怎么样才能成功跳槽面试拿到高薪呢?

前言 无论是在校招还是社会企业招聘中&#xff0c;应聘者总是要经过层层的考核才能被聘用。然而&#xff0c;在招聘时&#xff0c;设置的编程以及非技术面试问题&#xff0c;真的有必要吗&#xff1f;如此就能考核出一位开发者的真实水平&#xff1f; 说到底就是考验你的技术以…

WSL2 对外暴露端口

参考文档 一口气搞定 WSL2 的网络问题从局域网 (LAN) 访问 WSL 2 发行版通过本地网络连接到 WSL2 服务器 按照下面的操作步骤进行操作。 1. powershell 支持 sudo https://github.com/gerardog/gsudo 可以直接下载msi安装&#xff1a;https://github.com/gerardog/gsudo/rel…

excel数据分析比赛

基础 sql:百度网盘 请输入提取码 excel函数 <

Git+SpringBoot详谈

&#x1f648;作者简介&#xff1a;练习时长两年半的Java up主 &#x1f649;个人主页&#xff1a;老茶icon &#x1f64a; ps:点赞&#x1f44d;是免费的&#xff0c;却可以让写博客的作者开兴好久好久&#x1f60e; &#x1f4da;系列专栏&#xff1a;Java全栈&#xff0c;计…

Linux:shell+权限

索引 1.shell命令及其理解2.Linux权限及其理解1.权限基本概念2.修改权限3.权限掩码umask4.修改拥有者和所属组 3.粘滞位 1.shell命令及其理解 定义&#xff1a;命令行解释器 作用&#xff1a; 将使用者的命令翻译给kernal&#xff08;核心&#xff09;处理将核心的处理结果返…

隧道工程运维VR虚拟实操模拟训练提高学生动手能力

轨道交通作为我国国民经济的命脉和交通运输的骨干网络&#xff0c;不仅承担了绝大部分国家战略、经济物资的运输&#xff0c;还承担着客运运输职能。随着政策的重视和专业的细分&#xff0c;轨道交通的人才需求越来越大&#xff0c;但是目前传统教学面临着一些问题。 • 轨道交…

【AutoGPT】AutoGPT出现,是否意味着ChatGPT已被淘汰

Yan-英杰的主页 悟已往之不谏 知来者之可追 C程序员&#xff0c;2024届电子信息研究生 目录 前言 什么是ChatGPT&#xff1f; 什么是AutoGPT&#xff1f; AutoGPT与ChatGPT的区别 AutoGPT的优势和劣势 优势 劣势 ChatGPT是否会被淘汰&#xff1f; 前言 近年来&#x…

软件测试技术那么多,我们该如何分辨?

经典软件测试技术分类&#xff1a; 测试技术是指顺利完成测试的一系列相关过程&#xff0c;有很多可能的分类方式&#xff0c;表2-1就是其中的一种。表中列出了流行的测试技术&#xff0c;也按照上面的讨论对其进行分类&#xff1a;手工测试、自动测试、静态测试、动态测试、功…

瑞芯微RK3568开发板发布邮票孔开发板

迅为 iTOP-3568邮票孔开发板采用瑞芯微RK3568处理器&#xff0c;22nm工艺制程&#xff0c;集成4核A55架构处理器和Mali G52 2EE图形处理器&#xff0c;支持4K解码和1080P编码&#xff0c;内置独立的NPU&#xff0c;可用于轻量级人工智能应用&#xff0c; 开发板采购底板核心板的…

【大数据之Hadoop】十九、MapReduce总结

MapTask工作机制 &#xff08;1&#xff09;Read阶段&#xff1a; job的提交流程&#xff1a;待读写的源数据由客户端进行切片划分&#xff0c;划分完成之后提交(切片信息、jar包、xml配置文件)给yarn&#xff0c;yarn开启MrAppMaster&#xff0c;MrAppMaster读取切片信息&…

[BJDCTF2020CTF]之Misc篇(NSSCTF)刷题记录③

CTFHub-Misc篇刷题记录①wp SUCTF-2019-MISC签到题2021-安徽省赛-misc签到RCTF-2019-Misc-draw2020-BJDCTF-Misc-藏藏藏2020-BJDCTF-Misc-签个到2020-BJDCTF-Misc-认真你就输了2020-BJDCTF-Misc-你猜我是个啥2020-BJDCTF-Misc-一叶障目2020-BJDCTF-Misc-鸡你太美2020-BJDCTF-Mi…

2023-04-24 FastDFS使用

FastDFS 1.介绍 ​ 文件上传后先是发送到tomcat应用目录下,通过shell脚本(定时执行命令)将某个目录下的文件复制到一个不会被清理的固定目录中 FastDFS 是用 c 语言编写的一款开源的分布式文件系统。FastDFS 为互联网量身定制&#xff0c;充分考虑了冗余备份、负载均衡、线性…

DNS内外网解析

AppSrv 为 chinaskills.cn 域提供域名解析&#xff1b; ~ 为 www.chinaskills.cn、download.chinaskills.cn 和 mail.chinaskills.cn 提供解析&#xff1b; ~ 启用内外网解析功能&#xff0c;当内网客户端请求解析的时候&#xff0c;解析到对应的 内部服务器地址&#x…

Windows 服务器怎么修改密码和用户名?服务器修改密码需要重启吗?

Windows 服务器怎么修改密码和用户名&#xff1f;服务器修改密码需要重启吗&#xff1f; 方法一&#xff1a;服务器管理器Windows Server 2003、2008Windows server 2012 方法二&#xff1a;命令提示符&#xff08;Windows系统通用&#xff09; 在服务器使用期间&#xff0c;为…

【14】SCI易中期刊推荐——计算机 | 人工智能(中科院2区)

💖💖>>>加勒比海带,QQ2479200884<<<💖💖 🍀🍀>>>【YOLO魔法搭配&论文投稿咨询】<<<🍀🍀 ✨✨>>>学习交流 | 温澜潮生 | 合作共赢 | 共同进步<<<✨✨ 📚📚>>>人工智能 | 计算机视觉…

rust教程 第二章 —— rust基础语法详解

文章目录 前言一、变量二、数据类型1.标量2.复合类型 三、函数四、注释五、控制流总结 前言 本系列教程目录可查看这篇文章&#xff1a;Rust教程目录 一、变量 首先要讲解的便是变量&#xff0c;如果你有其它语言基础&#xff0c;相信还是比较好理解的 我们的电脑中&#x…

PHP的性能优化方法总结

一.什么情况之下&#xff0c;会遇到PHP性能问题&#xff1f; PHP语法使用不恰当使用PHP语言做了它不擅长的事情使用PHP语言连接的服务不给力PHP自身的短板&#xff08;PHP自身做不了的事情&#xff09;我们也不知道的问题&#xff1f;&#xff08;去探索、分析找到解决办法&am…

用友BIP全球司库与交易银行大会圆满落幕

4月20日&#xff0c;用友全球司库与交易银行大会顺利召开。此次大会&#xff0c;用友以700万客户为依托&#xff0c;以最新BIP技术平台为纽带&#xff0c;面向银行生态&#xff0c;对市场、业务、产品领域进行全面开放合作。来自中国建设银行、中国交通银行、工商银行、中信银行…

C++重载,缺省参数,引用

目录 重载 参数的缺省 引用 引用总结&#xff1a; 重载 什么是函数的重载呢,在以前学C语言的时候都写过一个Max1的函数,目的就是求出两个数或者多个数的较大值,但它的参数很单一,只能接受一种参数,如果在已有int类型下还需要写一个double类型的Max函数就需要重新命令成Max2,…