Python爬虫入门案例6:scrapy的基本语法+使用scrapy进行网站数据爬取

news2024/11/18 9:23:37

几天前在本地终端使用pip下载scrapy遇到了很多麻烦,总是报错,花了很长时间都没有解决,最后发现pycharm里面自带终端!(狂喜),于是直接在pycharm终端里面写scrapy了

这样的好处就是每次不用切换路径了,pycharm会直接把路径定位到项目包的路径下,非常方便。

而且下载scrapy可以直接在一个文件里面写import scrapy,然后install scrapy包就可以了,很快就下完了。

这时候我们就可以直接进行scrapy程序的创建了。

基本语法:

(1)创建scrapy爬虫项目

        scrapy startproject 项目名

(2)创建爬虫文件

        scrapy genspider 爬虫文件名 爬取的网页

(3)运行爬虫代码

        scrapy crawl 爬虫的名字

这里的爬虫主代码,需要在spiders文件中写

下面举个例子,使用scrapy来爬取汽车之家的汽车型号,与其对应的价格

import scrapy


class CarsSpider(scrapy.Spider):
    name = "cars"
    allowed_domains = ["https://car.autohome.com.cn/price/brand-15.html"]
    start_urls = ["https://car.autohome.com.cn/price/brand-15.html"]

    def parse(self, response):
        print("-------------")
        name_list=response.xpath("//div[@class='main-title']/a/text()")
        price_list=response.xpath("//div[@class='main-lever']//span/span/text()")
        for i in range(len(name_list)):
            name=name_list[i].extract()
            price=price_list[i].extract()
            print("-------------")
            print(name,price)

爬取结果:

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/563318.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

项目风险应对策略:项目经理应对不确定性的指南

风险应对是项目经理管理项目未来的工具箱。它可以帮助管理人员弄清楚可能会出现什么问题,并让他们有机会为这些问题做好准备。 对抗负面风险的5种策略 如果没有风险管理计划,项目可能会因意外问题或不良风险而迅速脱轨。什么策略可以用来对抗负面风险&…

Salesforce认证|新鲜出炉销售代表认证!

Salesforce一直致力于为专业人士提供测试知识与技能的方法,现在终于轮到销售人员了! 前不久,Salesforce宣布推出销售代表认证,这不仅是首个面向销售人员的认证,也是为数不多的非技术类、非顾问类认证,这为…

记录 aaPanel 安装环境失败的经历及解决方案

最近我在一台Debian 11的国外服务器上安装aaPanel(即宝塔面板的国际版)。在安装完面板后,我继续安装LNMP环境。几分钟后,aaPanel提示LNMP环境已经安装成功。然而,在创建站点时,却提示环境没有安装。 问题排…

财务共享中心成功建立!用友帮助河南水投集团打造财务效率新高地

河南水投集团作为省级水务集团,自成立以来一直坚持以资产筹集资金,以资金建设项目,以运营扩张资本。即使在面对经济下行压力及疫情影响双重挑战下,仍坚持结果导向,通过项目建设推动发展,保持了较好的发展态…

MyBatisPlus更新字段为null的正确姿势以及lambda方式的条件字段解析之源码解析

文章目录 [toc] 1.问题2.原因3.解决方法3.1错误方法方式一:配置全局字段策略方式二:在实体上添加字段策略注解 3.2正确姿势方式一:使用LambdaUpdateWrapper (推荐)方式二:使用UpdateWrapper方式三 总结 1.问…

沉降仪工作原理

输电线路杆塔倾斜北斗在线监测装置 一、产品概述 杆塔、铁塔在时间、自然因素的影响下,发生的倾斜、偏离等现象,而在人工巡检电力设施时是不容易通过人眼判别的,在日积月累的变化中,铁塔、杆塔会因倾斜幅度过大进一步引发严重的坍…

基于 Bert 论文构建 Question-Answering 模型

访问【WRITE-BUG数字空间】_[内附完整源码和文档] 摘要 本文拜读了提出 Bert 模型的论文,考虑了在 Bert 中算法模型的实现.比较了 Bert 与其他如 Transformer、GPT 等热门 NLP 模型.BERT 在概念上很简单,在经验上也很强大。它推动了 11 项自然语言处理任…

“她经济”崛起,茉莉智慧如何以科技赋能月子中心迭代升级?

近年来,利好生育政策频出,女性消费能力不断提升,以月子中心为核心的产后护理赛道发展势头良好。据iiMedia Research数据,2022年中国月子中心市场规模突破223.0亿元。iiMedia Research市场调查显示,93.5%的受访者认为产…

ubuntu命令记录

centos 下载地址: 网易镜像:http://mirrors.163.com/centos/6/isos/ 搜狐镜像:http://mirrors.sohu.com/centos/6/isos/ VM与LINUX的安装(虚拟机的安装) 注意:a.必须开启虚拟化(一般电脑都默认…

BFT 最前线 | 王小川:2033机器智慧将超人类;扎克伯格财富暴涨;哈工大:能跳跃的昆虫机器人;北京支持“1+4”机器人领域

原创 | 文 BFT机器人 名人动态 CELEBRITY NEWS 01 王小川:10年后机器智慧将超过人类 年底将推出对标GPT-3.5的模型 科技预言大师雷库兹韦尔说人工智能的奇点,机器智慧超过人类会发生在2045年,王小川的判断比这更激进,他认为这一…

复杂的C++继承

文章目录 什么是继承继承方式赋值规则继承中的作用域(隐藏)子类中的默认成员函数需要自己写默认成员函数的情况 继承与友元及静态成员多继承菱形继承菱形继承的问题菱形虚拟继承 继承和组合 面向对象三大特性:封装继承和多态。封装在类和对象…

2172. 最大公约数

Powered by:NEFU AB-IN Link 文章目录 2172. 最大公约数题意思路代码 2022年第十三届决赛真题 2172. 最大公约数 题意 给定一个数组, 每次操作可以选择数组中任意两个相邻的元素 x , y x, yx,y 并将其 中的一个元素替换为 gcd ⁡ ( x , y ) \operatorname{gcd}(x, y)gcd(x,y),…

从月薪5000到月薪20000,自动化测试应该这样学...

绝大多数测试工程师都是从功能测试做起的,工作忙忙碌碌,每天在各种业务需求学习和点点中度过,过了好多年发现自己还只是一个功能测试工程师。 随着移动互联网的发展,从业人员能力的整体进步,软件测试需要具备的能力要…

征稿丨IJCAI‘23大模型论坛,优秀投稿推荐AI Open和JCST发表

第一届LLMIJCAI’23 Symposium征稿中,优秀投稿论文推荐《AI Open》和 《JCST》发表。 大规模语言模型(LLMs),如ChatGPT和GPT-4,以其在自然语言理解和生成方面的卓越能力,彻底改变了人工智能领域。 LLMs广泛…

Go语言文件I/O操作

go语言中的io操作主要学习目标 掌握文件的常规操作掌握ioutil包的使用掌握bufio包的使用 在go中使用 FileInfo接口 定义了IO的一些函数 FileInfo接口 源码追溯 //type.go // A FileInfo describes a file and is returned by Stat and Lstat. type FileInfo fs.FileInfo/…

ChatGPT:你真的了解网络安全吗?浅谈攻击防御进行时之传统的网络安全

ChatGPT:你真的了解网络安全吗?浅谈网络安全攻击防御进行时 传统的网络安全总结 ChatGPT(全名:Chat Generative Pre-trained Transformer),美国OpenAI 研发的聊天机器人程序,是人工智能技术驱动…

什么是网络安全?如何让小白简单的学习网络安全

一、什么是网络安全 网络安全是一个庞大的学科,如果只是普及网络安全技能是非常枯燥的,所以建议从大众容易接受的网络安全诈骗入手,可以先介绍一下近年来频发的网络安全诈骗案例,钓鱼邮件、中奖短信、冒充公检法等多种诈骗手段&am…

Koala:加州大学BAIR团队使用ChatGPT蒸馏数据和公开数据集微调LLaMA模型得到

自从Meta发布LLaMA以来,围绕它开发的模型与日俱增,比如Alpaca、llama.cpp、ChatLLaMA以及Vicuna等等,相关的博客可以参考如下: 【Alpaca】斯坦福发布了一个由LLaMA 7B微调的模型Alpaca(羊驼),训…

SpringBoot+Vue前后端分离项目——订单模块——订单管理页面设计

接口返回数据格式: {"msg": "查询成功","total": 1,"code": 200,"data": [{"orderId": "qwer1234","userId": "1","userName": "admin","ad…

全网最全JAVA面试八股文,终于整理完了,堪称2023最强

当今互联网行业中,Java作为一种广泛应用的编程语言,对于求职者来说仍是一项受欢迎的技能。然而,随着市场上的开发人员数量越来越多,Java面试的竞争也愈加激烈。 目前Java面试有着以下现状: 面试难度加大 与过去相比…