爬虫(一)urllib模块的使用与介绍

news2024/12/26 11:07:37

urllib是Python自带的一个用于爬虫的库,其主要作用就是可以通过代码模拟浏览器发送请求。其常被用到的子模块在Python3中的为urllib.request和urllib.parse

接下来我们来具体了解一下urllib的使用方法

from urllib.request import urlopen,Request
from urllib.parse import quote,urlencode
    #指定爬取的网页url
url = 'http://www.baidu.com/'
    #通过urlopen函数向指定的url发起请求,返回响应对象
reponse =urlopen(url=url)
    #通过调用响应对象中的read函数,返回响应回客户端的数据值(爬取到的数据)
info = reponse.read().decode()   #返回的数据为byte类型,并非字符串
    print(info)#打印显示爬取到的数据值

在上述案例中我们只使用了该函数中的第一个参数url。在日常开发中,我们能用的只有url和info这两个参数

url参数:指定向哪个url发起请求
info参数:可以将post请求中携带的参数封装成字典的形式传递给该参数

urlopen函数返回的响应对象,相关函数调用介绍:

response.headers():获取响应头信息
response.getcode():获取响应状态码
response.geturl():获取请求的url
response.read():获取响应中的数据值(字节类型)

下面我们来讲解一下如何将爬取到的信息保存,爬取到百度新闻首页的数据值写入文件进行存储

from urllib.request import urlopen,Request
from urllib.parse import quote,urlencode
    url = 'http://news.baidu.com/'
    reponse = urlopen(url=url)
    #decode()作用是将响应中字节(byte)类型的数据值转成字符串类型
    info = reponse.read().decode()
    #使用IO操作将info表示的数据值以'w'权限的方式写入到news.txt文件中
    with open('./news.txt','w') as rfile:
        rfile.write(info)
    print('写入文件完毕')

这里我们使用了with open的指令,我来介绍一下这个指令具体有哪些。
文件对象的常用方法:

方法名 说明
read([size]) 从文件中读取size个字节或字符的内容返回。若省略[size],则 读取到文件末尾,即一次读取文件所有内容
readline() 从文本文件中读取-行内容
readlines () 把文本文件中每一-行都作为独立的字符串对象,并将这些对象 放入列表返回.
write(str) 将字符串str内容写入文件
writelines(s_ list) 将字符串列表s list写入文本文件,不添加换行符
seek(offset [, whence])
把文件指针移动到新的位置,offset 表小相对于whence的位置:
offset:为正往结束方向移动,为负往开始方向移动
whence不同的值代表不同含义:
0:从文件头开始计算(默认值)
1:从当前位置开始计算
2:从文件尾开始计算
tell() 返回文件指针的当前位置
flush() 把缓冲区的内容写入文件,但不关闭文件
close() 把缓冲区的内容写入文件,同时关闭文件,释放文件对象相关资源

在这里中我们最常用到的是write、close、read。分别是写入数据、关闭文件、读取数据。
下面再讲一下文件打开的模式:

‘r’ 以只读模式打开文件。
‘w’ 以只写方式打开文件,文件不存在则创建,文件存在则覆盖。 ‘a’以追加模式打开文件,文件不存在则创建,文件存在则尾部追加内容。
‘b’ 以二进制方式打开文件,不能单独使用应与,rb,或者wb一起使用。
‘+’ 以读写方式打开文件,不能单独使用,应与a+一起使用。
二进制文件:数据内容用‘字节’储存,无法用记事本打开,只能用专门的软件打开。如MP3音频文件、jpg图片、doc文档等。

看到这里我相信你对爬虫的使用应该是有一定的了解了吧,下一章我将一下如何使用动态UA。

喜欢的可以点赞加关注哦!
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1500227.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Java中SpringBoot四大核心组件是什么

一、Spring Boot Starter 1.1 Starter的应用示例 <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-thymeleaf</artifactId> </dependency> <dependency><groupId>org.mybatis.sprin…

九州金榜|家庭教育如何培养孩子独立能力?

在家庭教育中&#xff0c;要怎么样培养孩子的独立能力&#xff1f;很多家长可能会对此比较疑惑。因为现在的孩子从出生家长就会为孩子规划好了一切&#xff0c;孩子只要按部就班的做就好了&#xff0c;所以导致很多孩子没有独立能力&#xff0c;那家长如何培养孩子独立能力呢&a…

StableDrag:一种基于Diffusion模型的图像编辑,可一键拖拽生成,DragGAN被革新了!

还记得DragGAN吗&#xff1f;可以拖动锚点进行图像编辑&#xff0c;当时代码发布以后大家发现生成速度慢&#xff0c;而且不能自己自定义外部图片就没人理了。 现在又有一个StableDrag&#xff0c;是基于Diffusion 模型的&#xff0c;也可以完成类似的拖动锚点编辑图片的能力。…

二维码门楼牌管理系统应用场景:促进环境保护与资源管理的创新应用

文章目录 前言一、二维码门楼牌管理系统的概念与特点二、在环境保护领域的应用三、在资源管理领域的应用四、促进可持续发展的作用 前言 在数字化时代的浪潮下&#xff0c;二维码技术凭借其高效、便捷的特点&#xff0c;已经渗透到了我们生活的方方面面。二维码门楼牌管理系统…

moi3D安装

下载文件双击文件 下一步 同意下一步 下一步 下一步 下一步 安装下一步 完成 破解 将如图中的文件复制到文件目录下 汉化 在目录中进入ui文件夹下 在安装包中找到如下的文件复制到ui目录下 在打开 另存为 另存为时改一下编码格式如图 打开软件 找到如图options进入…

南卡、漫步者、Oladance开放式耳机值得买吗?多维度测评强势PK!

​在开放式耳机这个细分市场中&#xff0c;竞争同样激烈&#xff0c;品牌们不仅在配置和性能上竞争&#xff0c;也在性价比上不断优化。无论是知名品牌还是新兴品牌&#xff0c;都在这个领域内努力提供更好的产品。对于热爱运动和健身的朋友们来说&#xff0c;现在正是挑选耳机…

【Unity】分拣机的数字双胞胎集成到Unity3D开发平台中

Unity HMI 一、前言 该项目的重点是通过OPC UA进行客户端-服务器通信的简单演示&#xff0c;该演示在Unity3D中实现&#xff08;服务器- B&R Automation PLC&#xff0c;客户端- Unity3D&#xff09;。该项目展示了数字孪生的分拣机与一些额外的功能。该应用程序使用多线程…

测评(补单)对亚马逊、速卖通、lazada有哪些好处和硬件要求?

跨境电商发展了这么多年&#xff0c;从最开始的亚马逊&#xff0c;eBay到速卖通&#xff0c;Lazada再到现在很多新出平台&#xff0c;可谓五花八门。 很多主流平台卖家都有使用测评补单来增加产品权重、提高销量。经常有小众平台的卖家咨询我他做的平台能否像亚马逊那样通过测…

面向对象中不可变性

软件设计中的不可变性是一个非常重要的概念&#xff0c;它可以在多个方面提高代码的可靠性、可维护性和安全性。 从开发者角度&#xff08;代码提供者&#xff09;&#xff1a; 在软件开发过程中&#xff0c;当某个对象的属性是不可变的时候&#xff0c;这意味着这些属性的值…

ASP站点故障页面报503错误

本周有一个Hostease客户&#xff0c;购买Windows主机创建ASP站点&#xff0c;反馈站点遇到故障&#xff0c;页面报503错误。我们测试&#xff0c;复现了这个问题&#xff0c;随即检查独立应用池状态&#xff0c;发现它离线&#xff0c;通过重启操作站点恢复访问。我们分享这个教…

Redis与 Memcache区别

Redis与 Memcache区别 1 , Redis 和 Memcache 都是将数据存放在内存中&#xff0c;都是内存数据库。不过 Memcache 还可用于缓存 其他东西&#xff0c;例如图片、视频等等。 2 , Memcache 仅支持key-value结构的数据类型&#xff0c;Redis不仅仅支持简单的key-value类型的数据&…

ThreeJs限制模型拖动的范围

之前有讲过ThreeJs中对模型的拖动功能&#xff0c;使用DragControl组件&#xff0c;将模型放到组件的集合中&#xff0c;就可以拖动点击的模型了&#xff0c;这节细化下怎么控制拖动&#xff0c;比如之拖动z轴&#xff0c;或者限制拖动x轴的范围在某个区间&#xff1a; 首先还是…

【PLC】施耐德PLC数据采集经验总结-TSX系列

目录 1、介绍 2、 施耐德TSX系列 3、TSX通讯口引脚定义参考 1、介绍 施耐德&#xff0c;品牌就不介绍了&#xff0c;今天主要了解其PLC系列产品&#xff0c; 耐德PLC系列比较多&#xff0c;大公司&#xff0c;比较有钱&#xff0c;收购较多PLC厂家&#xff0c;导致PLC型号、编…

Vessel - Linux hackthebox

#hard #runc #RE #Nodejs-SQLI Enumeration .git leak 使用 dumpall 下载 .git 打开 routes/index.js 可以看到网站使用 nodejs mysql 编写&#xff0c;且只有登录功能 router.post(/api/login, function(req, res) {let username req.body.username;let password req…

代码随想录算法训练营第day7|454.四数相加II 、383. 赎金信 、 15. 三数之和 、18. 四数之和

目录 a.454.四数相加II b. 383. 赎金信 c. 15. 三数之和 d.18. 四数之和 a.454.四数相加II 题目链接 给你四个整数数组 nums1、nums2、nums3 和 nums4 &#xff0c;数组长度都是 n &#xff0c;请你计算有多少个元组 (i, j, k, l) 能满足&#xff1a; 0 < i, j, k, l…

微信小程序开发系列(二十四)·wxml语法·列表渲染·wx:for-item 和 wx:for-index

目录 1. 如果需要对默认的变量名和下标进行修改&#xff0c;可以使用wx:for-item 和 wx:for-index 2. 将 wx:for 用在 标签上&#xff0c;以渲染一个包含多个节点的结构块 方法一 方法二 3. 总结 3.1 wx:for-item 和 wx:for-index总结 3.2 总结 1. 如果需要对默…

Publii和GitHub:搭建个人网站的完美组合

在数字时代&#xff0c;拥有一个个人网站已经非常普遍了&#xff0c;但是&#xff0c;很多人因为技术难题而望而却步。现在&#xff0c;有了Publii&#xff0c;这一切都将变得简单。Publii是一个静态网站生成器&#xff0c;它允许你在本地计算机上创建和管理内容&#xff0c;然…

​项目文章 | METTL3敲减通过m6A-YTHDC2介导的AMIGO2调控抑制RA-FLS活化

类风湿性关节炎&#xff08;RA&#xff09;是一种自身免疫性关节疾病&#xff0c;其特征是慢性关节滑膜炎、滑膜增生过度和关节损伤。近年来&#xff0c;N6-甲基腺苷&#xff08;m6A&#xff09;修饰的RNA在癌症和自身免疫疾病&#xff08;包括RA&#xff09;中的调控作用受到广…

全球科技创新领域大检阅“2024上海国际智能科技及创新展览会”

随着科技的飞速发展&#xff0c;创新成为了推动社会进步的核心动力。在这样的背景下&#xff0c;“2024上海国际科技及创新展览会”应运而生&#xff0c;旨在汇聚全球智能科技领域的精英&#xff0c;共同展示最新的科技成果&#xff0c;探讨未来的发展方向。 本次展会将于2024年…

在人工智能领域,如何平衡技术进步和人类安全?

人工智能&#xff08;AI&#xff09;技术的迅速发展为人类社会带来了许多潜在益处&#xff0c;但同时也引发了一系列安全和伦理挑战。在这个领域&#xff0c;如何平衡技术进步与人类安全成为了至关重要的议题。本文将探讨在人工智能领域中平衡技术进步与人类安全的方法&#xf…