小白python爬虫基础教程(看这一篇就完了)

news2024/10/11 6:32:35

爬虫的五个步骤:

1)需求分析,找到需求相关的网址

2)获取网址的返回信息(urllib,requests)

3)定位需要的信息所在位置(re正则表达式,XPATH, CSS selector)

4)内容的存储 (open,pymysql,pymongo)

第一步,观察http的包,使用requests的包,get,post

包头中重要的信息描述:

1)cookie:能够存储一些服务器端的信息,与session共同完成身份标志的工作。

2)user-agent:标签

3)referer:从那个页面跳转过来的。

开始第一个爬虫案例吧,

import requests
url='http://www.baidu.com'
response=requests.get(url)
print(response.text)
#返回内容遇到乱码,是encoding的问题
response.encoding='utf-8'
print(response.text)

 运行结果如下图所示,第一个print显示乱码,加入encoding之后再print正常显示

#返回html信息的二进制(bytes)类型,response.content

print(response.content)

输出如下内容:最后一步保存到文件系统

得到所想要的网站html文件。

完整代码如下:

import requests
url='http://www.baidu.com'
response=requests.get(url)
print(response.text)
#返回内容遇到乱码,是encoding的问题
response.encoding='utf-8'
print(response.text)
#返回html信息的二进制(bytes)类型,response.content
print(response.content)
#最后一步保存到文件系统
with open('baidu.html','wb') as f:
    f.write(response.content)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1554008.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

开通幻兽帕鲁游戏多人联机服务器多少钱?价格意想不到

2024年全网最全的幻兽帕鲁服务器租用价格表,阿里云幻兽帕鲁游戏服务器26元1个月、腾讯云32元一个月、京东云26元一个月、华为云24元1个月,阿腾云atengyun.com整理最新幻兽帕鲁专用4核16G、8核16G、8核32G游戏服务器租用价格表大全: 阿里云幻…

在微信上处理小程序用户反馈具体的方法

想必大家在开发小程序的时候,一定遇到这种情况: 为了用户有更好的体验,我们会定期登陆微信小程序来查看用户反馈并对用户的问题进行回复和处理,但是这种方法的缺点就是最多间隔48小时要进行登陆一次以及回复用户不及时。 这样的话…

codesys通过moudbus TCP连接西门子1214c,西门子做客户端

思路在codesys中发送数据到西门子,西门子原封不动的将数据传回。 1.首先配置codesys; 我设置了500个,但是好像发不这么多,只能120多个。因为什么来我忘了。但是这里不影响。 2.配置映射: 3.写代码 PROGRAM PLC_PRG VARarySendDa…

大模型助力学术图谱挖掘!OAG-Challenge @ KDD Cup 2024正式开始

如何用大模型推动学术知识图谱挖掘任务?OAG-Challenge KDD Cup 2024 邀你来赛! 竞赛网址:https://www.biendata.xyz/kdd2024/ 竞赛背景 自 1997 年创办以来,知识发现和数据挖掘会议 ACM SIGKDD 上举办的 KDD Cup 被誉为全球最…

【微服务】Sentinel(流量控制)

文章目录 1.基本介绍1.Sentinel是什么2.Sentinel主要特性3.Sentinel核心功能1.流量控制2.熔断降级3.消息削峰填谷 4.Sentinel两个组成部分 2.Sentinel控制台显示1.需求分析2.下载3.运行1.进入cmd2.输入java -jar sentinel-dashboard-1.8.0.jar3.查看默认端口8080 4.访问1.账号和…

考研数学|《660》完全不会做怎么办?【注意】

很多人有一个误区: 不仅仅是做660题的误区,很多人做其他的习题册都有这个误区,就是以为太依靠答案,如果一道题目做不出来,也不去思考,就直接去看答案怎么做,然后把答案看会了,就认为…

如何利用OpenCV4.9 更改图像的对比度和亮度

返回:OpenCV系列文章目录(持续更新中......) 上一篇:使用 OpenCV 添加(混合)两个图像 下一篇:如何利用OpenCV4.9离散傅里叶变换 ​目标 在本教程中,您将学习如何: 访问像素值用零…

路由的完整使用

多页面和单页面 多页面是指超链接等跳转到另一个HTML文件,单页面是仍是这个文件只是路由改变了页面的一部分结构. 路由的基本使用 使用vue2,则配套的路由需要是第3版. 1)下载vue-router插件 2)引入导出函数 3)new 创建路由对象 4)当写到vue的router后只能写路由对象,因此只…

Git版本管理使用手册 - 8 - 合并分支、解决冲突

合并整个开发分支 切换到本地test分支,选择右下角远程开发分支,选择Merge into Current。然后提交到远程test仓库。 合并某次提交的代码 当前工作区切换成test分支,选择远程仓库中的dev开发分支,选择需要合并的提交版本右击&a…

cmd小黑框——命令行基础语句与实操效果演示

cmd小黑框——命令行学习 初识cmd小黑框cmd命令缩写含义介绍cmd基础操作cmd实操效果演示cmd命令行快捷键 初识cmd小黑框 CMD,全称Command,是Windows系统中自带的一个命令行解释器,它允许用户通过输入命令来对系统进行各种操作。CMD命令在Win…

从运营层面看财务管理:如何做好项目的财务预算

有效的项目运营是企业发展进步的主要活动,企业管理者的项目财务管理主要针对项目财务预算。项目财务预算管理是企业财务管理的一个分支,也是项目财务管理的核心部分,其表现形式为一个综合性的财务计划,主要包括预算编制、报告、执…

SQL Server 实验二:数据库视图的创建和使用

目录 第一关 相关知识 什么是表 操作数据表 创建数据表 插入数据 修改表结构 删除数据表 编程要求 第一关实验代码: 第二关 相关知识 视图是什么 视图的优缺点 视图的优点 视图的缺点 操作视图 创建视图 通过视图向基本表中插入数据 通过视图修改基本表的…

武汉星起航引领跨境电商新潮流,一站式方案助力创业者快速崛起

在跨境电商领域,武汉星起航电子商务有限公司以其独特的一站式解决方案,为众多创业者提供了通往成功的捷径。该公司凭借专业的团队和丰富的经验,为创业者提供全方位的支持,助力他们在跨境电商领域实现快速发展。 随着全球经济的不…

线性规划-非线性规划-非线性规划遗传算法

遗传算法当前获得的最优值作为非线性寻优的初始解,随后进行求解。

从创意立项到产品赚钱的全调优过程复盘,如何提高产品存活率 | TopOn变现干货

10月28日,由TopOn、罗斯基联合主办的“游戏赛道新机会”主题沙龙在成都举办。活动邀请了国内外多位知名公司及游戏爆款产品的负责人分享,分别从各自的方向及经验出发,以数据、案例、产品分析、行业趋势等多个维度,为行业从业者带来…

C++初阶篇----string类

目录 引言标准库中的string类string类的常用接口string类对象的常见构造string类对象的string类对象的访问及遍历string类对象的修改string类非成员函数 引言 什么是string类? string 类是 C 标准库中的一个类,用于处理字符串。它提供了一系列方法来创建…

北斗激光平地机提高农机耕种效率

北斗激光平地机提高农机耕种效率 湖北省浠水县地处大别山南麓,六成左右的田块都分布在丘陵地带,田块小、高低落差大,给机械化作业带来诸多不便。在今年的春耕中,配备北斗智能检测终端的激光平地机很受当地种粮大户追捧。 稻田平整…

超声波清洗机选购指南:眼镜清洗器哪个好?4款眼镜清洗利器推荐

随着科技的发展,现在就是连洗眼镜都有专门的辅助工具了,没错,就是超声波眼镜清洗机!这种超声波清洗机之所以能够做到清洁眼镜,是因为它利用了超声波振动原理,通过水分子爆破瞬间的冲击力对眼镜上面的污垢进…

2024 年广西职业院校技能大赛高职组《云计算应用》赛项样卷

#需要资源(软件包及镜像)或有问题的,可私博主!!! #需要资源(软件包及镜像)或有问题的,可私博主!!! #需要资源(软件包及镜…

Java八股文(设计模式)

Java八股文の设计模式 设计模式 设计模式 什么是设计模式?请列举一些常见的设计模式。 设计模式是软件设计中常用的一种思维模式,它描述了一类具有相似特征和解决思路的问题。 常见的设计模式包括单例模式、工厂模式、观察者模式、装饰器模式等。 请解释…