目录
- 1. 合法性
- 2. 爬虫原理
- 3. 网站源代码查看
- 4. 查看网络请求
- 总结
欢迎关注 『python爬虫』 专栏,持续更新中
欢迎关注 『python爬虫』 专栏,持续更新中
1. 合法性
查看网站的爬虫协议,简单介绍爬虫协议robots.txt,避免爬虫爬的好,牢饭吃得早(保姆级图文)
- robots.txt协议: 君⼦协议。规定了⽹站中哪些数据可以被爬⾍爬取,哪些数据不可以被爬取
- 只要在网站要求的君子协议下爬虫,不出现因为短时间爬虫过多导致网站崩溃,都是合法的爬虫
2. 爬虫原理
我们看到的网页是由浏览器把html文件渲染产生的,我们要从网页中获取我们需要的信息并进行保存。
我们后期还会接触到一些反爬虫的措施,比如防盗链。
爬虫也涉及了cookie,代理,多线程等内容。
爬虫后通常还需要对数据进行持久化保存。
3. 网站源代码查看
后面我们会经常性用f12
或者右键查看源码
4. 查看网络请求
抓包时可以先clear 清除掉原来的数据,避免干扰。一般请求服务器的资源在XHR类别中
总结
大家喜欢的话,给个👍,点个关注!给大家分享更多计算机专业学生的求学之路!
版权声明:
发现你走远了@mzh原创作品,转载必须标注原文链接
Copyright 2023 mzh
Crated:2023-3-1
欢迎关注 『python爬虫』 专栏,持续更新中
欢迎关注 『python爬虫』 专栏,持续更新中
『01. 爬虫入门的基础知识』
『02. 简单爬取百度并保存为html网页』
『03. web请求过程剖析』
『04. 爬虫需要知道的HTTP协议知识』
『05. requests模块入门』
『06. 数据解析之re正则解析』
『07. 正则实战之豆瓣电影信息爬取』
『08. 数据解析之bs4解析』
『09. bs4实战之爬取精美壁纸』
『10. 数据解析之xpath解析』
『11. xpath解析实战之爬取csdn文章信息』
『12. 模拟登陆之cookie的使用』
『13. 防盗链实战之梨视频下载』
『14. ip代理语法』
『15. 综合实战爬取网易云音乐评论』
『16. 多线程与多进程』
『17. 线程池和进程池以及线程池实战』
『18. 协程』
『19. aiohttp模块应用之爬取图片』
『20. 用协程爬取一本小说』
『21. 协程爬取一个视频需要的知识』
『22. 初识自动化测试工具selenium』
『23. selenium之窗口切换与iframe』
『24. selenium之无头浏览器-后台静默运行』
『25. 接入超级鹰处理验证码』
『26. selenium与超级鹰处理复杂验证码的处理』
『未完待续』