爬虫（bilibili热门课程记录）

news2026/2/12 4:13:39

什么是爬虫？程序蜘蛛，沿着互联网获取相关信息，收集目标信息。

一、python环境安装

1、先从Download Python | Python.org中下载最新版本的python解释器

2、再从Download PyCharm: Python IDE for Professional Developers by JetBrains中下载community版本的pycharm（免费且够用）

pycharm安装中文插件（安装后重启pycharm即可）

3、如果向博主一样需要直接打开文件运行，可能需要添加一下解释器

二爬虫的流程

1、获取网页内容（浏览器会将内容渲染成更直观的页面，而程序获得的网页是一串代码）

http请求（python request实现）

2、解析网页内容（在全面的内容中把想要的数据提取出来）

html格式（python Beautiful Soup库）

3、储存或分析数据

注意事项

1、请求数量和频率不要太高（无异于DDoS攻击）

2、有反爬限制（例如验证码）就不要强行突破

三、什么事HTTP请求和响应

HTTP（Hypertext Transfer Protocol超文本传输协议）

HTTP请求

GET方法：获得数据

POST方法：创建数据

七、什么是HTML网页结构

网页三大要素：

（1）HTML定义网页的结构和信息（爬虫最需要关心的）

（2）CSS 定义网页的样式 //网站背景样式

（3）JavaScript 定义用户和网页的交互逻辑

<!DOCTYPE HTML>
<html>
    <body>
        <h1>这是一个标题</h1>
        <p>这是一段文字这是一段文字这是一段文字<p>
    </body>
<!html>

显示网页源代码

mac用户先在safari高级选项中设置，然后在开发中打开

七、HTML常见标签

7.1 标题数字越小，字号越大

<h1> 这是一个一级标题 </h1>
<h2> 这是一个二级标题 </h2>
<h3> 这是一个三级标题 </h3>
<h4> 这是一个四级标题 </h4>
<h5> 这是一个五级标题 </h5>
<h6> 这是一个六级标题 </h6>

7.2 文本段落

<p>给岁月<br>以文明</p>
<p>而不是给文明以岁月</p>
<br>   //是强制换行
<b> </b> //加粗
<i> </i> //斜体
<u> </u> //下划线
<img src="链接" width=“500px”> //图片
<a href="https://...">我的主页</a> //超链接

7.3 容器

7.4 有序列表ordered list/无序列表unordered list

<ol> //有序列表
    <li>语文</li>
    <li>数学</li>
    <li>英语</li>
</ol>

<ul> //无序列表
    <li>语文</li>
    <li>数学</li>
    <li>英语</li>
</ul>

7.5 表格行

7.6 class属性

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/936407.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

爬虫（bilibili热门课程记录）

相关文章

关于msvcp140.dll丢失的解决方法，分享最简单详细的解决方法

JavaScript中的事件循环（Event Loop）

设计模式之命令模式（Command）的C++实现

Git企业开发控制理论和实操-从入门到深入（六）｜多人协作开发

c语言实现堆

基于VHDL语言的汽车测速系统设计_kaic

2005-2022年全国各地级市经济增长目标约束

C语言_通过函数调用改变指针参数的指向

深度学习在自然语言处理中的十大应用领域

CausalEGM：通过编码生成建模的通用因果推理框架

聚类分析 | MATLAB实现基于AHC聚类算法可视化

Git企业开发控制理论和实操-从入门到深入（七）｜企业级开发模型

数据结构】二叉树篇|超清晰图解和详解：后序篇

UML四大关系

飞桨中的李宏毅课程中的第一个项目——PM2.5的预测

观察级水下机器人使用系列之六超短基线（下）

数据结构--树4.2（二叉树）

2. 使用IDEA创建Spring Boot Hello项目并管理依赖——Maven入门指南

LeetCode-738-单调递增的数字

86. 分隔链表（中等系列）