使用python爬取豆瓣网站？如何简单的爬取豆瓣网站？

使用python爬取豆瓣网站？如何简单的爬取豆瓣网站？

news2026/4/8 20:32:12

1.对python爬虫的看法

首先说说我对python的看法，我的专业是大数据，我从事的工作是java开发，但是在工作之余，我对python又很感兴趣，因为我觉得python是一门很好的语言，第一：它可以用来爬取数据，也就是我今天要介绍的；第二：它可以用来做项目的后端搭建；第三：可以用来做数据分析，第四：它的语法比较简单，代码写起来也没有java语法那么严格。我觉得python做第二门兼职语言再好不过了。

2.爬取数据过程中的感想

有时候，我们爬取的数据是比较杂乱的，需要我们对数据进行清洗处理，去掉错误或者空值，如果我们用数据来进行研究，这是必经的过程。所以我们不仅要学会爬取数据，还要学会对爬取的数据进行处理，所以我觉得想要学习python这门语言，先学爬虫，在爬虫的基础上一边学数据处理。

3.本次爬取数据的所得

3.1第一次数据爬取

爬取数据三要素：获取网站信息，获取需要爬取数据的节点，将数据进行保存

3.2爬取数据的处理

由于第一次的数据爬取出来，格式上比较混乱，且如果要使用到数据的话，就得把有用的数据提取出来，因此进行数据处理并且重新进行保存是必要的，这里使用到了正则表达式（正则在数据处理和数据爬取中都是一个重要的存在）

总结
此代码只能用于爬取简单的数据，如果要爬取动态的数据或者是更多数据需要使用到多方面的东西=========================================================================

下面是一个固定的写法：用于确保某段代码只有在脚本作为主程序运行时才会执行，通常用于定义脚本的入口点。也就是说如果这个py文件被其他给引入了，他是不会执行这个里面的内容的

当 my_script.py 被直接运行时，__name__ 变量的值为 '__main__'，因此 main() 函数会被调用。
当 my_script.py 被其他文件导入时，__name__ 变量的值为 'my_script'，因此 main() 函数不会被调用。

if __name__ == '__main__':
    handle()

他提高了代码的复用性和可维护性，如果在该块中编写单元测试代码，这些测试代码只会在直接运行脚本时执行。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2169339.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

fmql之字符驱动设备(2)

fmql之字符驱动设备(2)

例行的点灯来喽。之前是寄存器读写，现在要学习通过设备树点灯。 dtsled.c 寄存器写在reg 把用到的寄存器写在设备树的led节点的reg属性。其实还是对寄存器的读写。 （不推荐） 头文件 #include <linux/kernel.h> #include <li…

阅读更多...

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-26

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-26

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-26 1. LLMs Still Can’t Plan; Can LRMs? A Preliminary Evaluation of OpenAI’s o1 on PlanBench Authors: Karthik Valmeekam, Kaya Stechly, Subbarao Kambhampati LLMs仍然无法规划；LRMs可以…

阅读更多...

【通俗易懂】FFT求解全过程，各参数详细解释

【通俗易懂】FFT求解全过程，各参数详细解释

在进行FFT全过程讲解之前，小编先给大家解释一下，在FFT中出现的一些参数名词解释。 （1）采样频率 Fs Fs 1 / 采样间隔根据奈奎斯特定理：Fs ≥ 最高频率分量的两倍，这样才能避免混叠 （2&…

阅读更多...

解决macOS安装redis以后不支持远程链接的问题

解决macOS安装redis以后不支持远程链接的问题

参考文档:https://blog.csdn.net/qq_37703224/article/details/142542179?spm1001.2014.3001.5501 安装的时候有个提示, 使用指定配置启动: /opt/homebrew/opt/redis/bin/redis-server /opt/homebrew/etc/redis.conf那么我们可以尝试修改这个配置文件: code /opt/homebrew/…

阅读更多...

傅里叶级数在机器人中的应用（动力学参数辨识）

B站首发！草履虫都能看懂的【傅里叶变换】讲解，清华大学李永乐老师教你如何理解傅里叶变换，辨清美颜和变声原理，！！_哔哩哔哩_bilibiliB站首发！草履虫都能看懂的【傅里叶变换】讲解，清…

阅读更多...

AI 智能体 | 手捏素材选题库 Coze Bot，帮你实现无限输出

AI 智能体 | 手捏素材选题库 Coze Bot，帮你实现无限输出

做自媒体的同学经常遇到的一个痛点就是无限输出，那怎么才能有源源不断的选题呢？那就是搭建一个选题素材库。下面就为大家介绍一下基于 Coze Bot 快速搭建素材选题库，希望能让大家才思泉涌。一、流程拆解日常素材库积累的过程可以描述为…

阅读更多...

eslint-plugin-react的使用中，所出现的react版本警告

eslint-plugin-react的使用中，所出现的react版本警告

记一次使用eslint-plugin-react的警告 Warning: React version not specified in eslint-plugin-react settings. See https://github.com/jsx-eslint/eslint-plugin-react#configuration . 背景我们在工程化项目中，常常会通过eslint来约束我们代码的一些统一格…

阅读更多...

汽车总线之----J1939总线

汽车总线之----J1939总线

instruction SAE J1939 是由美国汽车工程协会制定的一种总线通信协议标准，广泛应用于商用车，船舶，农林机械领域中，J1939协议是基于CAN的高层协议，我们来看一下两者之间的关系。在J1939 中，物理层和数据链路…

阅读更多...

第13讲实践：设计SLAM系统

第13讲实践：设计SLAM系统

设计一个视觉里程计，理解SLAM软件框架如何搭建，理解视觉里程计设计容易出现的问题以及解决方法。目录 1、工程目标 2、工程框架 3、实现附录 1、工程目标实现一个精简版的双目视觉里程计。由一个光流追踪的前端和一个局部BA的后端组成。 2、工程…

阅读更多...

asp.net mvc core 路由约束,数据标记DataTokens

asp.net mvc core 路由约束,数据标记DataTokens

》从0自己搭建MVC 》用 asp.net Core web 应用空web 应用程序需要配置 mvc服务、mvc路由新建 Controller 、Models、Views 》》》core 6 之前版本 vs2022 asp.net Core Web 应用（模型-视图-控制器） 不需要配置就是mvc框架 asp.net Core web 应…

阅读更多...

从Elasticsearch到RedisSearch：探索更快的搜索引擎解决方案

从Elasticsearch到RedisSearch：探索更快的搜索引擎解决方案

文章目录 RedisSearch 的关键功能与 ElasticSearch 对比性能对比产品对比如何使用 Docker 安装 RedisSearch1. 获取 RedisSearch Docker 镜像2. 启动 RedisSearch 容器3. 验证安装 RedisSearch 使用示例1. 连接到 RedisSearch2. 创建索引3. 添加文档4. 执行搜索搜索所有包含 &…

阅读更多...

【Geoserver使用】2.26.0版本发布主要内容

【Geoserver使用】2.26.0版本发布主要内容

文章目录前言一、GeoServer 2.26.0 版本二、主要内容1.Java17支持2.Docker更新3.搜索改进4.广泛的 MapML 改进4.重写演示请求页面5.栅格属性表扩展6.GeoCSS 改进7.地球静止卫星 AUTO 代码8.labelPoint 功能改进9.改进的矢量图块生成10.GeoPackage QGIS 兼容性改进11.新的图像马…

阅读更多...

深度学习—神经网络基本概念

深度学习—神经网络基本概念

一，神经元 1.生物神经元与人工神经元 1.1神经元是人脑的基本结构和功能单位之一。人脑中有数1000亿个神经元，其功能是接受（树突），整合（细胞体），传导（轴突）和…

阅读更多...

MySQL --用户管理

MySQL --用户管理

文章目录 1.用户1.1用户信息1.2创建用户1.3删除用户1.4修改用户密码 2.数据库的权限2.1给用户授权2.2回收权限如果我们只能使用root用户，这样存在安全隐患。这时，就需要使用MySQL的用户管理。 1.用户 1.1用户信息 MySQL中的用户，都存储在系…

阅读更多...

Spring Cloud 教程（二） | 搭建SpringCloudAlibaba

Spring Cloud 教程（二） | 搭建SpringCloudAlibaba

Spring Cloud 教程（二） | 搭建SpringCloudAlibaba 前言一、SpringBoot 与 SpringCloud 版本对应关系：二、SpringCloud 与 SpringCloudAlibaba版本对应关系：三、SpringCloudAlibaba版本与组件版本对应关系：四、搭建S…

阅读更多...

Django项目配置日志

Django项目配置日志

需求在Django项目中实现控制台输出到日志文件，并且设置固定的大小以及当超过指定大小后覆盖最早的信息。系统日志使用Django自带的配置，可以自动记录Django的系统日志。可以使用logging模块来配置。下面是一个完整的示例代码，展示了如…

阅读更多...

Java | Leetcode Java题解之第438题找到字符串中所有字母异位词

Java | Leetcode Java题解之第438题找到字符串中所有字母异位词

题目： 题解： class Solution {public List<Integer> findAnagrams(String s, String p) {int sLen s.length(), pLen p.length();if (sLen < pLen) {return new ArrayList<Integer>();}List<Integer> ans new ArrayList<Int…

阅读更多...

163页制造业变革转型：营销/服务/研发/供应链/制造/质量/财务

163页制造业变革转型：营销/服务/研发/供应链/制造/质量/财务

制造业企业要实现变革转型，可以从营销、服务、研发、供应链、制造、质量、劳务以及人力资源等多个方面着手： 一、营销市场调研与定位深入了解目标市场的需求、趋势和竞争态势。通过大数据分析、消费者调研等手段，精准把握市场动态&#…

阅读更多...

管家婆分销费用分摊功能使用说明！

管家婆分销费用分摊功能使用说明！

在入库和销售业务中，往往会产生一些费用需要和入库单和销售单关联，这时候就可以使用费用分摊的功能。下面我们一起来学习在分销A\V系列软件中费用分摊的操作步骤一、入库费用分摊 1、只有移动加权平均成本算法才有入库费用分摊单；入库费用分…

阅读更多...

centos7系统安装宝塔面板

centos7系统安装宝塔面板

1、开始安装适用系统 Centos/OpenCloud/Alibaba 稳定版9.0.0 urlhttps://download.bt.cn/install/install_lts.sh;if [ -f /usr/bin/curl ];then curl -sSO $url;else wget -O install_lts.sh $url;fi;bash install_lts.sh ed8484bec等待命令执行，安装完成&#…

阅读更多...

推荐文章

最新文章