python : Requests请求库入门使用指南 + 简单爬取豆瓣影评

news2024/11/15 12:10:29

Requests 是一个用于发送 HTTP 请求的简单易用的 Python 库。它能够处理多种 HTTP 请求方法,如 GET、POST、PUT、DELETE 等,并简化了 HTTP 请求流程。对于想要进行网络爬虫或 API 调用的开发者来说,Requests 是一个非常有用的工具。在今天的博客中,我将介绍 Requests 的基本用法,并提供一个合理的爬虫实例。

一.安装 Requests

在使用 Requests 库之前,您需要安装它。可以通过 pip 命令来安装:

pip install requests

在国内安装的速度很慢,所以我们可以修改为国内镜像源安装比如说清华大学镜像源:

pip install requests -i https://pypi.tuna.tsinghua.edu.cn/simple

你也可以选择其他镜像源,如阿里云、华为云等,替换 -i 参数后的 URL。

二.基本用法

Requests 提供了简单的接口来处理 HTTP 请求和响应。我们将从最基本的 GET 请求和 POST 请求开始。

1.GET 请求

GET 请求用于从服务器获取数据。可以通过 ' requests.get() ' 方法来实现。以下是一个简单的例子,通过get请求豆瓣影评:

import requests

# 发送GET请求
response = requests.get('https://movie.douban.com/review/best/')

print(response.status_code)  # 输出状态码
print(response.text)         # 输出响应内容

当然由于豆瓣有简单的反爬虫设置,所以我们这样直接发送请求很容易就会被网站限制,不要轻易尝试。

2.POST 请求

POST 请求用于向服务器发送数据,通常用于提交表单或上传文件,可以通过 `requests.post()` 方法来实现。

import requests

data = {'title': 'foo', 'body': 'bar', 'userId': 1}
response = requests.post('https://jsonplaceholder.typicode.com/posts', json=data)
print(response.status_code)
print(response.json())  # 输出响应的 JSON 数据

三.处理响应

Requests 库提供了多种方法来处理 HTTP 响应:

response.text:以字符串形式获取响应内容。

response.json():以 JSON 格式解析响应内容。

response.content:以二进制形式获取响应内容。

response.status_code:获取 HTTP 状态码。

response.headers:获取响应头信息。

四.处理简单的反爬

添加请求头

通过设置请求头将requests库的请求伪装成浏览器请求:

import requests

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)',
    'Referer': 'https://www.example.com',
    'Content-Type': 'application/json'
}
response = requests.get('https://api.example.com/data', headers=headers)

在许多情况下,自定义请求头是必需的。大多数网站至少都会有简单的爬虫检测,虽然这样只能应付最简单的反爬策略,但是也是最常用的伪装方法了。

五.爬虫实例

下面是一个简单的爬虫实例,使用 Requests 库从豆瓣网爬取影评的标题和简介:

import re
import requests

# 定义要爬取的URL
url = 'https://movie.douban.com/review/best/'

# 设置请求头部,以模拟浏览器访问
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) "
                  "Chrome/127.0.0.0 Safari/537.36"
}

# 发送HTTP GET请求以获取网页内容
response = requests.get(url, headers=headers)

# 提取响应的HTML内容
con = response.text

# 初始化存储数据的容器
title_datas = []
synopsis_datas = []

# 使用正则表达式提取评论标题
titles = re.findall('<h2><a href="https://movie.douban.com/review/.*?">(.*?)</a></h2>', con)
for title in titles:
    title_datas.append(title)  # 将标题添加到标题列表中

# 使用正则表达式提取评论内容
datas = re.findall('''<div id=".*?" class=".*?" data-rid=".*?">
                    <div class="short-content">.*?
                        (.*?)\n
                        &nbsp;\(<a href="javascript:;" id=".*?" class="unfold" title="展开">展开</a>\)
                    </div>
                </div>''', con, re.S)

# 清理提取的评论内容
for data in datas:
    # 移除HTML标签
    clean_data = re.sub(r'<p .*?>.*?</p>', '', data)
    # 将多个空白字符替换为单个空格,并去除前后的空白
    clean_data = re.sub(r'\s+', ' ', clean_data).strip()
    synopsis_datas.append(clean_data)  # 将清理后的评论内容添加到列表中

# 将标题和评论内容配对存储到字典中
items = {}
for i in range(len(title_datas)):
    items[title_datas[i]] = synopsis_datas[i]

# 打印结果
print(items)

导入库

import re:用于处理正则表达式。

import requests:用于发送HTTP请求并获取网页内容。

定义URL和请求头

url:目标网页的地址。

headers:模拟浏览器请求的头部信息,防止被网站屏蔽。

发送请求并获取网页内容

requests.get(url, headers=headers):发送GET请求获取网页数据。

response.text:获取响应的HTML文本内容。

初始化数据存储容器

title_datas:存储提取的评论标题。

synopsis_datas:存储提取的评论内容。

提取评论标题

re.findall:使用正则表达式提取标题。

将标题添加到 title_datas 列表中。

提取评论内容

re.findall:使用正则表达式提取评论内容。

re.sub:移除HTML标签并清理多余空白。

配对标题和评论内容

使用 for 循环将标题和内容配对,并存储在 items 字典中。

打印结果

输出字典 items,显示标题和评论内容的配对结果。

当然这里的实例写的并不是很好,只能给大家提供一个参考,大家爬取数据还是要基于网页分析,编写代码。

六.结论

注意事项:

  1. 遵守 robots.txt:在爬取任何网站之前,检查其 robots.txt 文件,确保你的爬虫行为符合网站的爬虫协议。
  2. 频率控制:不要过于频繁地访问目标网站,以免对服务器造成负担。可以通过 time.sleep() 控制请求频率。
  3. 异常处理:在编写爬虫时,考虑到网络请求可能会失败,建议添加异常处理机制来保证程序的健壮性。

Requests 是一个功能强大且易于使用的库,适用于各种 HTTP 请求操作。通过灵活设置请求头和使用不同的请求方法,我们可以轻松实现复杂的网络请求任务。使用 Requests 库进行网络请求和数据抓取是一个强大且简单的方式。掌握其基础用法后,可以更高效地进行 API 调用和网页数据抓取。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2058032.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

如何取消Excel表格的“打开密码”

在日常工作和学习中&#xff0c;Excel表格作为一种强大的数据处理工具&#xff0c;被广泛应用。而我们为了保护excel文件中的数据&#xff0c;会为Excel设置打开密码&#xff0c;但随着时间和需求的变化&#xff0c;当我们需要取消密码保护时要怎么做呢&#xff1f; 方法一&…

【前端基础篇】HTML零基础速通

文章目录 前言HTML结构认识HTML标签 HTML文件基本结构标签层次结构 快速生成代码框架HTML常见标签注释标签标题标签段落标签换行标签格式化标签图片标签超链接标签表格标签基本使用合并单元格 列表标签表单标签form标签input标签 label标签select标签textarea标签无语义标签 HT…

ESP RainMaker OTA 自动签名功能的安全启动

【如果您之前有关注乐鑫的博客和新闻&#xff0c;那么应该对 ESP RainMaker 及其各项功能有所了解。如果不曾关注&#xff0c;建议先查看相关信息&#xff0c;知晓本文背景。】 在物联网系统的建构中&#xff0c;安全性是一项核心要素。乐鑫科技对系统安全给予了极高的重视。ES…

AgileTC测试用例管理平台的基本使用

1. 背景 使用企业微信在线文档对测试用例进行管理&#xff0c;存在以下问题&#xff0c;比如新建版本&#xff0c;每次都要设置下执行测试用例那一栏&#xff0c;要提供通过、失败、阻塞等选项&#xff0c;操作异常繁琐&#xff0c;比如版本管理问题&#xff0c;多个版本之后&a…

【企业高性能web服务器】

目录 一、Nginx 介绍1、 Nginx 功能介绍2、基础特性3、Nginx 模块介绍 二、Nginx 编译安装1、编写systemd服务 三、平滑升级和回滚1、平滑升级的流程2、升级2、回滚 四、 Nginx 核心配置详解1、实现 nginx 的高并发配置2、Nginx 账户认证功能3、nginx作为下载服务器配置 五、re…

为了改善您的网络安全状况,请专注于数据

有效地融合、管理和使用企业数据是一项艰巨的任务。企业拥有大量的数据&#xff0c;但这些数据存在于各自为政的系统和应用程序中&#xff0c;需要高技能的数据科学家进行大量的手动操作。工程师和分析师从所有数据中提取价值。 数据准备是一项基本且必要的任务&#xff0c;但…

IOS 11 通用Base控制器封装

整体规划 BaseController&#xff1a;把viewDidLoad逻辑拆分为三个方法&#xff0c;方便管理。 BaseCommonController&#xff1a;不同项目可以复用的逻辑&#xff0c;例如&#xff1a;设置背景颜色方法等 BaseLogicController&#xff1a;本项目的通用逻辑&#xff0c;主要…

Spring的核心启动流程

前言 Spring启动时候整个入口是这么一个方法 AbstractApplicationContext#refresh 总共有12个方法&#xff0c;也就是启动时的核心步骤 AbstractApplicationContext有众多实现&#xff0c;这里我选择SpringBoot Web应用默认的实现来讲 AnnotationConfigServletWebServerAppli…

MySQL系列—MySQL编译安装常见问题(或缺少依赖)及解决方法,MySQL 编译安装时需要安装的依赖(全)

MySQL系列—MySQL编译安装常见问题(或缺少依赖)及解决方法 MySQL 编译安装时需要安装的依赖(全)&#xff1a; yum install -y cmake yum install ncurses ncurses-devel -y yum install -y libarchive yum install -y gcc gcc-c yum install -y openssl openssl-devel yum inst…

Python.NET:打开Python与.NET世界互通的大门

Python.NET 是一个强大的工具&#xff0c;它为 Python 程序员提供了一种与 .NET 公共语言运行时 (CLR) 无缝集成的途径。它就像一座桥梁&#xff0c;将 Python 的灵活性与 .NET 的强大功能连接起来&#xff0c;为开发者提供了前所未有的自由和可能性。 1. Python.NET 的核心价值…

内核代码中的路障宏

路障宏包含&#xff1a; mb()/rmb()/wmb barrier() __asm__:GCC关键字&#xff0c;用来声明一个内联汇编表达式。 __volatile__:告诉编译器&#xff0c;不要优化后面表达式中的内联汇编代码。 内联汇编表达式中的(“memory”):告诉GCC如下两个条件 If your assembler ins…

Flink常见数据源开发(DataStream API)

前言 一个 Flink 程序,其实就是对 DataStream 的各种转换。具体来说,代码基本上都由以下几部分构成,如下图所示: 获取执行环境(execution environment)读取数据源(source)定义基于数据的转换操作(transformations)定义计算结果的输出位置(sink)触发程序执行(exec…

Veritas NBU8.3.0.2安装Media Server(篇三)

一、环境自检阶段 1、Media角色地址为192.168.189.3&#xff0c;计算机名称为bakmedia&#xff0c;域名为sszz.com 2、防火墙均已关闭 二、hosts解析配置 在安装之前需要在hosts文件中配置解析&#xff0c;master和media都需要配置&#xff1b;后期如果备份客户端也需要为客户…

虚幻游戏开发| 编辑器内正常运行但打包出错

示例错误1 在编辑器里可以正常跳转关卡&#xff0c;但是在打包模式不能。 需要去projectsetting把需要跳转的关卡添加到maps list 编辑器内运行正常&#xff0c;但打包后出现报错或者不同的表现&#xff0c;其他原因汇总&#xff1a; 1. 资源加载问题 延迟加载&#xff1a;…

STM32 内部FLASH详解

目录 STM32 内部FLASH详解 1. STM32 FLASH简介 2. STM32 FLASH与SRAM 3. STM32 FLASH 容量、内容介绍 4. STM32 FLASH 读写注意事项 5. STM32 FLASH 基本结构 6. STM32 FLASH 读写步骤 6.1 FLASH 解除或添加 读、写保护的方法 6.2 FLASH 如何使用指针 读写存储器的方法…

Java | Leetcode Java题解之第354题俄罗斯套娃信封问题

题目&#xff1a; 题解&#xff1a; class Solution {public int maxEnvelopes(int[][] envelopes) {if (envelopes.length 0) {return 0;}int n envelopes.length;Arrays.sort(envelopes, new Comparator<int[]>() {public int compare(int[] e1, int[] e2) {if (e1[…

JMeter的安装和使用

&#x1f4a5; 该系列属于【SpringBoot基础】专栏&#xff0c;如您需查看其他SpringBoot相关文章&#xff0c;请您点击左边的连接 目录 一、安装 1. 下载 2. 解压 3. 修改配置 4. 运行 二、使用 1. 添加线程组 2. 添加http取样器 3. 添加监听报告 4. 添加监听结果树 …

SpringBoot依赖之Spring Data Redis实现位图Bitmap

Spring Boot 项目中使用 Spring Data Redis 实现位图Bitmap 暂未发表&#xff0c;记录于20240820 概念 Spring Data Redis (AccessDriver) 依赖名称: Spring Data Redis (AccessDriver)功能描述: Advanced and thread-safe Java Redis client for synchronous, asynchronous,…

Python(PyTorch)物理变化可微分神经算法

&#x1f3af;要点 &#x1f3af;使用受控物理变换序列实现可训练分层物理计算 | &#x1f3af;多模机械振荡、非线性电子振荡器和光学二次谐波生成神经算法验证 | &#x1f3af;训练输入数据&#xff0c;物理系统变换产生输出和可微分数字模型估计损失的梯度 | &#x1f3af;…

ubuntu命令大全

查看系统版本 lsb_release -a