【实战项目二】Python爬取豆瓣影评

news2026/3/25 2:00:47

一、环境准备

二、编写代码

一、环境准备

pip install beautifulsoup4
pip intall lxml
pip install requests

我们需要爬取这些影评

二、编写代码

我们发现每个影评所在的div的class都相同，我们可以从这入手

from bs4 import BeautifulSoup
import requests

# 请求头信息
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/102.0.0.0 Safari/537.36'
}
url = 'https://movie.douban.com/review/best/'
response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, 'lxml')
div = soup.find_all('div', class_='main review-item') # 找到每个影评的div，返回所有影评div列表
for d in div:
    # 获取所有img标签
    img = d.img
    # 获取硬盘标题
    title = d.h2.string
    # 获取影评
    con = list(d.find('div', class_="short-content").stripped_strings)[0]
    print(con)

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1807228.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

修改云主机配置 - 内存增容

文章目录一、修改云主机配置缘由二、修改云主机配置步骤1、查看云主机概述2、查看master云主机3、更改master云主机配置4、查看master云主机三、使用Spark Shell玩Saprk SQL1、启动HDFS服务2、启动Spark集群3、启动集群模式Spark Shell4、读取文件生成单例数据帧5、将单列数据…

给浮躁的面试者一个建议

哈喽，大家好，我叫人宅，关于找工作，大家心态非常浮躁，尤其是零零后，或者是九五后。本次为大家分享一下关于就业问题和就业态度。我讲解的这些其实适合所有高科技行业。我这边就拿程序员为例。如果你是刚毕…

Python Mistune库：Markdown解析和处理

更多Python学习内容：ipengtao.com Mistune是一个用于Python的快速且功能强大的Markdown解析库。它以其高性能和灵活性著称，能够轻松扩展和定制。Mistune支持标准的Markdown语法，并且可以通过插件扩展支持更多功能，例如数学公式、高…

云服务器Ubuntu系统的vim-plus（youcompleteme）完整安装

一. 安装vim-plus PS：需要在那个用户下配置vim-plus，就到那个用户下执行代码 git clone https://github.com/chxuan/vimplus.git ~/.vimplus cd ~/.vimplus ./install.sh二. 解决没有代码自动补全的问题随便创建一个Test.cpp文件，vim打开…

线性代数|机器学习-P10最小二乘法的四种方案

文章目录 1. 概述2. SVD奇异值分解3. 最小二乘法方程解4. 最小二乘法图像解释5. Gram-Schmidt 1. 概述当我们需要根据一堆数据点去拟合出一条近似的直线的时候，就会用到最小二乘法 .根据矩阵A的情况，有如下四种方法在r n m 时，SVD奇异…

Apple - Quartz 2D Programming Guide

本文翻译自：Quartz 2D Programming Guide（更新时间：2017-03-21 https://developer.apple.com/library/archive/documentation/GraphicsImaging/Conceptual/drawingwithquartz2d/Introduction/Introduction.html#//apple_ref/doc/uid/TP300010…

SpringCloud中注册中心Nacos的下载与使用步骤

1.前言 Nacos（Dynamic Naming and Configuration Service）是阿里巴巴开源的一款服务发现和配置管理工具。它可以帮助用户自动化地进行服务注册、发现和配置管理，是面向微服务架构的一个重要组成部分。 2.下载链接：https://pan.b…

002-链路聚合

链路聚合链路聚合是一个重要的计算机网络术语，它涉及将多个物理端口汇聚在一起，形成一个逻辑端口，从而增加网络带宽、实现链路传输的弹性和工程冗余。定义与基本原理定义：链路聚合（英语：Link Aggrega…

6.7-6.10作业

1. /*1.使用switch实现银行系统，默认用户为A，密码为1234，余额2000 如果登录失败，则直接结束如果登录成功，则显示银行页面 1.查询余额 2.取钱 3.存钱如果是1，则打印余额如果是2，则输入取钱金…

纳什均衡：博弈论中的运作方式、示例以及囚徒困境

文章目录一、说明二、什么是纳什均衡？2.1 基本概念2.2 关键要点三、理解纳什均衡四、纳什均衡与主导策略五、纳什均衡的例子六、囚徒困境七、如何原理和应用7.1 博弈论中的纳什均衡是什么？7.2 如何找到纳什均衡？7.3 为什么纳什均衡很重要&a…

python 判断点和线段相交

python 判断点和线段相交 import numpy as np import cv2 import numpy as npdef point_to_line_distance(points, line_segments):# line_segments [[549, 303], [580, 303]]# points [565, 304]x0, y0, x1, y1line_segments[0][0], line_segments[0][1], line_segments[1]…

手把手带你做一个自己的网络调试助手(1) - TCP服务器准备

程序设计流程图 TCP 服务器 ui界面搭建 Tcp服务器建立连接 - listen() connect() 1.在构造函数中进行如下初始化: 通过 QNetworkInterface 类的 allAddresses 这一API 获得可用IP地址（包括IPv4 和 IPv6） 然后通过QHostAddress类的 protocol 这一AP…

前端-a-date-picker如何设置禁选时间段

想要做到如图所示的效果，代码如下： 第一个是只能选择某一天，第二个是只能选择某一个时间段 <a-date-pickerv-model:value"record.onTimeStr":show-time"{ format: HH:mm }"valueFormat"YYYY-MM-DD HH:mm:ss&qu…

【算法小记】深度学习——时间序列数据分析 Time series Data Analysis

在本篇博客中将简单介绍常见的几种循环神经网络和一维卷积神经网络，并使用一些简答的数据进行拟合分析。本文相对适合刚入门的同学，同时也作为自己过去一段时间学习的总结和记录，现在神经网络框架已经非常完善的支持了很多常见和有效的深度学…

【学永远不嫌晚】Linux操作系统,linux教程,动力节点linux,老杜linux

碎碎念总是遇到一些恶心的事情看最新教程老师安装的是 vm17 pro，想着也去安装，搜了一大堆，都指向官网下载。 https://support.broadcom.com/group/ecx/productdownloads?subfamilyVMwareWorkstationPro 安装显示没有 entitlement&#…

“GPT-4o深度解析：技术演进、能力评估与个人体验综述“

文章目录每日一句正能量前言对比分析模型架构性能应用场景用户体验技术创新社区和生态系统总结技术能力语言生成能力语言理解能力技术实现总结个人感受关于GPT-4o的假设性观点：关于当前语言模型的一般性观点： 后记每日一句正能量又回到了原点&#…

2024年CKA模拟系统制作 | step-by-step | 1、基础环境准备

目录一、软件环境二、虚拟网络环境准备 1、编辑虚拟网络 2、网络设置三、新建虚拟主机 1、新建目录 2、新建虚拟主机四、系统安装 1、装载系统镜像 2、开启虚拟机 3、选择语言 4、键盘选择 5、网络配置 6、代理设置 7、设置软件源 8、存储设置 9、名称设置 …

记一次postgresql拼接函数string_agg() 和row_number() 使用

PG两个函数使用需求和简单介绍需求背景介绍第一个需求背景是这样的需求升级一下接下来讲讲STRING_AGG()基本语法排序然后我们再说说ROW_NUMBER()基本语法使用 row_number() over (partition by) 进行分组统计使用 row_num限定每组数量需求背景介绍第一个需求背景是这样的 …

6、组件通信详解（父子、兄弟、祖孙）

一、父传子 1、props 用法： （1）父组件用 props绑定数据，表示为 v-bind:props"数据" （v-bind:简写为 : ，props可以任意命名） （2）子组件用 defineProps([props&…

curl 92 HTTP/2 stream 5 was not closed cleanly: CANCEL

source ~/.bash_profile flutter clean Command exited with code 128: git fetch --tags Standard error: 错误：RPC 失败。curl 92 HTTP/2 stream 5 was not closed cleanly: CANCEL (err 8) 错误：预期仍然需要 2737 个字节的正文 fetch-pack: unexpec…