15分钟学 Python 第40天:Python 爬虫入门(六)第一篇

news2024/10/6 12:33:25

Day40 :Python 爬取豆瓣网前一百的电影信息

1. 项目背景

在这个项目中,我们将学习如何利用 Python 爬虫技术从豆瓣网抓取前一百部电影的信息。通过这一练习,您将掌握网页抓取的基本流程,包括发送请求、解析HTML、存储数据等核心技术。

2. 项目目标

  • 爬取豆瓣电影前一百部电影的信息,包括电影名称、评分、评价人数和影片链接。
  • 将抓取的数据保存为CSV文件,便于后续分析。

3. 核心工具

  • Python 3.x :作为编程语言。
  • requests :用于发送 HTTP 请求。
  • BeautifulSoup :用于解析 HTML 文档。
  • pandas :用于数据存储和处理。
  • CSV :文件格式,用于存储数据。

4. 环境准备

确保您的环境中安装了以下库。在终端中运行以下命令:

pip install requests beautifulsoup4 pandas

5. 数据抓取流程

5.1 确定目标网址

我们需要爬取的目标网址为:https://movie.douban.com/top250

5.2 发送请求

使用 requests 库向网页发送请求,获取网页内容。

5.3 解析HTML

使用 BeautifulSoup 解析获取的 HTML 文档。

5.4 提取电影信息

从解析的内容中提取所需的电影信息。

5.5 数据存储

将提取到的数据存储为 CSV 文件。

5.6 运行流程图

开始
发送请求到豆瓣
获取HTML内容
解析HTML
提取电影信息
存储数据到CSV
结束

6. 示例代码

以下是完整的代码示例,分为几个功能部分以便更好理解。

6.1 导入必要的库

import requests
from bs4 import BeautifulSoup
import pandas as pd

6.2 发送请求并获取页面内容

def fetch_page(url):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
    }
    response = requests.get(url, headers=headers)
    if response.status_code == 200:
        return response.text
    else:
        print("请求失败", response.status_code)
        return None

6.3 解析HTML并提取信息

def parse_page(html):
    soup = BeautifulSoup(html, 'html.parser')
    movies = []
    for item in soup.find_all('div', class_='item'):
        title = item.find('span', class_='title').text
        rating = item.find('span', class_='rating_num').text
        num_ratings = item.find('div', class_='star').find_all('span')[-1].text[:-3]  # 去掉"人评价"
        link = item.find('a')['href']
        movies.append({
            'Title': title,
            'Rating': rating,
            'Number of Ratings': num_ratings,
            'Link': link
        })
    return movies

6.4 存储数据到CSV

def save_to_csv(movies, filename='douban_movies.csv'):
    df = pd.DataFrame(movies)
    df.to_csv(filename, index=False, encoding='utf-8-sig')
    print(f"数据已保存到 {filename}")

6.5 主程序

def main():
    url = 'https://movie.douban.com/top250'
    html = fetch_page(url)
    if html:
        movies = parse_page(html)
        save_to_csv(movies)

if __name__ == '__main__':
    main()

7. 数据分析与检查

运行完毕后,我们可以使用 pandas 读取 CSV 文件并检查数据:

def load_and_check_csv(filename='douban_movies.csv'):
    df = pd.read_csv(filename)
    print(df.head())
    print(f"总电影数: {len(df)}")

load_and_check_csv()

8. 样例输出

执行后,输出的 douban_movies.csv 文件中将包含如下示例数据:

TitleRatingNumber of RatingsLink
肖申克的救赎9.7732099https://movie.douban.com/subject/278\n
这个杀手不太冷9.4626208https://movie.douban.com/subject/1309191\n
霸王别姬9.6595214https://movie.douban.com/subject/1291546\n

9. 注意事项

  1. 反爬虫机制:豆瓣可能会使用反爬虫技术,如果频繁请求可能会被封禁,建议在请求之间加上延迟。
  2. 合法合规:请遵循使用网站的使用协议,确保抓取信息不违反网站的政策。
  3. 数据质量:抓取到的内容质量可能会有所不同,需要在处理和存储时多加注意。

10. 总结

通过这个项目,您学习了怎样使用 Python 爬虫从豆瓣网抓取数据。掌握了数据获取、解析和存储的基本流程。接下来可以尝试改进程序,例如:增加多线程支持、提取更多信息、抓取多个页面等,以深入理解 Python 爬虫的潜力和应用。


在这里插入图片描述
怎么样今天的内容还满意吗?再次感谢观众老爷的观看。
最后,祝您早日实现财务自由,还请给个赞,谢谢!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2191883.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【青训入营】青海湖租车之旅

# 问题描述油价飞升的今天,我们尽量减少花费。我们出门旅游,有时候租车去旅游也是一种不错的方式。这次我们这次旅游是从「青海湖」到「景点 X」,景点 X 可以是「敦煌」、「月牙泉」等,线路的路径是唯一的,假设我们每走…

佳易王电玩店ps5计时计费系统软件倒计时语音提醒软件操作教程

一、前言 【试用版软件下载可以点击最下方官网卡片】 佳易王电玩店ps5计时计费系统软件倒计时语音提醒软件操作教程 1、时间显示:正常使用时间,直观显示在对应桌旁。 2、倒计时显示:右侧显示剩余多少分钟, 3、定时语音提醒&am…

zookeeper选举kafka集群的controller

zookeeper选举kafka集群的controller目录 文章目录 zookeeper选举kafka集群的controller目录前言一、实操体验controller的选举二、模拟controller选举四、删除controller节点 前言 kafka集群的controller是kafka集群中一个有特殊作用的broker,负责整个kafka集群的…

【网络原理】TCP保持“可靠传输”的秘密--确认应答与超时重传机制

💐个人主页:初晴~ 📚相关专栏:计算机网络那些事 在上一篇文章中,我们研究了UDP报文的结构,由于其报头中只有两个字节来记录报文长度,导致一次最多只能传输 64KB 的数据,这完全无法满…

Mamba 架构在医学图像分析中的全面综述:分类、分割、重建及其他应用

Mamba 是一种状态空间模型(State Space Model, SSM)的特例,作为医学图像分析中模板驱动深度学习方法的替代方案,正日益受到关注。尽管 transformer 是强大的架构,但它也存在一些缺陷,例如计算复杂度为平方级…

图元是什么,图元在组态设计中发挥什么作用

从事HMI设计的小伙伴,肯定听说过图元的这个概念,图元简单可以理解为构成图形的最近本元素,如线、面、几何体等等,在一些组态软件中,图元的的重要性甚至超过了界面,因为有了图元就意味着有了千变万化的界面&…

[ESP32]ESP-IDF使用组件添加U8g2图形库

U8g2 在ESP32使用u8g2的时候可以使用添加component的方式进行, 由于官方的component库没有, 这里我找到了一个可以使用的github库, 使用git的方式进行添加这一个库 具体的原理可以看[官方手册](https://docs.espressif.com/projects/esp-idf/zh_CN/stable/esp32/api-guides/to…

《Windows PE》4.1.4 手工重构导入表

接下来我们做一个稍微复杂一些的实验,实验需要四个程序: HelloWorld.exe:弹出MessageBox窗口(实验1已实现)。 Regedit.exe:添加注册表启动项。 LockTray.exe:锁定任务栏窗口。 UnLockTray.exe&…

各省份农林牧渔业总产值统计数据(2000-2022年)

数据来源 《中国统计年鉴》 农业、林业、牧业和渔业作为国民经济的重要组成部分,对于保障国家粮食安全、促进区域经济发展、实现农业农村现代化和乡村振兴具有重要意义。 2000年-2022年全国各省份农林牧渔业总产值统计数据(大数据).zip资源…

DBMS-3.1 SQL(1)——SQL概述和DDL

本文章的素材与知识来自李国良老师和王珊老师。 SQL概述 1.定义 2.SQL语句分类 数据定义语言DDL(Data Definition Language) 一.表 1.创建表 (1)语法 中括号内的项为可选项。分号标志着一条SQL语句的结束。SQL语句不区分大小…

【Spring Boot React】Spring Boot和React教程 完整版

【Spring Boot & React】Spring Boot和React教程 在B站找到一个不错的SpringBoot和React的学习视频,作者是amigoscode 【Spring Boot & React】Spring Boot和React教程 2023年更新版【Spring Boot React】价值79.9美元,全栈开发,搭…

付费计量系统实体和接口(1)

13.System entities and interfaces 系统实体和接口 See also Clause 4 for a discussion on general concepts and Clause 5 for generic entity model. 参见条目 4 讨论总体概念、条目 5 通用实体模型。 An entity specification should specify the embodied functions and …

【Unity踩坑】UWP项目安装包认证失败

问题:在Unity导出的VS项目,打包生成appx后,进行应用认证时失败。提示部分API不支持。 API __C_specific_handler in kernel32.dll is not supported for this application type. UnityPlayer.dll calls this API.API DXGIGetDebugInterface1 …

【Linux】进程控制(创建、终止、等待、替换)

文章目录 1. 进程创建2. 进程终止3. 进程等待4. 进程程序替换4.1 认识进程替换4.2 认识全部接口 1. 进程创建 如何创建进程我们已经在之前学习过了,无非就是使用fork(),它有两个返回值。创建成功,给父进程返回PID,给子进程返回0&…

LLM大模型常见面试题汇总(含答案)

最近秋招正在如火如荼地进行中,看到很多人的简历上都包含大模型相关的工作,各家大厂和初创都很舍得给钱,动辄百万年包也变得不再稀奇。 因此在大模型纵横的这个时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面…

零点校准说明

目录 注意,校准时电机不能带负载,否则校准容易出错。 零点校准 点击【零点校准】,显示“校准中…”, 如果是“High Current”类型电机,电机先“嘀”一声测量电阻电感(耗时约5秒),然后再正转一圈…

【实战】Nginx+Lua脚本+Redis 实现自动封禁访问频率过高IP

大家好,我是冰河~~ 自己搭建的网站刚上线,短信接口就被一直攻击,并且攻击者不停变换IP,导致阿里云短信平台上的短信被恶意刷取了几千条,加上最近工作比较忙,就直接在OpenResty上对短信接口做了一些限制&am…

Vivado viterbi decoder license

Viterbi Decoder 打卡以上链接 添加后next后, 会发送lic文件到邮件,vivado导入lic即可

Latex技巧——参考文献中加入url和doi

有的期刊要求在参考文献里加入url或者doi, 例如下图中蓝色的字体。 在bib里编辑为下图中note行,也就是利用\href命令。\href后第一个{}内为网址,第二个{}为在参考文献中显示的蓝色文字。一般来说,两个{}内的文字相同。若遇到有些网址有下划线…

不是哥们,真有人拿 AI 来面试啊?

大家好,我是八哥。如今 AI 已经渗透到了我们的生活、求职、工作等方方面面。就拿求职来说,今年的美团校招,已经用上了 AI 来当面试官,降本增效。 我自己也当过面试官,其实对 AI 面试官还是挺好奇的。毕竟每个候选人的…