15分钟学 Python 第41天:Python 爬虫入门(六)第二篇

news2024/10/6 13:43:17

Day41:Python爬取猫眼电影网站的电影信息

1. 项目背景

在本项目中,我们将使用 Python 爬虫技术从猫眼电影网站抓取电影信息。猫眼电影是一个知名的电影信息平台,提供了丰富的电影相关数据。通过这个练习,您将深入学习如何抓取动态网站的数据,包括发送请求、解析 JSON 数据、处理分页等基本技术。

2. 项目目标

  • 爬取猫眼电影网站的电影信息,包括电影名称、评分、票房、上映时间等。
  • 将抓取的数据保存为CSV文件,便于后续分析与使用。

3. 核心工具

  • Python 3.x :编程语言环境。
  • requests :用于发送 HTTP 请求。
  • json :用于解析 JSON 数据。
  • pandas :用于数据存储和处理。
  • BeautifulSoup :用于解析 HTML 文档(如需处理 HTML 内容)。

4. 环境准备

确保您的环境中安装了以下库。在终端中运行以下命令:

pip install requests pandas beautifulsoup4

5. 数据抓取流程

5.1 确定目标网址和接口

我们要爬取的猫眼电影数据源是一个 API 接口,可以通过特定的 GET 请求获取数据。猫眼的电影数据接口如下:

https://maoyan.com/board/4

5.2 发送请求

使用 requests 库向网页发送请求,获取网页内容。

5.3 解析JSON数据

使用 json 库解析获取的 JSON 数据。

5.4 提取电影信息

从解析的内容中提取所需的电影信息。

5.5 处理分页

处理多页数据,确保提取到所有电影信息。

5.6 数据存储

将提取到的数据存储为 CSV 文件。

5.7 运行流程图

开始
发送请求到猫眼
获取JSON内容
解析JSON数据
提取电影信息
处理分页
存储数据到CSV
结束

6. 示例代码

以下是完整的代码示例,分为几个功能部分以便更好理解。

6.1 导入必要的库

import requests
import pandas as pd
import json
import time

6.2 发送请求并获取页面内容

def fetch_movies(page):
    url = f'https://maoyan.com/board/4?offset={page * 10}'
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
    }
    response = requests.get(url, headers=headers)
    if response.status_code == 200:
        return response.text
    else:
        print("请求失败", response.status_code)
        return None

6.3 解析HTML并提取信息

def parse_movies(html):
    movies = []
    soup = BeautifulSoup(html, 'html.parser')
    for item in soup.find_all('div', class_='movie-item-info'):
        title = item.find('p', class_='name').text.strip()
        star = item.find('p', class_='star').text.strip()
        score = item.find('p', class_='score').text.strip()
        release_time = item.find('p', class_='releaese').text.strip().split(':')[-1]
        movies.append({
            'Title': title,
            'Star': star,
            'Score': score,
            'Release Time': release_time
        })
    return movies

6.4 存储数据到CSV

def save_to_csv(movies, filename='maoyan_movies.csv'):
    df = pd.DataFrame(movies)
    df.to_csv(filename, index=False, encoding='utf-8-sig')
    print(f"数据已保存到 {filename}")

6.5 主程序

def main():
    all_movies = []
    for page in range(10):  # 爬取前 10 页数据
        html = fetch_movies(page)
        if html:
            movies = parse_movies(html)
            all_movies.extend(movies)
            time.sleep(2)  # 添加延迟,避免请求过快
    save_to_csv(all_movies)

if __name__ == '__main__':
    main()

7. 数据分析与检查

运行完毕后,我们可以使用 pandas 读取 CSV 文件并检查数据:

def load_and_check_csv(filename='maoyan_movies.csv'):
    df = pd.read_csv(filename)
    print(df.head())
    print(f"总电影数: {len(df)}")

load_and_check_csv()

8. 样例输出

执行后,输出的 maoyan_movies.csv 文件中将包含如下示例数据:

TitleStarScoreRelease Time
你好,李焕英张小斐,贾玲9.62021-02-12
你的婚礼祝绪丹,陈飞宇9.22021-02-14
夺冠巩俐,黄渤9.02020-12-02

9. 注意事项

  1. 反爬虫机制:猫眼可能会使用反爬虫机制,建议在请求之间加上延迟,模拟人类访问。
  2. 合法合规:请遵循猫眼的使用协议,确保抓取信息不违反网站政策。
  3. 数据质量:抓取的数据质量可能会受到影响,需要进行数据清洗和校验。

10. 总结

通过本项目,您学习了如何使用 Python 爬虫技术从猫眼电影网站中抓取电影信息。掌握了数据获取、解析和存储的基本流程。接下来,可以尝试改进程序,例如:抓取更详细的电影信息,尝试其他页面或增加异常处理等,以深入理解 Python 爬虫的应用潜力。


在这里插入图片描述
怎么样今天的内容还满意吗?再次感谢观众老爷的观看。
最后,祝您早日实现财务自由,还请给个赞,谢谢!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2192026.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

小白必看一文彻底搞懂 Transformer(图解+手撕)

Transformers 亮相以来彻底改变了深度学习模型。 今天,我们将揭示 Transformers 背后的核心概念:注意力机制、编码器-解码器架构、多头注意力等等。 通过 Python 代码片段,让你深入了解其原理。 技术交流群 前沿技术资讯、算法交流、求职…

用IMX6UL开发板编写按键输入实验

在之前我们都是讲解如何使用IMX6UL的GPIO输出控制等功能,IMX6U的IO不仅能作为输出,而且也可以作为输入,而我们开发板上具有一个按键,按键肯定是连接了一个IO口的额,我们在这一节将会把IO配置成输入功能,读取…

JAVA基础面试题汇总(持续更新)

1、精确运算场景使用浮点型运算问题 精确运算场景(如金融领域计算应计利息)计算数字,使用浮点型,由于精度丢失问题,会导致计算后的结果和预期不一致,使用Bigdecimal类型解决此问题,示例代码如下…

Java类的生命周期浅析

知识前提 在了解类的生命周期之前,有必要先了解一下jvm的内存结构。如下所示: 在了解完jvm的内存结构之后,就知道了例如堆区,栈区,常量池和方法区等概念。 也了解到了,编写的代码,是先需要通过…

使用pytdx获取股票信息总结

使用pytdx获取股票相关信息汇总 行情接口标准行情对接总结界面展示性能问题数据可靠性 附录代码 行情接口 pytdx中提供了hq(标准行情)及exhq(扩展市场行情)两种接口,扩展市场目前已经失效无法使用。 标准行情 这里只…

4. Getter和Setter注解与lombok

文章目录 1. 什么是Getter和Setter注解2. 什么是lombokjava自带的jar包 3. 从maven仓库里找lombok相关jar包4. 把jar包导入项目另一个jar包导入途径 5. 正式使用注解① 问题② 解决方案提示 6. 如果还想对某个成员变量添加限制怎么办7. 内容出处 1. 什么是Getter和Setter注解 官…

【包教包会】速通LLM《从头开始构建大型语言模型》免费pdf分享

介绍 在当今人工智能技术飞速发展的时代,大型语言模型(LLM)作为聊天机器人、文本生成和理解等应用的核心,已经成为研究和商业领域的关注焦点。尽管这些模型的应用无处不在,但对于大多数开发者来说,它们的工…

AI正悄然地影响着企业数字化转型

2022年底发布的ChatGPT将人工智能技术上升到了一个新的高度。如今,人工智能正彻底改变数字转型的进程,为企业提供优化运营和提升客户体验的机会。利用算法、数据分析、机器学习等人工智能技术结合企业自身情况,可以推动企业持续创新&#xff…

每日OJ题_牛客_mari和shiny_线性dp_C++_Java

目录 牛客_mari和shiny_线性dp 题目解析 C代码 Java代码 牛客_mari和shiny_线性dp mari和shiny (nowcoder.com) 描述: mari每天都非常shiny。她的目标是把正能量传达到世界的每个角落! 有一天,她得到了一个仅由小写字母组成的字…

ElasticSearch 备考 -- Snapshot Restore

一、题目 备份集群下的索引 task,存储快照名称为 snapshot_1 二、思考 这个涉及的是集群的备份,主要是通过创建快照,涉及到以下2步骤 Setp1:注册一个备份 snapshot repository Setp2:创建 snapshot 可以通过两种方…

找生网站方案———未来之窗行业应用跨平台架构

1)网站设计方面的考虑 主色调采用于公司深蓝色颜色,网页整体色彩明快、大气、简洁,每个细节均经过精心处 理,网页浏览快速,导航明确清晰。 网页设计要充分考虑网页的整体感觉,每个页面的图片与网站色调的过…

YOLO11改进 | 卷积模块 | 用Ghost卷积轻量化网络【详细步骤】

秋招面试专栏推荐 :深度学习算法工程师面试问题总结【百面算法工程师】——点击即可跳转 💡💡💡本专栏所有程序均经过测试,可成功执行💡💡💡 Ghost 模块可以作为即插即用组件来升级…

C(十四)while、for、do-while循环综合(一)

uu们,小弟我本科在读,文章我会一直坚持更新下去,包括但不限于C初阶、C进阶、数据结构、C、Linux、MySQL、项目、QT开发、各种算法(之后会持续更新),并且站在小白的视角尽可能通俗易懂地把这些写出来&#x…

xss之dom类型

目录 xss关于dom类型 1、闭合方式 2、闭合,直接输入1,成功闭合 上我们的pikachu xss关于dom类型 1、闭合方式 输入123,然后打开f12,审查元素,之前一直没有搞懂为什么要在前面加上个单引号 输入两个双引号&#x…

【STM32开发之寄存器版】(三)-详解NVIC中断

一、前言 STM32F103ZET6具备强大的中断控制能力,其嵌套向量中断控制器(NVIC)和处理器核的接口紧密相连,可以实现低延迟的中断处理和高效地处理晚到的中断。NVIC主要具备以下特性: 68个可屏蔽中断通道(不包含16个Cortex™-M3的中断线)&#xf…

【黑马点评】 使用RabbitMQ实现消息队列——1.Docker与RabbitMQ环境安装

黑马点评中,使用基于Redis的Stream实现消息队列,但是Strema已经不太常用。在此修改为使用RabbitMQ实现消息队列。主要包括RabbitMQ的环境准备(Docker的下载与安装)以及如何修改黑马点评中的代码。 【黑马点评】使用RabbitMQ实现消…

【Java数据结构】栈 (Stack)

【本节目标】 1. 栈的概念及使用 2. 相关 OJ 题 一、概念 栈:一种特殊的线性表,其只允许在固定的一端进行插入和删除元素操作。进行数据插入和删除操作的一端称为栈顶,另一端称为栈底。栈中的数据元素遵守后进先出LIFO(Last…

C语言—单链表

目录 一、链表的概念及结构 二、单链表实现 (2.1)基本结构定义 (2.2)申请节点 (2.3)打印函数 (2.4)头部插入删除\尾部插入删除 (2.4.1)尾部插入 &…

Anaconda的安装与环境设置

文章目录 一、Anaconda介绍二、Anaconda环境搭建1. 下载Anaconda(1)官网下载(2)清华大学镜像 2. 安装Anaconda3.配置环境变量4.检验conda是否安装成功5.更改镜像源6.若菜单栏没有conda prompt 三、虚拟环境1.创建、查看、删除虚拟环境2.激活、退出虚拟环境 四、CUDA、Pytorch、…

基于SpringBoot+Vue的酒店客房管理系统

作者:计算机学姐 开发技术:SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等,“文末源码”。 专栏推荐:前后端分离项目源码、SpringBoot项目源码、Vue项目源码、SSM项目源码、微信小程序源码 精品专栏:…