爬取央视热榜并存储到MongoDB

news2024/9/30 14:52:12

1. 环境准备

在开始之前,确保你已经安装了以下Python库:

pip install requests pymongo

2. 爬取网页内容

首先,我们需要爬取央视热榜的网页内容。通过requests.get()方法,我们可以获取网页的HTML内容,并通过re.findall()方法来提取我们感兴趣的部分。

import requests
import re

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (HTML, like Gecko) Chrome/127.0.0.0 Safari/537.36"
}
url = 'https://tv.cctv.com/top/index.shtml?spm=C28340.PdNvWY0LYxCP.EtmP5mypaGE4.11'
res = requests.get(url, headers=headers)
con = res.content.decode("utf8")

在这一步中,我们访问了央视的热榜页面,并将网页内容解码为UTF-8格式。

3. 解析数据

我们使用正则表达式来提取每个榜单的具体内容。通过re.findall()方法,我们可以从HTML中提取出特定的榜单数据。

datas = re.findall(r'<ul>.*?</ul>', con, re.S)

4. 解析每个榜单的数据

我们将热榜分为几个类别,如热播榜、动画片、电视剧、纪录片和特别节目。分别对每个类别的数据进行解析:

result = {
    "热播榜": {"name": "热播榜", "items": []},
    "动画片": {"name": "动画片", "items": []},
    "电视剧": {"name": "电视剧", "items": []},
    "纪录片": {"name": "纪录片", "items": []},
    "特别节目": {"name": "特别节目", "items": []}
}

# 热播榜
items = re.findall(
    r'<li.*?lazy="(.*?)".*?<div class="text"><a href=".*?" target="_blank">(.*?)</a>'
    r'</div>.*?<div class="column"><i class="icon_l"></i><a href=".*?" target="_blank">(.*?)</a>'
    r'<i class="icon_r"></i></div>.*?</li>',
    datas[1], re.S)
for item in items:
    result["热播榜"]["items"].append({
        "img": item[0],
        "title": item[1],
        "category": item[2]
    })

# 动画片
items = re.findall(
    r'<li.*?lazy="(.*?)" width="188" height="250"></a>.*?<span class="number"><i class="icon_l">'
    r'</i><i class="txt">(.*?)</i><i class="icon_r"></i></span>.*?</div>.*?'
    r'<a class="cover" href=".*?" target="_blank">.*?</a>.*?<div class="text">'
    r'<a href=".*?" target="_blank">(.*?)</a></div>.*?<p><a href=".*?" target="_blank">(.*?)</a></p>.*?</li>'
    , datas[2], re.S
)
for item in items:
    result["动画片"]["items"].append({
        "img": item[0],
        "title": item[2],
        "category": item[1],
        "synopsis": item[3]
    })

# 电视剧
items = re.findall(
    r'<li.*?lazy="(.*?)" width="188" height="250"></a>.*?<span class="number">'
    r'<i class="icon_l"></i><i class="txt">(.*?)</i><i class="icon_r"></i></span>.*?</div>.*?'
    r'<a class="cover" href=".*?" target="_blank">.*?</a>.*?<div class="text"><a href=".*?" target="_blank">(.*?)</a>'
    r'</div>.*?<p><a href=".*?" target="_blank">(.*?)</a></p>.*?</li>',
    datas[3], re.S
)
for item in items:
    result["电视剧"]["items"].append({
        "img": item[0],
        "title": item[2],
        "episode": item[1],
        "synopsis": item[3]
    })

# 纪录片
items = re.findall(
    r'<li.*?lazy="(.*?)" width="188" height="250"></a>.*?<span class="number">'
    r'<i class="icon_l"></i><i class="txt">(.*?)</i><i class="icon_r"></i>'
    r'</span>.*?</div>.*?<a class="cover" href=".*?" target="_blank">.*?</a>.*?<div class="text">'
    r'<a href=".*?" target="_blank">(.*?)</a></div>.*?<p><a href=".*?" target="_blank">(.*?)</a></p>.*?</li>',
    datas[4], re.S
)
for item in items:
    result["纪录片"]["items"].append({
        "img": item[0],
        "title": item[2],
        "category": item[1],
        "synopsis": item[3]
    })

# 特别节目
items = re.findall(
    r'<li.*?lazy="(.*?)" width="188" height="250"></a>.*?<span class="number">'
    r'<i class="icon_l"></i><i class="txt">(.*?)</i><i class="icon_r"></i></span>.*?</div>.*?'
    r'<a class="cover" href=".*?" target="_blank">.*?</a>.*?<div class="text"><a href=".*?" target="_blank">(.*?)</a>'
    r'</div>.*?<p><a href=".*?" target="_blank">(.*?)</a></p>.*?</li>',
    datas[5], re.S
)
for item in items:
    result["特别节目"]["items"].append({
        "img": item[0],
        "title": item[2],
        "tv": item[1],
        "synopsis": item[3]
    })

在这段代码中,我们通过正则表达式分别提取了每个榜单的数据。每个榜单的数据结构可能略有不同,因此我们为每个榜单编写了相应的解析规则。

数据字段说明:
  • img: 每个节目对应的封面图片链接。
  • title: 节目的标题。
  • category: 节目的种类(如:动画片、电视剧等)。
  • episode: 电视剧的集数(仅电视剧榜单有此字段)。
  • synopsis: 节目的简要介绍。
  • tv: 电视台信息(仅特别节目榜单有此字段)。

5. 存储数据到MongoDB

解析完成后,我们将获取的数据存储到MongoDB中。首先,我们需要连接到MongoDB,然后将解析结果插入到相应的集合中。

import pymongo

client = pymongo.MongoClient()
db = client.get_default_database("cctv")
collection = db.get_collection("top")
collection.insert_one(result)
client.close()

上述代码连接到本地的MongoDB实例,并将数据插入到名为cctv的数据库中的top集合中。最后,关闭数据库连接。

6. 总结

通过以上步骤,我们成功地爬取了央视热榜的数据,并将其存储到MongoDB中。这种方法可以用来定期更新数据,构建自己的数据分析系统,或者为其他应用提供数据支持。

代码:
import re

import pymongo
import requests

headers = {
    # 请求工具标识
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (HTML, like Gecko) "
                  "Chrome/127.0.0.0 Safari/537.36"
}
url = 'https://tv.cctv.com/top/index.shtml?spm=C28340.PdNvWY0LYxCP.EtmP5mypaGE4.11'
res = requests.get(url, headers=headers)
con = res.content.decode("utf8")
datas = re.findall(r'<ul>.*?</ul>', con, re.S)
result = {
    "热播榜": {
        "name": "热播榜",
        "items": []
    },
    "动画片": {
        "name": "动画片",
        "items": []
    },
    "电视剧": {
        "name": "电视剧",
        "items": []
    },
    "纪录片": {
        "name": "纪录片",
        "items": []
    },
    "特别节目": {
        "name": "特别节目",
        "items": []
    }
}
# print(datas[1])
items = re.findall(
    r'<li.*?lazy="(.*?)".*?<div class="text"><a href=".*?" target="_blank">(.*?)</a>'
    r'</div>.*?<div class="column"><i class="icon_l"></i><a href=".*?" target="_blank">(.*?)</a>'
    r'<i class="icon_r"></i></div>.*?</li>',
    datas[1], re.S)
for item in items:
    # print(item)
    result["热播榜"]["items"].append({
        "img": item[0],
        "title": item[1],
        "category": item[2]
    })
    # pass
# print(datas[2])
items = re.findall(
    r'<li.*?lazy="(.*?)" width="188" height="250"></a>.*?<span class="number"><i class="icon_l">'
    r'</i><i class="txt">(.*?)</i><i class="icon_r"></i></span>.*?</div>.*?'
    r'<a class="cover" href=".*?" target="_blank">.*?</a>.*?<div class="text">'
    r'<a href=".*?" target="_blank">(.*?)</a></div>.*?<p><a href=".*?" target="_blank">(.*?)</a></p>.*?</li>'
    , datas[2], re.S
)
for item in items:
    # print(item)
    result["动画片"]["items"].append({
        "img": item[0],
        "title": item[2],
        "category": item[1],
        "synopsis": item[3]
    })
    # pass
# print(datas[3])
items = re.findall(
    r'<li.*?lazy="(.*?)" width="188" height="250"></a>.*?<span class="number">'
    r'<i class="icon_l"></i><i class="txt">(.*?)</i><i class="icon_r"></i></span>.*?</div>.*?'
    r'<a class="cover" href=".*?" target="_blank">.*?</a>.*?<div class="text"><a href=".*?" target="_blank">(.*?)</a>'
    r'</div>.*?<p><a href=".*?" target="_blank">(.*?)</a></p>.*?</li>'
    , datas[3], re.S
)
for item in items:
    # print(item)
    result["电视剧"]["items"].append({
        "img": item[0],
        "title": item[2],
        "episode": item[1],
        "synopsis": item[3]
    })
    # pass
# print(datas[4])
items = re.findall(
    r'<li.*?lazy="(.*?)" width="188" height="250"></a>.*?<span class="number">'
    r'<i class="icon_l"></i><i class="txt">(.*?)</i><i class="icon_r"></i>'
    r'</span>.*?</div>.*?<a class="cover" href=".*?" target="_blank">.*?</a>.*?<div class="text">'
    r'<a href=".*?" target="_blank">(.*?)</a></div>.*?<p><a href=".*?" target="_blank">(.*?)</a></p>.*?</li>'
    , datas[4], re.S
)
for item in items:
    # print(item)
    result["纪录片"]["items"].append({
        "img": item[0],
        "title": item[2],
        "category": item[1],
        "synopsis": item[3]
    })
    # pass
# print(datas[5])
items = re.findall(
    r'<li.*?lazy="(.*?)" width="188" height="250"></a>.*?<span class="number">'
    r'<i class="icon_l"></i><i class="txt">(.*?)</i><i class="icon_r"></i></span>.*?</div>.*?'
    r'<a class="cover" href=".*?" target="_blank">.*?</a>.*?<div class="text"><a href=".*?" target="_blank">(.*?)</a>'
    r'</div>.*?<p><a href=".*?" target="_blank">(.*?)</a></p>.*?</li>'
    , datas[5], re.S
)
for item in items:
    # print(item)
    result["特别节目"]["items"].append({
        "img": item[0],
        "title": item[2],
        "tv": item[1],
        "synopsis": item[3]
    })
    # pass
# print(result)
client = pymongo.MongoClient()
db = client.get_default_database("cctv")
collection = db.get_collection("top")
collection.insert_one(result)
client.close()
爬取数据:

7. 提示

  • 在实际应用中,如果需要处理大量数据或频繁请求网页,建议添加异常处理和请求延时,以避免对服务器造成过大压力。
  • 如果网页结构发生变化,正则表达式可能需要相应调整。
  • 遵守 robots.txt:在爬取任何网站之前,检查其 robots.txt 文件,确保你的爬虫行为符合网站的爬虫协议。

希望这篇博客对你有所帮助,祝你在数据爬取和存储的学习过程中取得进展!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2087559.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

KEYSIGHT是德 Infiniium EXR系列 示波器

Infiniium EXR系列 示波器 苏州新利通 引言 概述 Infiniium EXR系列 出色的信号完整性让信号纤毫毕现 该系列的所有型号都集成了一个 10 位 ADC&#xff0c;并且在所有通道上同时提供 16 GSa/s 的采样率。高分辨率 ADC 的效用取决于示波器的前端底噪是否足够低以提供与之匹…

Nvidia主导AI推理竞赛,但新兴对手纷纷崭露头角

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗&#xff1f;订阅我们的简报&#xff0c;深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同&#xff0c;从行业内部的深度分析和实用指南中受益。不要错过这个机会&#xff0c;成为AI领…

健康早知道小程序的设计

管理员账户功能包括&#xff1a;系统首页&#xff0c;个人中心&#xff0c;用户管理&#xff0c;医生管理&#xff0c;健康信息管理&#xff0c;健康评估管理&#xff0c;在线留言&#xff0c;系统管理 微信端账号功能包括&#xff1a;系统首页&#xff0c;医学知识&#xff0…

【网络】数据链路层协议——以太网,ARP协议

1.局域网转发 &#xff08;1&#xff09;IP提供了将数据包跨网络发送的能力&#xff0c;这种能力实际上是通过子网划分目的ip查询节点的路由表来实现的&#xff0c;但实际上数据包要先能够在局域网内部进行转发到目的主机&#xff0c;只有有了这个能力之后&#xff0c;数据包才…

【问题分析】放大镜影响权限弹窗接收事件【Android14】

1 问题描述 如图&#xff0c;打开google的放大镜功能&#xff0c;然后将该放大镜和权限弹窗部分重合&#xff0c;会发现权限弹窗的按钮如“Allow”&#xff0c;点击无响应。 顺便一提&#xff0c;如果放大镜和权限弹窗完全重合或者完全不重合&#xff0c;是没问题的。 2 问题…

create-react-app 移除 ESLint 语法检查

ESLint 的作用&#xff1a; ESLint 是一个流行的 JavaScript 代码静态检查工具&#xff0c;旨在帮助开发者识别和修复代码中的问题。以下是关于 ESLint 的一些关键信息&#xff1a; 主要功能&#xff1a; 1.代码风格检查&#xff1a;ESLint 可以检查代码是否符合特定的编码风…

基于STM32开发的智能农业监测与控制系统

目录 引言环境准备工作 硬件准备软件安装与配置系统设计 系统架构硬件连接代码实现 系统初始化传感器数据采集与处理自动灌溉与环境控制数据融合与决策算法OLED显示与状态提示Wi-Fi通信与远程监控应用场景 温室环境的智能监控与自动化控制农田土壤与作物生长的实时监测常见问题…

2017年系统架构师案例分析试题四

目录 案例 【题目】 【问题 1】(9 分) 【问题 2】(9 分) 【问题 3】(7 分) 【答案】 【问题 1】解析 【问题 2】解析 【问题 3】解析 相关推荐 案例 阅读以下关于数据库设计的叙述&#xff0c;在答题纸上回答问题 1 至问题 3。 【题目】 某制造企业为拓展网上销售业…

强化学习,第 6 部分:n 步 Bootstrapping

一、介绍 1.1 概述 R强化学习是机器学习中的一个领域&#xff0c;它引入了智能体在复杂环境中学习最佳策略的概念。代理从其操作中学习&#xff0c;从而根据环境的状态获得奖励。强化学习是一个具有挑战性的话题&#xff0c;与机器学习的其他领域有很大不同。 强化学习的显着…

Linux--实现U盘,SD卡的自动挂载

1. 编辑/etc/init.d/rsC或S10mdev文件 在/etc/init.d/rsC或S10mdev中加入以下语句&#xff1a; echo /sbin/mdev > /proc/sys/kernel/hotplug 当有热插拔事件产生时&#xff0c;内核会调用/proc/sys/kernel/hotplug文件里指定的应用程序来处理热插拔事件。把/sbin/mdev写…

数据结构---双向链表---循环链表---栈

目录 一、双向链表 1.1.创建双向链表 1.2.头插法 1.3.尾插法 1.4.查询节点 1.5.修改节点 1.6.删除节点 1.7.打印节点 1.8.销毁链表 二、循环链表 2.1.单循环链表 2.2.双循环链表 三、栈 3.1.顺序栈 1.创建栈 2.判断栈是否满 3.判断栈是否为空 4.进栈 5.出栈…

深度解读SGM41511电源管理芯片I2C通讯协议REG0A寄存器解释

REG0A 是 SGM41511 的第十一个寄存器&#xff0c;地址为 0x0A。这个寄存器包含了只读&#xff08;R&#xff09;和可读写&#xff08;R/W&#xff09;的位。上电复位值&#xff08;PORV&#xff09;为 xxxxxx00&#xff0c;其中 x 表示不确定的初始状态。这个寄存器提供了充电器…

microsoft微软excel或WPS表格打开vivado逻辑分析仪ILA保存的csv文件,自动转换科学计数法损失精度的bug

问题 vivado的逻辑分析仪ILA&#xff0c;可以方便的把数据导出成CSV(Comma-Separated Values)文件&#xff0c;实际是逗号作为分隔符的数据文件。 导出数据文件用文本编辑器打开&#xff0c;第74行有如下数据&#xff1a; 但是使用excel打开这个csv文件&#xff0c;则这个数…

基于Python的机器学习系列(15):AdaBoost算法

简介 AdaBoost&#xff08;Adaptive Boosting&#xff09;是一种提升&#xff08;Boosting&#xff09;算法&#xff0c;旨在通过组合多个弱分类器来提高整体模型的性能。AdaBoost的核心思想是通过加权结合多个表现较弱的分类器&#xff08;通常是深度为1的决策树&#xff0c;称…

Spring Boot Web开发实践:响应参数的使用方法、IOC、DI和Bean基本介绍

主要介绍了SpringBootWeb响应参数的基本使用和spring框架的控制反转&#xff08;IOC&#xff09;和依赖注入&#xff08;DI&#xff09;以及Bean对象的声明、扫描、注入&#xff01;&#xff01;&#xff01; 目录 前言 响应参数 分层解耦 三层架构 分层解耦 IOC & …

MVC与设计模式理解-lnmp学习之路

一、MVC 前言&#xff1a; MVC是一种应用架构模式&#xff0c;也可以说是一种业务架构或是一种应用设计思想&#xff0c;用于组织业务逻辑并分离代码的。 MVC组成结构是Model-View-Controller&#xff0c;Model是管控数据层&#xff0c;View是管控视图层&#xff0c;Controlle…

【Unity-UGUI组件拓展】| ContentSizeFitter 组件拓展,支持设置最大宽高值

🎬【Unity-UGUI组件拓展】| ContentSizeFitter 组件拓展,支持设置最大宽高值一、组件介绍二、组件拓展方法三、完整代码💯总结🎬 博客主页:https://xiaoy.blog.csdn.net 🎥 本文由 呆呆敲代码的小Y 原创,首发于 CSDN🙉 🎄 学习专栏推荐:Unity系统学习专栏 🌲…

图新地球桌面端-给地块贴纹理都是正北方向如何调整

0序 有部分做农保、农业管理的客户&#xff0c;需要结合GIS做一些方案效果&#xff0c;有时候会直接把面对象贴上作物类型的纹理&#xff0c;看上去会比纯色块更好看一些。而又不需要去做复杂的人工建模。 本文的重点是对导入的纹理进行角度调整&#xff0c;让纹理和地块的方向…

UE5开发——射击游戏

1. 枪支拾取动画 创建Text Block 编译保存 在h文件写入 &#xff0c;属性 private:UPROPETY(VisibleAnywhere, Category "Weapon Properties")class UWidgetComponent* PickupWidget; 先写这个&#xff1a; CreateDefaultSubobject<UWidgetComponent>(TEXT(…

JavaWeb——介绍(什么是Web、Web网站的开发模式)、初始Web前端(Web标准、学习内容)

目录 介绍 什么是Web Web网站的开发模式 初识Web前端 Web标准 学习内容 介绍 JavaWeb学习路线 &#xff08;仅用作参考&#xff09; 什么是Web Web&#xff1a;全球广域网&#xff0c;也称为万维网&#xff08;www World Wide Web)&#xff0c;能够通过浏览器访问的…