爬虫实战-Python爬取百度当天热搜内容

news2024/9/24 11:28:50

爬虫实战-Python爬取百度当天热搜内容

  • 学习建议
  • 学习目标
  • 预期内容
  • 目标分解
    • 热搜地址
    • 热搜标题
    • 热搜简介
    • 热搜指数
    • 小总结
  • 代码实现
  • 总结

学习建议

  • 本文仅用于学习使用,不做他用;
  • 本文仅获取页面的内容,作为学习和对Python知识的了解,不会对页面或原始数据造成压力;
  • 请规范文明使用本文内容,请仅作为个人学习参考使用。
  • 本文主要学习了Python爬虫的基础,及常用的几个模块或库的使用,比如BeautifulSoup、request等。

学习目标

  • 获取百度当天的热搜内容,并打印出来;
  • 内容需要包含热搜的标题、热搜简介、以及热搜的指数。

预期内容

  • 输入网址打开百度首页;
  • 进入首页后,点击【百度热搜】,如图:

请在此添加图片描述

  • 进入热搜首页后,点击【热搜】,即当前页面就是我们需要的数据:

请在此添加图片描述

  • 从下图可以看出,一条热搜的内容包含了热搜标题、该热搜的简介,以及热搜的指数,那么这三项内容就是我们最终要的内容:

请在此添加图片描述

目标分解

热搜地址

  • 进入到热搜主界面后,我们查看当前页面的URL,后续需要用到:

https://top.baidu.com/board?tab=realtime

请在此添加图片描述

热搜标题

  • 进入到热搜主页后,我们打开浏览器的F12调试模式;
  • 然后查看这条热搜标题对应的界面的源码;

请在此添加图片描述

  • 通过查看我们看出前两个热搜标题的源码为:
绿我涓滴 会它千顷澄碧
英媒称有人目击凯特现身
  • 从以上可以看出,有一个共同属性是class,剩下的就是标题内容不一样;
  • 通过分析我们用正则表达式来统一识别所有的热搜标题:
(.\*?)

热搜简介

  • 使用以上同样的方法,我们可以看到前两条热搜的简介如下:

请在此添加图片描述

如今兰考发生了翻天覆地的变化,张庄村的老百姓把xx走过的一条路改名为“幸福路”,沿着“幸福路”奔向越来越好的日子...
  • 同样可以使用正则表达式表示下:
(.\*)

热搜指数

  • 使用同样方法我们获取到热搜指数的正则表达式为:

div class=“hot-index_1Bl1a”>(.*?)

小总结

  • 通过以上分析,我们就得到了我们需要重点几个变量:

URL:url = https://top.baidu.com/board?tab=realtime
热搜标题: title = re.compile(r’

(.*?)
‘)
热搜简介:introduction = re.compile(r’
(.*)<a’)
#热搜指数:index = re.compile(r’
(.*?)
')

代码实现

根据以上分析,我们整理下思路:

  • 我们创建一个类TestHotsearch()来组织需要进行的操作;
  • 在类初始化中,把URL、热搜标题、热搜简介、热搜指数四个变量初始化;
  • 创建方法test_html_content()获取热搜页面的html内容;
  • 创建方法test_get_content()获取需要的重点信息;
  • 类实例化后调用对应的方法。

详细代码如下:

from bs4 import BeautifulSoup
import re
import urllib.request, urllib.error


class TestHotsearch():
    def __init__(self):
        # 热搜URL
        self.url = 'https://top.baidu.com/board?tab=realtime'
        # 热搜标题
        self.title = re.compile(r'<div class="c-single-text-ellipsis">(.*?)</div>')
        # 热搜简介
        self.introduction = re.compile(r'<div class="hot-desc_1m_jR small_Uvkd3 ellipsis_DupbZ">(.*)<a')
        # 热搜指数
        self.index = re.compile(r'<div class="hot-index_1Bl1a">(.*?)</div>')
        # 所有热搜条目
        self.all_content = "category-wrap_iQLoo horizontal_1eKyQ"


    def test_html_content(self):
        """
        获取热搜页面的html内容
        :return:
        """
        header = {
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36"
        }
        request = urllib.request.Request(self.url, headers = header)
        html_content = ""
        try:
            response = urllib.request.urlopen(request)
            html_content = response.read().decode("utf-8")
        except urllib.error.URLError as e:
            if hasattr(e, "code"):
                print(e.code)
            if hasattr(e, "reason"):
                print(e.reason)
        return html_content.encode('gbk', 'ignore').decode('gbk')

    def test_get_content(self):
        """
        获取需要的重点信息
        :return:
        """
        # 获取html内容
        html = self.test_html_content()
        # 定义一个空列表保存要获取的信息
        data_info = []
        content = BeautifulSoup(html, "html.parser")
        for name in content.find_all('div', class_=self.all_content):
            data = []
            name_str = str(name)
            title = re.findall(self.title, name_str)
            data.append(title)
            introduction = re.findall(self.introduction, name_str)
            data.append(introduction)
            index = re.findall(self.index, name_str)
            data.append(index)
            data_info.append(data)
        return data_info


if __name__ == "__main__":
    hot_search = TestHotsearch()
    get_content = hot_search.test_get_content()
    print(f"获取到信息如下:{get_content}")
  • 部分输出内容如下:

获取到信息如下:[[[’ 心系这门“关键课程” ‘], [], [’ 4932922 ‘]], [[’ 三只羊就梅菜扣肉事件致歉 ‘], [], [’ 4991528 ‘]], [[’ 女子山顶徒手攀爬石头手滑摔下 ‘], [], [’ 4816630 ‘]], [[’ 春分将至农事忙 ‘], [], [’ 4790902 ']],…

总结

Python主要是简单的爬虫实战,步骤清晰,容易理解和入门。建议最好用自己本地环境测试,仅供学习参考,请勿做其他用途。重点是学习Python正则表达式的应用,python的BeautifulSoup、request模块的使用等。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1534238.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

如何使用Net2FTP+cpolar搭建专属文件共享站点并实现无公网IP远程访问——“cpolar内网穿透”

文章目录 1.前言2. Net2FTP网站搭建2.1. Net2FTP下载和安装2.2. Net2FTP网页测试 3. cpolar内网穿透3.1.Cpolar云端设置3.2.Cpolar本地设置 4.公网访问测试5.结语 1.前言 文件传输可以说是互联网最主要的应用之一&#xff0c;特别是智能设备的大面积使用&#xff0c;无论是个人…

MySQL高级学习笔记

1、MySQL架构组成 1.1 高级MySQL介绍 什么是DBA&#xff1f; 数据库管理员&#xff0c;英文是Database Administrator&#xff0c;简称DBA&#xff1b; 百度百科介绍 数据库管理员&#xff08;简称DBA&#xff09;&#xff0c;是从事管理和维护数据库管理系统&#xff08;D…

ISIS骨干网连续性简述

默认情况下&#xff0c; 一、L1路由器是ISIS 普通区域内部路由器&#xff0c;只能与L1和L1-2路由器建立邻接关系&#xff0c;不能与L2路由器建立邻接关系。 二、L2路由器是骨干区域的路由器&#xff0c;L2路由器只能与其他 L2路由器同处一个区域&#xff0c;可与本区域的L2路由…

分布式系统的基本特性

一般&#xff0c;分布式系统需要支持以下特性&#xff1a; 资源共享 开放性 并发性 可伸缩性 容错性 透明性 下面分别讨论。 容易理解的 资源共享 一旦授权&#xff0c;可以访问环境中的任何资源。 资源&#xff1a;包括硬件(e.g. printer, scanner, camera)、软件&a…

MYSQL 同步到ES 如何设计架构保持一致性

简单使用某个组件很容易&#xff0c;但是一旦要搬到生产上就要考虑各种各样的异常&#xff0c;保证你方案的可靠性&#xff0c;可恢复性就是我们需要思考的问题。今天来聊聊我们部门在 MYSQL 同步到ES的方案设计。 在面对复杂条件查询时&#xff0c;MYSQL往往显得力不从心&…

机器视觉学习(六)—— 图像的颜色识别

目录 一、色彩空间 1.1 RGB色彩空间 1.2 HSV色彩空间 1.3 灰度 1.4 CMYK色彩空间 1.5 Lab色彩空间 二、色彩空间转换 三、识别颜色 3.1 识别一种特定的颜色 3.2 识别多种颜色 一、色彩空间 计算机视觉中常用的色彩空间有RGB色彩空间、HSV色彩空间、CMYK色彩空间、La…

windows DCMTK编译使用(qt) 医学图像

由于项目需要生成DICOM格式的图片&#xff0c;需要使用到第三方开源库DCMTK&#xff0c;于是研究了一番&#xff0c;该库是C编写的&#xff0c;DICOM主要用于医疗体系中&#xff0c;除了可以保存图片信息外&#xff0c;还可以储存患者信息&#xff0c;病例信息&#xff0c;医疗…

如何修复WordPress网站媒体库上传文件失败的问题

公司最近推出了一系列新产品&#xff0c;为了更新网站的视频和图片&#xff0c;我们需要将它们上传至网站媒体库。然而&#xff0c;在上传视频时&#xff0c;我们却遇到了一些问题。系统提示说&#xff0c;我们尝试上传的视频文件大小超出了站点的最大上传限制。尽管我们的视频…

vue3中使用cesium

vue3中使用cesium Cesium是一个开源的JavaScript库&#xff0c;专门用于创建3D地球和2D地图的Web应用程序。它提供了丰富的功能和工具&#xff0c;使得开发人员能够轻松地构建出高质量的地理空间可视化应用。 1. 安装cesium包 npm install cesium2. 复制node_modules中的Ces…

Java IO流(超详细!)上篇

目录 一、File类1、操作文件和目录 二、I/O流概述1、按流向划分&#xff1a;输入流和输出流2、按处理单元划分&#xff1a;字节流和字符流3、按流的角色划分&#xff1a;节点流和处理流 三、字节流1、字节输出流基类&#xff1a;OutputStream2、字节输出流FileOutputStream类3、…

通过fail2ban服务监控frps日志实现禁止非法IP

前言 服务器使用了frp作为了内网穿透软件&#xff0c;查看frps的日志&#xff0c;发现总有一些国外的ip在扫描这台服务器的端口信息&#xff0c;日志如下图&#xff0c;所以想通过fail2ban服务能够直接禁用这些ip扫描服务器。 1、安装fail2ban服务 yum install -y fail2ban2、…

rpc详解rpc框架

文章目录 概述rpc的优点组件工作流程&RPC的底层原理RPC的底层原理 RPC框架rpc框架优点RPC 的实现基础RPC的应用场景RPC使用了哪些关键技术rpc 调用异常一般怎么处理rpc和http的区别为什么RPC要比HTTP更快一些Dubbo和openfeign 区别远程调用RPC框架传输协议传输速度 概述 在…

解决idea粘贴空格时显示NBSP的问题并且在Registry中找不到editor.show.special.chars

1、解决java 复制代码NBSP问题 参考文章 原因&#xff1a;2020.2版本以后无法找到以上的选项来解决问题&#xff1b;之后的版本这个选项换地方了 解决办法&#xff1a;在设置中找到Advanced Settings&#xff0c;把Render special characters前面的对勾取消掉就好了。

CTF-辨别细菌

题目描述&#xff1a;try your best to find the flag. 进入靶场后发现是一个游戏&#xff0c;需要全部答对才可以得到最后的flag 查看了一下源码&#xff0c;发现有一个答案模板的模块 尝试解释一下代码 <!-- 答案模版 --> <script id"template_game_pi…

HarmonyOS ArkTS 开发基础/语言

目录 一、ArkUI (方舟开发框架) 概述 1.1 基本概念 1.2 两种开发范式 1.3 不同应用类型支持的开发范式 二、ArkTS 声明式开发范式 2.1 开发能力 2.2 整体架构 三、ArkTS 基础类型 3.1 Any 类型 3.2 数字类型 3.3 字符串类型 3.4 布尔类型 3.5 联合类型 3.6 数组类…

GPT2从放弃到入门(二)

引言 本文介绍如何利用GPT2从零训练一个多轮对话聊天机器人&#xff0c;按照本文的思路可以轻松地训练自己的数据。 数据处理 ⚠️ 这是本文的核心部分&#xff0c;其他的内容甚至可以不用看。 本小节阐述多轮对话数据的处理。 数据来自网上的一份开源数据&#xff1a;htt…

基于springboot的留守儿童爱心网站

技术&#xff1a;springbootmysqlvue 一、系统背景 现代社会&#xff0c;由于经济不断发展&#xff0c;旧物捐赠的数量也在不断的增加&#xff0c;人们对留守儿童爱心信息的需求也越来越高。 以往的留守儿童爱心的管理&#xff0c;一般都是纸质文件来管理留守儿童爱心信息&am…

堆(详解+例题)

一、定义 维护一个数据集合&#xff0c;堆是一个完全二叉树。 那么什么是二叉树呢&#xff1f; 如图&#xff1a; 二、关于小根堆实现 性质&#xff1a;每个根节点都小于等于左右两边&#xff0c;所以树根为最小值。 2.1、堆存储&#xff08;用一维数组来存&#xff09; 记住…

C# 设置AutoScroll为true没效果的原因分析和解决办法

C#中添加tabControl 分页&#xff0c;将autoscroll设置为true发现缩小窗口没有滚动条效果。该问题出现后&#xff0c;检索发现也有很多人询问了该问题&#xff0c;但是都没有给出解决方案。 原因是内部button的属性Anchor设置为top、left、right、bottom导致的缩小界面窗口也没…

浅谈C++20 协程那点事儿

协程概念 先介绍一点协程的概念&#xff0c;如果你已经理解和掌握了相关的背景知识就可以跳过这个章节&#xff08;或者快速浏览下&#xff0c;也许我们有些观念不一致可以讨论&#xff09;。这里我想稍微聊的深入一点&#xff0c;这涉及到入门后遇到复杂的协程问题时能不能正…