爬取豆瓣电影top250的电影名称(完整代码与解释)

news2024/7/6 19:47:11

在爬取豆瓣电影top250的电影名称之前,需要在安装两个第三方库requests和bs4,方法是在终端输入:

pip install requests


pip install bs4

截几张关键性图片:

豆瓣top250电影网页

运行结果

 测试html文件标签的各个方法的作用:

# import requests

# response = requests.get("https://movie.douban.com/top250")

# print(response)


import requests
#引入模块 requests

from bs4 import BeautifulSoup 
# 从模块bs4中引入类 BeautifulSoup
# beautifulsoup4 是一个可以从HTML,XML文件中提取数据的库
# beautifulsoup:是一个解析器,可以特定的解析出内容,省去了我们编写正则表达式的麻烦。

headers = {
    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:121.0) Gecko/20100101 Firefox/121.0"
}

# User-Agent:它是一个特殊的字符串头,可以使服务器识别客户使用的操作系统及版本,浏览器及版本等信息,在做爬虫时加上此信息,
# 可以伪装成浏览器;如果不加很可能被识别出为爬虫

# 由于豆瓣不对程序进行回应,故要伪装成浏览器进行请求,方法是在浏览器中随便打开一个网页,右击鼠标,点击
# 检查,出现页面后,刷新一下网页,随便点击一个请求报文,查看"User-Agent":后面的信息,并且复制该信息到
# headers中的"User-Agent":后,这就可以伪装成浏览器发送的请求

        
response = requests.get(f"https://movie.douban.com/top250", headers = headers)
    
#     requests的get方法返回的是一个包含服务器资源的Response对象,包含了从服务器返回的所有的相关资源。
#     response响应的属性:
#     response.status_code 响应的状态码
#     response.headers:响应头信息
#     response.encoding 编码格式信息
#     response.cookies cookies信息
#     response.url 响应的url信息
#     response.text 文本类型,通常是html文本
#     response.content bytes型也就是二级制数据,如图片/视频/音频等

print(response)
print(response.status_code)

    #print(response.text)

html = response.text
soup = BeautifulSoup(html, "html.parser")
#     soup=beautifulsoup(解析内容,解析器)
#     常用解析器:html.parser,lxml,Xml,html5lib

# [BeautifulSoup默认支持Pythonl的标准HTML解析库,但是它也支持一些第三方的解析库:如图]
# (https://s2.51cto.com/images/blog/202104/05/d369a62192f243f59879d10173b68e86.png?x-oss-process=image/format,webp)

all_titles = soup.find_all("span", attrs = {"class" : "title"})
#     打开https://movie.douban.com/top250页面,右击鼠标点击检查,点击左上角的箭头指标,点击网页中的电影名,可以发现在html文件
#         中对应的电影名被 span标签包裹住了,并且名字前面有一个键值对 "class" = "title";
    
#     使用find和find_all方式
#     find(name,attrs,recursive,text,**kwargs)
#         根据参数来找出对应的标签,但只返回第一个符合条件的结果。
#     find_all(name, attrs, recursive, text, **kwargs)
#         根据参数来找出对应的标签,但只返回所有符合条件的结果。
#     BeautifulSoup对象的find_all()方法返回的是一个由匹配的标签元素组成的列表。如果没有匹配的元素,返回一个空列表
    
#     筛选条件参数介绍:
#     name:为标签名,根据标签名来筛选标签
#     attrs:为属性,根据属性键值对来筛选标签,赋值方式可以为:属性名=值,attrs={属性名:值}(但由于class是python关键字,需要使用class_)
#     text:为文本内容,根据指定文本内容来筛选出标签,单独使用text作为筛选条件,只会返回text,所以一般与其他条件配合使用.
#     recursive:指定筛选是否递归,当为Falsel时,不会在子结点的后代结点中查找,只会查找子结点。

cnt = 0;
for title in all_titles:
    print(title, "title")
    print(title.name, "标签名")
    print(title.text, "text")
    print(title.string, "string")
    print(title.get_text(), "get_text()")
    print(title.attrs, "全部属性")
    print("")
    title_string = title.string
    cnt += 1
    if(cnt >= 3):
        break
    
    #由于all_titles 是find_all的返回内容,他是一个列表,列表中的每个元素就是html文件中的一行,就相当于一个标签

# 一.使用标签名查找

#     1)使用标签名来获取结点:
#         Soup.标签名

#     2)使用标签名来获取结点标签名(这个重点是name,主要用于非标签名式筛选时,获取结果的标签名):
#         soup.标签.name

#     3)使用标签名来获取结点属性:
#         soup.标签.attrs(获取全部属性)
#         soup.标签.attrs[属性名](获取指定属性)
#         soup.标签[属性名](获取指定属性)
#         soup.标签.get(属性名)
    
# 二.使用标签名来获取结点的文本内容:
#     soup.标签.text
#     soup.标签.string
#     soup.标签.get text()

#     if "/" not in title_string:
#         print(title_string)
            
#         由于我们只想要电影中文名,所以我们将不符合条件的字符串不打印出来,
#         打开https://movie.douban.com/top250页面,右击鼠标点击检查,点击左上角的箭头指标,点击网页中的电影名,可以发现在html文件
#         中对应的电影名被 span标签包裹住了,并且名字前面有一个键值对 "class" = "title",不难发现,就在中文电影名的下面有一个原版的
#         电影名,或者英文,或者其他国家的语言,但是我们不想要,再仔细观察会发现原版电影名前有一个字符 '/',而中文电影名没有字符'/';
#         所以可以用一个if 语句判断是否打印字符;

二。爬取豆瓣电影top250的电影名称完整代码与解析:

解释全在代码中:

import requests
#引入模块 requests
# requests模块作用,发送http请求,获取响应数据

from bs4 import BeautifulSoup 
# 从模块bs4中引入类 BeautifulSoup
# beautifulsoup4 是一个可以从HTML,XML文件中提取数据的库
# beautifulsoup:是一个解析器,可以特定的解析出内容,省去了我们编写正则表达式的麻烦。

headers = {
    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:121.0) Gecko/20100101 Firefox/121.0"
}

# User-Agent:它是一个特殊的字符串头,可以使服务器识别客户使用的操作系统及版本,浏览器及版本等信息,在做爬虫时加上此信息,
# 可以伪装成浏览器;如果不加很可能被识别出为爬虫

# 由于豆瓣不对程序进行回应,故要伪装成浏览器进行请求,方法是在浏览器中随便打开一个网页,右击鼠标,点击
# 检查,出现页面后,刷新一下网页,随便点击一个请求报文,查看"User-Agent":后面的信息,并且复制该信息到
# headers中的"User-Agent":后,这就可以伪装成浏览器发送的请求


for start_num in range(0, 250, 25):
    response = requests.get(f"https://movie.douban.com/top250?start={start_num}", headers = headers)
    # 由于一个页面只展示25个电影,所以要爬取250个电影名字要爬取多个页面,用一个for循环结合range函数便可实现;
    
    if(start_num == 0):
        print(response.status_code, "status_code")
        print(response.headers, "headers")
        print(response.encoding, "encoding")
        print(response.cookies, "cookies")
        print(response.url, "url")
 #       print(response.text, "text")   #text 和 content信息太多,暂时不打印
 #       print(response.content, "content")
    
#     requests的get方法返回的是一个包含服务器资源的Response对象,包含了从服务器返回的所有的相关资源。
#     response响应的属性:
#     response.status_code 响应的状态码
#     response.headers:响应头信息
#     response.encoding 编码格式信息
#     response.cookies cookies信息
#     response.url 响应的url信息
#     response.text 文本类型,通常是html文本
#     response.content bytes型也就是二级制数据,如图片/视频/音频等

    print(response , "这是什么")
    #response本身是Response对象,并包含返回状态码,Response对象含有从服务器返回的所有的相关资源。

    html = response.text
    soup = BeautifulSoup(html, "html.parser")
#     soup=beautifulsoup(解析内容,解析器)
#     常用解析器:html.parser,lxml,Xml,html5lib

# [BeautifulSoup默认支持Pythonl的标准HTML解析库,但是它也支持一些第三方的解析库:如图]
# (https://s2.51cto.com/images/blog/202104/05/d369a62192f243f59879d10173b68e86.png?x-oss-process=image/format,webp)

#    all_titles = soup.find_all("span", attrs = {"class" : "title"})
    all_titles = soup.findAll("span", attrs = {"class" : "title"})
#这两句find函数都可行
        
        
#     打开https://movie.douban.com/top250页面,右击鼠标点击检查,点击左上角的箭头指标,点击网页中的电影名,可以发现在html文件
#         中对应的电影名被 span标签包裹住了,并且名字前面有一个键值对 "class" = "title";
    
#     使用find和find_all方式
#     find(name,attrs,recursive,text,**kwargs)
#         根据参数来找出对应的标签,但只返回第一个符合条件的结果。
#     find_all(name, attrs, recursive, text, **kwargs)
#         根据参数来找出对应的标签,但只返回所有符合条件的结果。
#     BeautifulSoup对象的find_all()方法返回的是一个由匹配的标签元素组成的列表。如果没有匹配的元素,返回一个空列表
    
#     筛选条件参数介绍:
#     name:为标签名,根据标签名来筛选标签
#     attrs:为属性,根据属性键值对来筛选标签,赋值方式可以为:属性名=值,attrs={属性名:值}(但由于class是python关键字,需要使用class_)
#     text:为文本内容,根据指定文本内容来筛选出标签,单独使用text作为筛选条件,只会返回text,所以一般与其他条件配合使用.
#     recursive:指定筛选是否递归,当为Falsel时,不会在子结点的后代结点中查找,只会查找子结点。

    for title in all_titles:
        title_string = title.string 
        # 提取为字符串
        
    #由于all_titles 是find_all的返回内容,他是一个列表,列表中的每个元素就是html文件中的一行,就相当于一个标签

# 一.使用标签名查找

#     1)使用标签名来获取结点:
#         Soup.标签名

#     2)使用标签名来获取结点标签名(这个重点是name,主要用于非标签名式筛选时,获取结果的标签名):
#         soup.标签.name

#     3)使用标签名来获取结点属性:
#         soup.标签.attrs(获取全部属性)
#         soup.标签.attrs[属性名](获取指定属性)
#         soup.标签[属性名](获取指定属性)
#         soup.标签.get(属性名)
    
# 二.使用标签名来获取结点的文本内容:
#     soup.标签.text
#     soup.标签.string
#     soup.标签.get text()

        if "/" not in title_string:
            print(title_string)
            
#         由于我们只想要电影中文名,所以我们将不符合条件的字符串不打印出来,
#         打开https://movie.douban.com/top250页面,右击鼠标点击检查,点击左上角的箭头指标,点击网页中的电影名,可以发现在html文件
#         中对应的电影名被 span标签包裹住了,并且名字前面有一个键值对 "class" = "title",不难发现,就在中文电影名的下面有一个原版的
#         电影名,或者英文,或者其他国家的语言,但是我们不想要,再仔细观察会发现原版电影名前有一个字符 '/',而中文电影名没有字符'/';
#         所以可以用一个if 语句判断是否打印字符;

参考文献:

爬虫基础篇_headers = {'user-agent': 'mozilla/5.0 (windows nt -CSDN博客

python爬虫之Beautifulsoup模块用法详解_51CTO博客_python爬虫模块

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1354900.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Midjourney】AI绘画新手教程(一)登录和创建服务器,生成第一幅画作

一、登录Discord 1、访问Discord官网 使用柯學尚网(亲测非必须,可加快响应速度)访问Discord官方网址:https://discord.com 选择“在您的浏览器中打开Discord” 然后,注册帐号、购买套餐等,在此不做缀述。…

OpenCV-Python(23):傅里叶变换

原理 傅里叶变换是一种数学变换,用于将一个函数(在图像处理中通常是图像)从时域(空域)转换到频域。它将函数表示为一系列正弦和余弦函数的和,用于分析信号的频率和相位信息。 傅里叶变换的原理是将一个连续…

四则运算 C语言xdoj20

问题描述: 输入两个整数和一个四则运算符,根据运算符计算并输出其运算结果(和、差、积、商、余之一)。注意做整除及求余运算时,除数不能为零。 输入说明: 使用scanf()函数输入两个整数和一个运算符&#xf…

界面控件DevExpress Blazor Grid v23.2 - 支持全新的单元格编辑模式

DevExpress Blazor UI组件使用了C#为Blazor Server和Blazor WebAssembly创建高影响力的用户体验,这个UI自建库提供了一套全面的原生Blazor UI组件(包括Pivot Grid、调度程序、图表、数据编辑器和报表等)。 在这篇文章中,我们将介…

扎心!圣诞礼物含“毒”量极高,当心惊喜变惊吓!

圣诞快乐? 近日,亚信安全截获多起以“圣诞礼物”为钓鱼邮件的间谍木马病毒,名为RedLine。 RedLine通常是通过钓鱼邮件或挂马网站进行传播。钓鱼邮件更多的是利用社会工程学,“蹭热点”、节日祝福和节日福利是攻击者经常使用的社工…

【Echarts实践案例】如何在线图上标记一个非轴线上的点

需求背景: 当前有一个趋势图,横坐标表示灯泡平均使用时长,纵坐标表示灯泡平均使用温度。现在需要在当前坐标系下标记一个正在使用中的灯泡的时长及温度(趋势图表示的是计算出的平均温度,所以当前灯泡的温度可能不会在…

python pillow(PIL)库使用介绍

Python 图像库向 Python 解释器添加了图像处理功能。 该库提供了广泛的文件格式支持、高效的内部表示和相当强大的图像处理功能。 核心图像库旨在快速访问以几种基本像素格式存储的数据。它应该为通用图像处理工具提供坚实的基础。 概述 Python 图像库将图像处理功能添加到…

git(安装,常用命令,分支操作,gitee,IDEA集成git,IDEA集成gitee,IDEA集成github,远程仓库操作)

文章目录 1. Git概述1.1 何为版本控制1.2 为什么需要版本控制1.3 版本控制工具1.4 Git简史1.5 Git工作机制1.6 Git和代码托管中心 2. Git安装3. Git常用命令3.1 设置用户签名3.1.1 说明3.1.2 语法3.1.3 案例实操 3.2 初始化本地库3.2.1 基本语法3.2.2 案例实操3.2.3 结果查看 3…

Maple 各版本安装指南

Maple 下载链接 https://pan.baidu.com/s/11hKo1XxZGa0xv3Ivj6fbEA?pwd0531 1.鼠标右击【Maple 2023】压缩包(win11及以上系统需先点击“显示更多选项”)【解压到 Maple 2023】。 2.打开解压后的文件夹,鼠标右击【Setup】选择【以管理员身…

嵌入式系统(二)单片机基础 | 单片机特点 内部结构 最小系统 电源 晶振 复位

上一篇文章我们介绍了嵌入式系统 嵌入式系统(Embedded System)是一种特定用途的计算机系统,它通常嵌入在更大的产品或系统中,用于控制、监测或执行特定的任务。这些系统通常由硬件和软件组成,旨在满足特定的需求&…

【REST2SQL】04 REST2SQL第一版Oracle版实现

REST2SQL的第一个版本,只支持Oracle数据库,以后会逐步加入其它数据看的支持。 项目文件组织如下: 1 REST2SQL为项目主目录 主控main()函数、请求日志函数、请求响应函数、请求参数返回函数在此目录。 1.1 import引用包 import ("e…

在IDEA中按照默认提示安装Lua脚本插件后,IDEA启动报错【解决方案】

在IDEA中按照默认提示安装Lua脚本插件后,再次重启IDEA就报错了,下面是报错信息: 简单来说就是Lua插件冲突了,因为我勾选了三个,只要其中一个就够了(删了其他两个),在IDEA的安装目录…

现在的人们如何看待数据隐私?

PrimiHub一款由密码学专家团队打造的开源隐私计算平台,专注于分享数据安全、密码学、联邦学习、同态加密等隐私计算领域的技术和内容。 在当前时代,每一次点击、触摸或按键都留下了数字痕迹。但是我们对自己的个人数据几乎没有控制的权限,这让…

简单聊聊大力发展国产堡垒机的几个原因

我们大家都知道堡垒机起源于国外,但近些年我国在大力发展国产堡垒机,这是为什么呢?相信还有很多小伙伴对于这个问题不是很了解,今天我们大家一起就来简单聊聊大力发展国产堡垒机的几个原因。 简单聊聊大力发展国产堡垒机的几个原…

【XR806开发板试用】+00. Win11环境下安装docker环境

很幸运得到XR806开发板的试用机会,在此深深感谢主办方给菜鸟一个机会。 之前开发的芯片主要是STM32、GD32之类的芯片,都是基于win环境的集成环境。现在拿到这块开发板感觉无从下手,就从安装docker环境开始,慢慢更新xr806的开发之…

移动神器RAX3000M路由器变身家庭云之四:开放LuCI管理界面,网站服务

前面已经改造成了家庭云供外网访问了。由于这个路由本来就是openwrt,openwrt本身的管理界面LuCI-admin很好用,但被屏蔽了,需要打开。 打开界面 ssh登录路由器,修改 /etc/config/uhttpd配置文件如下: config uhttpd …

基于Java SSM框架实现固定资产管理系统项目【项目源码+论文说明】计算机毕业设计

基于java的SSM框架实现固定资产管理系统演示 摘要 21世纪的今天,随着社会的不断发展与进步,人们对于信息科学化的认识,已由低层次向高层次发展,由原来的感性认识向理性认识提高,管理工作的重要性已逐渐被人们所认识&a…

C#:如何产生一个临时文件

在我们实际编程中,经常有将内容写到一个临时文件的需要。 比如:将网络上的图片下载下来,获取到图片的一些信息。 代码如下,看结果可知: 临时文件都是保存在系统临时文件夹的目录下,临时文件的扩展名统一…

uniCloud 的 schema2code 【实用教程】

schema2code 用于通过 schema 文件,自动生成对表进行增删改查的操作页面。 以 uniCloud-aliyun/database/todo.schema.json 为例 {"bsonType": "object","required": [],"permission": {"read": true,"cr…