python爬虫概述及简单实践:获取豆瓣电影排行榜

news2025/1/17 5:51:16

目录

前言

Python爬虫概述

简单实践 - 获取豆瓣电影排行榜

1. 分析目标网页

2. 获取页面内容

3. 解析页面

4. 数据存储

5. 使用代理IP

总结


前言

Python爬虫是指通过程序自动化地对互联网上的信息进行抓取和分析的一种技术。Python作为一门易于学习且强大的编程语言,因其拥有丰富的第三方库和强大的数据处理能力,使得它成为了爬虫开发中的最佳选择。本文将简单介绍Python爬虫的概述,并提供一个简单的实践案例,同时会使用代理IP来提高爬虫的效率。

Python爬虫概述

Python爬虫由三个部分组成:网页下载、网页解析、数据存储。

  • 网页下载:从互联网上获取需要的数据,通常使用requests库或urllib库来实现
  • 网页解析:将下载下来的网页进行处理,提取出需要的信息,常见的解析库有BeautifulSoup和xpath等
  • 数据存储:将获取到的数据存储到文件、数据库等中,通常使用sqlite、MySQL等数据库或者csv、json等文件格式

简单实践 - 获取豆瓣电影排行榜

下面将通过一个简单的实践来讲解Python爬虫的应用。

1. 分析目标网页

首先打开浏览器,访问[豆瓣电影排行榜](https://movie.douban.com/chart),观察页面,我们会发现电影排行榜的信息都在HTML的table标签中,并且每个电影信息都是一个tr标签。每个电影信息包括电影名称、评分、导演、演员、链接等等。因此,我们需要使用Python程序来获取这些电影的信息。

2. 获取页面内容

网页下载是爬虫的第一步,我们使用Python的requests库来获取目标网页的HTML代码。代码如下:

import requests

url = 'https://movie.douban.com/chart'
user_agent = 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'
headers = {'User-Agent': user_agent}

r = requests.get(url, headers=headers)
if r.status_code == 200:
    html = r.text

这里我们设置了请求头,模拟浏览器的请求,以免被目标网站认为是爬虫而禁止访问。

3. 解析页面

我们使用Python的BeautifulSoup库来解析页面。该库提供了一种非常方便的方式来操作HTML和XML文档,能够方便地获取特定元素、属性和文本等信息。我们首先使用lxml解析器将HTML代码转换成BeautifulSoup对象,然后根据标签和属性的CSS选择器来遍历HTML文档并提取需要的内容。代码如下:

from bs4 import BeautifulSoup

soup = BeautifulSoup(html, features="lxml")
table = soup.find("table", {"class": "ranking-list"})
tbody = table.find("tbody")
trs = tbody.findAll("tr")

movies = []
for tr in trs:
    td_name = tr.find("td", {"class": "titleColumn"})
    name = td_name.find("a").text
    rating = tr.find("span", {"class": "rating_num"}).text
    director = td_name.find("div", {"class": "bd"}).find_all("p")[0].text
    actors = td_name.find("div", {"class": "bd"}).find_all("p")[1].text
    link = td_name.find("a")["href"]
    movie = {"name": name, "rating": rating, "director": director, "actors": actors, "link": link}
    movies.append(movie)

for movie in movies:
    print(movie)

这里我们使用find()方法来查找特定的标签和属性,并使用text属性来获取标签中的文本。需要注意的是,如果标签不存在或者不存在某个属性,那么会返回None,因此需要进行一定的判断和处理。

4. 数据存储

最后,我们将获取到的电影信息保存到CSV文件中。代码如下:

import csv

filename = 'movies.csv'
with open(filename, 'w', newline='', encoding='utf-8') as f:
    writer = csv.writer(f)
    writer.writerow(['电影名', '评分', '导演', '演员', '链接'])
    for movie in movies:
        writer.writerow([movie['name'], movie['rating'], movie['director'], movie['actors'], movie['link']])

使用csv库的writerow()方法将电影信息逐行写入CSV文件中。

5. 使用代理IP

有些网站会对爬虫程序进行限制,例如设置访问频率限制、封禁IP等操作。因此,我们需要使用代理IP来解决这一问题。代理IP可以让我们通过代理服务器来访问目标网站,从而提高访问速度和安全性。

我们可以通过一些免费的代理IP网站来获取代理IP,例如站大爷代理ip、开心代理等。代码如下:

import requests

url = 'https://movie.douban.com/chart'
user_agent = 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'
headers = {'User-Agent': user_agent}

proxy_url = 'https://www.zdaye.com//'
proxy_headers = {'User-Agent': user_agent}

proxies = []
r = requests.get(proxy_url, headers=proxy_headers)
if r.status_code == 200:
    soup = BeautifulSoup(r.text, features="lxml")
    table = soup.find("table", {"id": "ip_list"})
    tbody = table.find("tbody")
    trs = tbody.findAll("tr")
    for tr in trs:
        tds = tr.find_all('td')
        if len(tds) > 6 and tds[5].text == 'HTTP':
            ip = tds[1].text + ':' + tds[2].text
            proxies.append(ip)

for proxy in proxies:
    try:
        print('Using proxy:', proxy)
        proxy_dict = {'http': 'http://' + proxy, 'https': 'https://' + proxy}
        r = requests.get(url, headers=headers, proxies=proxy_dict, timeout=5)
        if r.status_code == 200:
            html = r.text
            break
    except:
        continue

这里我们定义一个proxies列表来保存获取到的代理IP,然后遍历该列表中的每个代理IP进行访问。如果某个代理IP无法访问,则使用下一个代理IP进行访问,直到访问到目标网页为止。需要注意的是,如果代理IP无法使用或者响应时间过长,需要考虑使用其他IP或者增加超时时间。

总结

Python爬虫是一种非常有用的技术,通过Python程序自动化地获取互联网上的数据,为我们带来了许多便利。在实践中,我们需要注意遵守法律法规和爬虫道德规范,以避免产生不良后果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1215872.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

mysql数据模型

创建数据库 命令 create database hellox : ( hellox名字) sql语句 创建 数据库 命令 create database hell; 也是创建但是有数据库不创建 命令 create database if not exists hell ; 切换数据库 命令 use hello&…

Facebook内容的类型

随着人们日益依赖的社交媒体来进行信息获取与交流,Facebook作为全球最大的社交媒体平台之一,那么Facebook的内容都有哪些类型呢?下面小编来讲讲吧! 1、实时发生的事 我们需要实时了解时事动态,这样可以使用户对品牌发…

android PopupWindow设置

记录一个小功能,使用场景,列表项点击弹出 如图: java类代码: public class PopupUtil extends PopupWindow {private Activity context;private View view;private ListView listView;private TextView m_tv_reminderm, m_tv_Wa…

React-Router源码分析-History库

history源码 history 在 v5 之前使用单独的包, v6 之后再 router 包中单独实现。 history源码 Action 路由切换的动作类型,包含三种类型: POPREPLACEPUSH Action 枚举: export enum Action {Pop "POP",Push &quo…

BI 数据可视化平台建设(2)—筛选器组件升级实践

作者:vivo 互联网大数据团队-Wang Lei 本文是vivo互联网大数据团队《BI数据可视化平台建设》系列文章第2篇 -筛选器组件。 本文主要介绍了BI数据可视化平台建设中比较核心的筛选器组件, 涉及组件分类、组件库开发等升级实践经验,通过分享一些…

Redis分布式锁(上)

不论面试还是实际工作中,Redis都是避无可避的技术点。在我心里,MySQL和Redis是衡量一个程序员是否“小有所成”的两把标尺。如果他能熟练使用MySQL和Redis,以小化大,充分利用现有资源出色地完成当下需求,说明他已经成长…

性能测试知多少---系统架构分析

之前有对性能需求进行过分析,那篇主要从项目业务、背景等角度如何抽丝剥茧的将项目的需求抽离出来。在我们进行需求的时候也需要对被测项目的架构有一定的认识,如果不了解被测系统的架构,那么在后期的性能分析与调优阶段将无从下手。 简单系…

亚马逊EC2服务器搭建Linux系统宝塔环境

目录 📝摘要 💡引言 一. 购买亚马逊服务器EC2 二. 安装Linux系统 三. 在终端安装宝塔 3.1 安装宝塔 3.2安装成功 四. 配置宝塔 五 应用场景 六 代码案例演示 七 为什么选择亚马逊EC2服务器部署? 💪 可靠性和高可用性 灵…

jff2文件系统(一)

jff2概述 JFFS2全称jouranlling Flash File System Version2,即日志文件系统,是Redhat公司开发的开源闪存文件系统,其前身是JFFS, 最早只支持NOR Flash, 自2.6版以后开始支持NAND Flash, 在闪存上使用非常广泛,同时在嵌入式系统中…

ChatGPT Plus暂停注册,用户激增压力太大!

11月15日,OpenAI联合创始人兼首席执行官Sam Altman在社交平台宣布,暂停ChatGPT Plus注册。 Sam表示,在首次开发者大会上发布了自定义GPT、GPT-4 Turbo等一系列重磅产品后,用户激增对服务器产生了巨大压力,不得已才做出…

Java 各种工具类的使用方法

1. 属性拷贝 属性名词和类型相同才能拷贝 import org.springframework.beans.BeanUtils; BeanUtils.copyProperties(dto,wmNews); //dto, wmNews 是两个实体类 dto为源对象,wmNews为目标对象2. list集合转换为string类型 import org.apache.commons.lang3.String…

分布式教程从0到1【1】分布式基础

1 分布式基础概念 1.1 微服务 微服务架构风格,就像是把一个单独的应用程序开发为一套小服务,每个小服务运行在自己的进程中,并使用轻量级机制通信,通常是 HTTP API。这些服务围绕业务能力来构建,并通过完全自动化部署…

ECRS工时分析软件:全面提升生产效率和产能管理的利器

在当今高度竞争的商业环境中,企业需要不断提升生产效率和产能管理以保持竞争优势。ECRS工时分析软件作为一款专业的工具,通过自动导出各种表格和图表,全面涵盖了生产过程中的各种分析和改善活动,为企业提供了提升生产效率和产能管…

数据库.创建表

创建表结构 -- 创建表结构create table tb_user(id int comment ID,唯一标识,username varchar(20) comment 用户名,name varchar(10) comment 姓名,gae int comment 年龄,gender char(1) comment 性别)comment 用户表;

Freeswitch中CHANNEL_HANGUP外呼挂断事件

1.CHANNEL_HANGUP外呼挂断事件 事件详细 ################## 外呼挂断:############################# [EslMessage{contentTypecommand/reply, headers3, body0 lines}] 2023-11-16T03:41:33.5140800 INFO c.e.c.v.s.c.i.FsServerEventHandler - eventReceived:…

洗地机哪个牌子好?2023热门洗地推荐

随着科技的不断发展,智能家居产品成为现代生活的一部分。在这个日新月异的时代,人们追求更便捷、高效的生活方式。洗地机作为一款时尚生活必备的清洁家电产品,正逐渐受到人们的关注和喜爱,面对满目琳琅的洗地机,我们该…

京东联盟flutter插件使用方法

目录 1.京东联盟官网注册申请步骤略~2.安卓端插件配置:3.IOS端插件配置4.其它配置5.京东OAuth授权 文档地址:https://baiyuliang.blog.csdn.net/article/details/134444104 京东联盟flutter插件地址:https://pub.dev/packages/jdkit 1.京东联…

静态共享代理和静态独享有哪些区别?怎么选择?

在软件开发中,静态共享代理(Static Proxy)和静态独享(Monostatic)是两种常见的软件设计模式。这两种模式在实现方式、使用场景以及优缺点上存在一定的差异,下面将详细介绍它们的区别以及如何进行选择。 一、…

如何批量在文件名中加标点符号?

如何批量在文件名中加标点符号?标点符号在文件名中的作用通常是用来分隔不同部分的内容,或者用来表示特定的含义。例如,下划线"_" 可以用来连接文件名的不同部分,使得文件名更易于阅读和理解。另外,使用连字…

新生儿腿纹不对称:原因、科普和注意事项

引言: 新生儿身上出现腿纹不对称的现象在一些家庭中可能引起担忧,然而,了解这一现象的原因以及如何正确处理是非常重要的。本文将科普新生儿腿纹不对称的原因,提供相关信息,并为父母和监护人提供注意事项,…