《0基础》学习Python——第二十二讲__网络爬虫/<5>爬取豆瓣电影封面图

news2024/11/25 15:22:55

一、爬取豆瓣电影的图片封面

        1、经过上节课我们所爬取的豆瓣电影的电影名、年份、国家、导演、主演、剧情,那么接下来我们将学习如何去爬取这些电影的图片,并将这些图片存放在文件夹中。

        2、过程实现:

        2.1、获取网页源码

        首先还是和爬取电影名一样,先从网页获取到URL、然后再发送get请求、进行UA伪装,此处的代码如下:

if __name__ == '__main__':
    # UA伪装
    head = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36 Edg/126.0.0.0'
    }
    # 获取url
    url = 'https://movie.douban.com/top250'

    # 发送请求
    response = requests.get(url, headers=head)
    # 返回数据类型
    cont_text = response.text
    print(cont_text)#打印数据,用于查看是否爬取成功

       此时有打印结果说明获取网页信息成功,接下来继续对这段长数据进行处理

注意:部分网页需要登录账号才能爬取,此时需要在URL那一栏找到Cookie

53e60b2071684a658acbbf0632dd7f0d.png

       

        复制这段Cookie所对应的内容,将它增加到head里面去,如下列代码

# UA伪装
    head = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36 Edg/126.0.0.0'
        ,'Cookie':"ll="118183"; bid=H3WRaEnQCkI; _pk_id.100001.4cf6=5df013865257fa4c.1721368722.; __yadk_uid=rm8FHEGxJVSUzh7rJTZUbbphUwvgHrjb; _pk_ref.100001.4cf6=%5B%22%22%2C%22%22%2C1721535985%2C%22https%3A%2F%2Fcn.bing.com%2F%22%5D; __utma=30149280.1409929673.1721368655.1721448364.1721535985.8; __utmc=30149280; __utma=223695111.1684481215.1721368722.1721448364.1721535985.5; __utmc=223695111"
    }

Cookie:用于记录用户的个人偏好和行为,例如登录信息、购物车内容、网站语言等。它们还可以用于跟踪用户的浏览行为和收集统计信息,以便网站可以优化用户体验和提供相关的广告。此为用户私密信息,不要随意传播

        

        2.2、找到图片所对应的标签位置

9e7693f18c18452db5b3872f2a4437c0.png

        2.2.1、定位所需内容所处标签位置

        用以下代码直接定位到 li 标签位置,并获取所有的 li 标签信息

cont_text = response.text
    # print(cont_text)#打印数据,用于查看是否爬取成功
    #对得到的数据进行解析
    tree=etree.HTML(cont_text)
    # print(tree)
    #获取所有的li标签
    lis_li=tree.xpath("//ol[@class='grid_view']/li")
    # print(lis_li)

其打印结果为element对象:

b2f73dbc8a9f4b3aa1bb69f29a20b7d7.png

        2.2.2、获取图片的URL:

    for li in lis_li:
        #对单个li标签进行xpath处理
        #xpath返回列表,用join去除列表
        img_url="".join(li.xpath('./div/div[1]/a/img/@src'))
        print(img_url)

即获取所有li标签,然后再通过xpath获取到图片的URL:

其打印结果为:

af7466414acb4917a2475731964a912b.png

2.3、通过图片URL获取图片的二进制数据

有了图片的URL即可再通过get请求得到图片的二进制数据,因为图片是以二进制数据的类型存放,代码如下

img_url="".join(li.xpath('./div/div[1]/a/img/@src'))
        # print(img_url)
        #发送get请求
        img_response=requests.get(img_url,headers=head)
        #获取图片的二进制数据
        img_con=img_response.content#此处img_response.content没有用text是因为图片数据是二进制
        print(img_con)

其打印结果为二进制数据:530eedd281264a48b4d51b73e4d42548.png

2.4、存放图片到文件夹

        将获取的图片信息分别写入文件,存放在文件夹中,将图片名后缀名改为JPG格式即可完成图片的爬取

2.4.1  导入一个库用来创建文件夹来存放图片

import os.path

其创建方式为:

import os.path

os.mkdir('./film_pic') #此处为在当前代码同级目录下创建一个名为film_pic的文件夹

2.4.2 创建图片文件

命名图片名后,以二进制模式写入图片二进制编码数据:

with open(f'./film_pic/{i}.jpg','wb') as fp:
    fp.write(img_con)

2.5 爬取成功图片

b8565e99d0d44b01b7b6373c4d545818.png

二、完整代码实现

import os.path #导入包用来创建新的文件夹
import requests
from lxml import etree

if __name__ == '__main__':
    # UA伪装
    head = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36 Edg/126.0.0.0'
    }
    # 获取url
    url = 'https://movie.douban.com/top250'

    # 发送请求
    response = requests.get(url,headers=head)
    # 返回数据类型
    cont_text = response.text
    # print(cont_text)#打印数据,用于查看是否爬取成功
    #对得到的数据进行解析
    tree=etree.HTML(cont_text)
    # print(tree)
    #获取所有的li标签
    lis_li=tree.xpath("//ol[@class='grid_view']/li")
    # print(lis_li)
    #将每一条li标签分别提取出来

    os.mkdir('./film_pic') #创建同级文件夹用来存放图片文件

    i=0
    for li in lis_li:
        #对单个li标签进行xpath处理
        #xpath返回列表,用join去除列表
        img_url="".join(li.xpath('./div/div[1]/a/img/@src'))
        # print(img_url)
        #发送get请求
        img_response=requests.get(img_url,headers=head)
        #获取图片的二进制数据
        img_con=img_response.content
        print(img_con)
        with open(f'./film_pic/{i}.jpg','wb') as fp:
            fp.write(img_con)
        i=i+1

三、随机生成UA标识

import fake_useragent

#随机生成浏览器标识,其中包括window、mac、Android、iOS系统
head={
    'User-Agent':fake_useragent.UserAgent().random
}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1941658.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Java之 jvm

jvm之管理内存 程序计数器:当前线程所执行的字节码的行号指示器。程序计数器是唯一一个不会出现 OutOfMemoryError 的内存区域,它的生命周期随着线程的创建而创建,随着线程的结束而死亡。Java虚拟机栈 方法调用 一个方法调用都会有对应的栈帧…

【如何在Jenkins的从节点切换NPM镜像源查看和切换】

【问题】 Jenkins打包时,前端npm构建时很慢,所有需要更换镜像源 【自查】 找到Jenkins从节点上的nodejs安装的路径,进入bin目录 执行./npm -v查看是不能正常查看, [rootlocalhost bin]# ./npm -v /usr/bin/env: ‘node’: No su…

华为OD机试2024年C卷D卷 - 山脉的个数/攀登者1 (Java)

华为OD机试(C卷D卷)2024真题目录 题目描述 攀登者喜欢寻找各种地图,并且尝试攀登到最高的山峰。 地图表示为一维数组,数组的索引代表水平位置,数组的元素代表相对海拔高度。其中数组元素0代表地面。 例如&#xff…

MySQL面试篇章——MySQL核心SQL(基本语法)

文章目录 结构化查询语句SQL库操作表操作CURD 操作insert 增加update 修改delete 删除 select 查询去重 distinct空值查询union 合并查询带 in 子查询分页查询排序 order by分组 group by笔试实践题 连接查询内连接查询外连接查询左连接查询右连接查询 结构化查询语句SQL SQL是…

内置对象的原型继承

Object.prototype(原型链顶部) console.log(ItShare.__proto__); console.log(ItShare.__proto__.__proto__); console.log(ItShare.__proto__.__proto__.__proto__);那么数组的原型链是什么呢? const arr [1, 2, 5, 4, 55, 66, 54]; cons…

matlab2018b安装

1.可先参考这个 2.激活 按上面教程安装后,打开matlab 可能会出现软件激活这个界面,需要按如下步骤进行操作。

Android Studio 中使用switch语句时报错Constant expression required

发现问题 Android Studio 中使用switch语句时报错Constant expression required 解决方法: 首先, 在gradle.properties配置文件下添加代码: android.nonFinalResIdsfalse之后, 点击:“Sync Now” 进行同步 效果 原…

《梦醒蝶飞:释放Excel函数与公式的力量》18.2 数据可视化技术

第18章:创建图表和数据可视化 18.2 数据可视化技术 数据可视化是将数据转化为图形和图表的过程,以便更好地理解和分析数据。有效的数据可视化可以揭示数据的模式、趋势和异常,从而帮助做出更明智的决策。以下将介绍几种常用的数据可视化技术…

【C++】————搜索二叉树

作者主页: 作者主页 本篇博客专栏:C 创作时间 :2024年7月22日 什么是二叉搜索树? 二叉搜索树又称二叉排序树,它或者是一棵空树,或者是具有以下性质的二叉树: 若它的左子树不为空&#xff0…

大模型学习笔记 - LLM指令微调

LLM 指令微调 LLM 指令微调 0. 概览1. 指令数据的构建 1.1 基于现有NLP任务数据集构建1.2 基于日常对话数据构建1.3 基于合成数据构建1.4 指令数据构建的提升方法 2. 指令微调的策略 2.1 优化设置2.2 数据组织策略 3. 参数高效的模型微调 3.1 低秩适配微调方法3.2 其他高效微调…

【跨链机制】哈希锁定原理

随着区块链多年来的发展,在区块链生态中已经形成了不同特性的区块链网络,这些网络之间存在着一定的隔离和孤立性。为了打破这种局面,跨链技术应运而生,促进了区块链间的数据流通和价值交换。目前,主流的跨链机制包括公…

电路学习——经典运放电路之滞回比较器(施密特触发器)(2024.07.18)

参考链接1: 电子设计教程29:滞回比较器(施密特触发器) 参考链接2: 滞回比较器电路详细分析 参考链接3: 比较器精髓:施密特触发器,正反馈的妙用 参考链接4: 比较器反馈电阻选多大?理解滞后效应,轻…

Kafka之存储设计

文章目录 1. 分区和副本的存储结构1. 分区和副本的分布2. 存储目录结构3. 文件描述 2. 相关配置3. 数据文件类型4. 数据定位原理LogSegment 类UnifiedLog 类 5. 副本数据同步HW水位线LEO末端偏移量HW更新原理 6. 数据清除 1. 分区和副本的存储结构 在一个多 broker 的 Kafka 集…

如何学习Linux:糙快猛的大数据之路( 只讲大数据开发用到的)

引言 还记得第一次面对Linux命令行时的茫然吗?黑乎乎的终端,闪烁的光标,还有那些看起来像外星文的命令。 作为一个从0基础开始跨行到大数据领域的开发者,我深深体会到了学习Linux的重要性和挑战。今天,我想和大家分享…

谷粒商城实战-Vue学习过程中踩坑记录

一&#xff0c;自闭合的<script>标签 第一次使用Vue&#xff0c;按照步骤引入vue.js&#xff0c;创建div&#xff0c;创建Vue对象&#xff0c;但是未达预期效果。 插值表达式{{name}}没被替换为data对象中的属性值。 F12看了下网页源代码&#xff0c;发现创建Vue对象的…

计算机组成原理面试知识点总结1

#ウルトラマンゼット&#xff08;泽塔&#xff09; 1 计算机发展历程 1.1 计算机的硬件发展 电子管时代晶体管时代中小规模集成电路时代超大规模集成点电路时代 元件更新变化&#xff1a; 摩尔定律&#xff1a;18 个月晶体管翻一倍半导体存储器不断发展微处理器不断发展 1.2…

适合学生的护眼台灯哪个牌子最好?学生护眼台灯十大排名名单

适合学生的护眼台灯哪个牌子最好&#xff1f;作为一名当代的学生&#xff0c;经常会出现长时间用眼的情况&#xff0c;但是这种状况是难以改变的&#xff0c;我国的学习教育一直都在“内卷”&#xff0c;学生课业重&#xff0c;每日的夜间学习更是成了孩子的家常便饭&#xff0…

数据结构之字符串的最长公共子序列问题详解与示例(C,C++)

文章目录 1、最长公共子序列定义2、动态规划解法3、状态转移方程初始化构建最长公共子序列 4、C 和 C 实现示例C 语言实现C 语言实现 5、总结 字符串的最长公共子序列&#xff08;Longest Common Subsequence, LCS&#xff09;是计算机科学中的一个经典问题&#xff0c;属于动态…

08、Tomcat 部署及优化

8.1 Tomcat概述 8.1.1 Tomcat介绍 自从 JSP 发布之后,推出了各式各样的 JSP 引擎。Apache Group 在完成 GNUJSP1.0的开发以后&#xff0c;开始考虑在 SUN 的 JSWDK 基础上开发一个可以直接提供 Web 服务的 JSP服务器&#xff0c;当然同时也支持 Servlet, 这样 Tomcat 就诞生…

函数(递归)

递归&#xff1a;程序调用自身编程技巧称为递归。 在学习递归前需要粗略的了解一下内存&#xff0c;内存分为三类&#xff0c;分别是栈区、堆区和静态区。对于栈区来说&#xff0c;每调用一次函数都会为本次函数开辟一块空间&#xff0c;然而栈区也是有空间限制的&#xff0c;随…