Python采集<灵剑尊>全本内容,一次性看个爽~

news2024/11/28 12:31:42

前言

嗨喽,大家好呀~这里是爱看美女的茜茜呐

环境使用:

  • Python 3.8

  • Pycharm

模块使用:

  • requests >>> pip install requests 数据请求模块

  • parsel >>> pip install parsel 数据解析模块

使用知识点:

python基础语法:

  • print 输出函数

  • 字符串创建

  • 字典创建 / 取值

  • 列表取值

  • for循环遍历

  • open函数数据保存

python爬虫语法:

  • requests简单使用

  • re.sub替换方法

  • parsel css选择器数据解析

代码展示

# 导入数据请求模块
import requests
# 导入正则表达式模块
import re
# 导入数据解析模块
import parsel

1. 发送请求, 模拟浏览器对于 漫画列表页面url地址发送请求

模拟浏览器

headers = {
    # user-agent 用户代理, 表示浏览器基本身份信息
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36'
}

请求链接

url = 'https:/*-***/209412/'

发送请求

response = requests.get(url=url, headers=headers)

2. 获取数据, 获取服务器返回响应数据

开发者工具: response

3. 解析数据, 提取我们想要的数据内容

章节ID / 章节标题

本次案例选择css选择器: 根据标签属性提取数据内容

转换数据类型, 转成可解析对象

selector = parsel.Selector(response.text)

获取所有li标签内容

lis = selector.css('.j-chapter-item')

for循环遍历

for li in list(reversed(lis)):
    # 提取具体数据内容
    title = li.css('a::text').getall()[-1].strip()
    chapter_id = li.css('a::attr(data-chapterid)').get()

4. 发送请求, 模拟浏览器对于 漫画数据包url地址 发送请求

    link = 'https://****/chapter/content/v1/'
    data = {
        'chapter_id': chapter_id,
        'comic_id': '209412',
        'format': '1',
        'quality': '1',
        'sign': '2088fa70abcab5071cf781ceeb48ace1',
        'type': '1',
        'uid': '63473042',
    }

5. 获取数据, 获取服务器返回响应数据

    json_data = requests.get(url=link, params=data, headers=headers).json()
    print(title, chapter_id)
    new_title = re.sub(r'[\/:*?"<>|]', '', title)

6. 解析提取我们想要图片链接

    num = 1
    for img in json_data['data']['page']:
        img_url = img['image']

7. 保存数据

        img_content = requests.get(url=img_url, headers=headers).content
        with open('img\\' + new_title + str(num) + '.jpg', mode='wb') as f:
            f.write(img_content)
            num += 1
        print(img_url)

尾语

感谢你观看我的文章呐~本次航班到这里就结束啦 🛬

希望本篇文章有对你带来帮助 🎉,有学习到一点知识~

躲起来的星星🍥也在努力发光,你也要努力加油(让我们一起努力叭)。

请添加图片描述

最后,宣传一下呀~👇👇👇更多源码、资料、素材、解答、交流皆点击下方名片获取呀👇👇

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/533108.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

如何在繁重的工作中持续成长?

目录 一、认知&#xff1a;打破成长误区误区 1&#xff1a;个人成长和工作相互冲突误区 2&#xff1a;做自己没了解过的事情才是成长误区 3&#xff1a;学的东西越多&#xff0c;成长越快 二、实施&#xff1a;如何高效的利用时间2.1常见的时间管理法2.2 记录&#xff1a;提醒事…

三、easyUI中的accordion(分类)组件

1.accordion&#xff08;分类&#xff09;组件的概述 分类空间允许用户使用多面板&#xff0c;但在同一时间只会显示一个。每个面板都内建支持展开和折叠功能。点击一个面板的标题将会展开或折叠面板主体。面板内容可以通过指定的href属性使用ajax方式读取面板内容。用户可以定…

NISP含金量如何?NISP一级好考吗?

国家信息安全水平测试&#xff08;NationalInformationSecurityTestProgram&#xff0c;通称NISP&#xff09;&#xff0c;是通过中国信息安全测评中心执行塑造我国网络空间安全优秀人才的一个项目。 含金量很高值得考&#xff0c;NISP分为一级、二级、三级&#xff0c;其中一…

【JAVA程序设计】(C00136)基于SSM(非maven)的养老院综合服务管理系统

基于SSM&#xff08;非maven&#xff09;的养老院综合服务管理系统 项目简介项目获取开发环境项目技术运行截图 项目简介 本项目为基于SSM养老院综合服务系统&#xff0c;本项目分为二种角色:管理员、护工&#xff1b; 管理员角色包含以下功能&#xff1a; 管理员登录,个人资料…

java语法(二)线程并发、Juit单元测试、反射机制、注解、动态代理、XML解析、JVM

文章目录 线程并发多线程多线程的创建Thread常用API 线程同步与通信线程同步&#xff1a;单例模式的三种写法同步代码块同步方法Lock锁 线程通信 线程池获取线程池对象ThreadPoolExecutor线程池处理runnable任务线程池处理callable任务 Executors定时器Timer调度可重复执行任务…

Springboot +Flowable,会签、或签简单使用(一)

一.简介 **会签&#xff1a;**在一个流程中的某一个 Task 上&#xff0c;这个 Task 需要多个用户审批&#xff0c;当多个用户全部审批通过&#xff0c;或者多个用户中的某几个用户审批通过&#xff0c;就算通过。 例如&#xff1a;之前的请假流程&#xff0c;假设这个请假流程…

勇于创新,全力以赴,流辰信息快速开发平台助力企业提质增效!

在科技、社会、信息都快速发展的今天&#xff0c;每一家企业都希望能跟上时代的发展步伐&#xff0c;提质增效&#xff0c;获得长远发展。如今&#xff0c;办公自动化正在迅猛发展&#xff0c;数字化转型升级成为了各大企业的发展趋势和奋斗目标&#xff0c;流辰信息快速开发平…

【大数据模型】使用Claude浅试一下

汝之观览&#xff0c;吾之幸也&#xff01;本文主要聊聊Claude使用的流程&#xff0c;在最后对国内外做了一个简单问题的对比&#xff0c;希望国内的大数据模型更快的发展。 一、产品介绍 claude官网 Claude是一款由前OpenAI的研究员和工程师开发的新型聊天机器人&#xff0c;…

chatGPT嵌入浏览器搜索

正文 看效果&#xff0c;注意右侧&#xff1a; 更牛的是你还可以继续向他回答的进行下一步更细节的提问&#xff0c;互动交流问题&#xff0c;妥妥的一对一辅导啊。 安装此插件后&#xff0c;你还可以通过选中 文字 来解读&#xff0c;真是爱了爱了&#xff0c;只想说 "&a…

数据安全治理流程设计

在上一篇讲了 政务数据分级安全保护要求(明细) 只能说可以作为前期咨询工作的理论依据之一,但数据治理具体如何展开工作?这篇简单设计下,后续会有定期更新数据安全治理这方面的文章。 数据治理是大数据发展而来也是信息技术发展而来,在之前最多是数据安全防护,当然目前很…

专业的ADAS测试记录仪ETHOS

随着ADAS驾驶辅助系统技术的快速发展及日臻成熟&#xff0c;近年来ADAS在全球汽车市场已开始快速普及和商业化&#xff0c;而如何确保ADAS系统的可靠和安全俨然成为汽车领域的重要问题。因此&#xff0c;ADAS驾驶辅助系统的测试也成为了各大整车厂及零部件厂商关注的热点。 一 …

内网搭建Jenkins自动化远程部署项目到Windows服务器

一、下载Jenkins War Jenkins Packages Jenkins War Packages This is the WAR package repository of Jenkins for installation.You will need to explicitly install a supported Java runtime environment (JRE), e.g. Eclipse Temurin.Weekly Release Line Supported Ja…

Philosophy of life: Love and Time

背景介绍: 因为爱、幸福、快乐、悲伤、富有、悲伤等交织在一起组成了人这样一个特殊的感情个体&#xff0c;现实生活中很多人忽视了爱的珍贵&#xff0c;这个故事讲的是"富有"&#xff0c;"虚荣","悲伤","狂喜" 都不能理解爱的珍贵&am…

docker安装kafka(M2芯片)

背景&#xff1a;想通过kafka做一个需求&#xff0c;之前没有用过&#xff0c;将TXT文件中的数据加载到kafka中&#xff0c;再通过logstash将kafka中的数据加载到es中。 基本操作环境介绍 操作系统苹果M2kafka镜像版本wurstmeister/kafkazookeeper镜像版本zookeeper:latestka…

ERM LABS 与 The Sandbox 战略合作,将真人密室逃脱游戏引进元宇宙

将现实生活中的体验带入一个全新的维度&#xff01;ERM LABS 专注于将现实生活中的娱乐及冒险体验以游戏独特架构设计扩展到元宇宙裡。与 The Sandbox 合作&#xff0c;该项目旨在为全球合作的真人密室逃脱场所提供无限开放形的线上虚拟世界&#xff0c;让玩家尽情享受考验智商…

【云原生进阶之PaaS中间件】第一章Redis-2.3.2哨兵模式

1 哨兵模式 由于无法进行主动恢复&#xff0c;因此主从模式衍生出了哨兵模式。哨兵模式基于主从复制模式&#xff0c;只是引入了哨兵来监控与自动处理故障。Redis Sentinel是社区版本推出的原生高可用解决方案&#xff0c;Redis Sentinel部署架构主要包括两部分&#xff1a;Red…

OpenAI是什么?

OpenAI是一家人工智能技术公司&#xff0c;成立于2015年&#xff0c;总部位于美国旧金山。它的创始人包括埃隆马斯克等多名知名人士&#xff0c;公司的目标是推进人工智能技术的发展&#xff0c;同时确保人工智能的发展不会对人类造成负面影响。 OpenAI在研究和开发各种人工智能…

Python爬虫进阶(1),Django+Selenium+Mysql+SimpleUI从零搭建自己的爬虫后台,实现可视化监控爬虫内容信息

如果爬虫做完的话都会发现每个文件要么保存到csv或者是其他格式的文件中&#xff0c;这样做多少会有些麻烦&#xff0c;所以需要将这些内容保存起来方便自己管理和查看内容。 相对于flask而言Django有着相对成熟的一个后台管理系统配合上其他一些插件就可以做到即插即用的效果…

MongoDB 查询文档中使用正则选择器($regex)

之前我们介绍过使用文本选择器&#xff08;$text&#xff09;查询文档&#xff0c;如果您需要进一步了解&#xff0c;可以参考&#xff1a; MongoDB 查询文档中使用文本选择器&#xff08;$text&#xff09;https://blog.csdn.net/m1729339749/article/details/130605491 本篇…

【计算机组成原理】第六章 总线系统

系列文章目录 第一章 计算系统概论 第二章 运算方法和运算器 第三章 多层次的存储器 第四章 指令系统 第五章 中央处理器 第六章 总线系统 第七章 外围设备 第八章 输入输出系统 文章目录 系列文章目录第六章 总线系统6.1 总线的概念和结构形态6.1.1 总线的基本概念6.1.2 总线…