前言
嗨喽,大家好呀~这里是爱看美女的茜茜呐
又到了学Python时刻~
作为现代青年,我相信应该没几个没看过xiao shuo的吧,嘿嘿~
一般来说咱们书荒的时候怎么办?
自然是去寻一个网站先找到xiao shuo名字,然后再找度娘一搜(PS:太贵惹,买章节不适合我这种穷人)
哎 ,一下就出来答案了,免费看,美滋滋~
但是那多麻烦,咱们用 python 直接全部下载下来慢慢看不就好了~
小孩子才做选择,成年人选择都要…
源码、资料点击 蓝色字体 自取 ,我都放在这里了。
目录
- 前言
- 准备工作
- 环境模块
- 如果安装python第三方模块:
- 目标地址
- 基本流程
- 代码展示
- 尾语 💝
准备工作
环境模块
咱们没装软件的装一下软件,没装模块的装一下模块,软件我就不讲了。
模块咱们用到的是这两个模块,需要安装一下。
requests # 发送请求
re # 正则表达式模块
如果安装python第三方模块:
-
win + R 输入 cmd 点击确定, 输入安装命令 pip install 模块名 (pip install requests) 回车
-
在pycharm中点击
Terminal
(终端) 输入安装命令
Python/pycharm安装包及视频教程点击文章下方名片磕获取
目标地址
https://read.这里qi大家自己dian一下.com/chapter/3i-t4PVRihdwe0zGvdPFgA2/djLVNZuVg7eaGfXRMrUjdw2/
删除中文字体即可,大家可以自己换一下目标,同站即可。
基本流程
流程基本都是这几步,我这里不详细讲解了,以前的文章有些讲过。
-
发送请求
-
获取数据
-
解析数据
-
保存数据
代码展示
导入模块
import requests # 发送请求
import re
伪装
headers = {
'cookie': '_yep_uuid=b1421b7f-11da-b15f-a3ad-95316478f93c; e1=%7B%22pid%22%3A%22qd_P_read%22%2C%22eid%22%3A%22%22%2C%22l1%22%3A3%7D; e2=%7B%22pid%22%3A%22qd_P_read%22%2C%22eid%22%3A%22%22%2C%22l1%22%3A3%7D; newstatisticUUID=1648708045_1995757040; _csrfToken=mAWbsvESMNwir4NfKBy5fy8RedwvNBabTq3PLx6r; fu=721555856; _gid=GA1.2.1193345906.1648708045; e1=%7B%22pid%22%3A%22qd_p_qidian%22%2C%22eid%22%3A%22qd_A18%22%2C%22l1%22%3A3%7D; e2=; qdrs=0%7C3%7C0%7C0%7C1; showSectionCommentGuide=1; qdgd=1; rcr=1031788647%2C1031920667; bc=1031920667%2C1031788647; pageOps=1; lrbc=1031788647%7C686160165%7C0%2C1031920667%7C695153167%7C1; _ga_FZMMH98S83=GS1.1.1648708044.1.1.1648708759.0; _ga_PFYW0QLV3P=GS1.1.1648708044.1.1.1648708759.0; _ga=GA1.2.777546916.1648708045',
'referer': 'https://book.大家自己改一下,看了准备工作就知道了.com/',
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.84 Safari/537.36',
}
url = 'https://book.大家自己改一下,看了准备工作就知道了.com/info/1031920667/#Catalog'
html_data = requests.get(url=url, headers=headers).text
info_list = re.findall('<h2 class="book_name"><a href="(.*?)" target="_blank" data-eid=".*?" data-cid=".*?" alt=".*?" title=".*?">(.*?)</a></h2>', html_data)
for link, title in info_list:
link = 'https:' + link
# print(link, title)
1. 发送请求
response = requests.get(url=link, headers=headers)
2. 获取数据
link_data = response.text
# print(html_data)
3. 解析数据
网页标签 <p></p> <a></a> <div></div> <img />
# <div class="read-content j_readContent" id=".*?">(.*?)</div>
text = re.findall('<div class="read-content j_readContent" id=".*?">(.*?)</div>', link_data, re.S)[0]
text = text.replace('<p>', '\n')
text = title + '\n\n' + text
print(text)
- 保存数据
with open('网恋女友竟是九天神凰.txt', mode='a', encoding='utf-8') as f:
f.write(text)
PS:文章看不懂,我专门录了对应的视频讲解,本文只是大致展示,完整代码和视频教程如有需要的小伙伴可以加下方的群去找免费管理员领取
可以免费领取源码、项目实战视频、PDF文件等
宁外给大家推荐一个好的python教程:
【48小时搞定全套教程!你和大佬只有一步之遥【python教程】
尾语 💝
感谢你观看我的文章呐~本次航班到这里就结束啦 🛬
希望本篇文章有对你带来帮助 🎉,有学习到一点知识~
躲起来的星星🍥也在努力发光,你也要努力加油(让我们一起努力叭)。
最后,博主要一下你们的三连呀(点赞、评论、收藏),不要钱的还是可以搞一搞的嘛~
不知道评论啥的,即使扣个6666也是对博主的鼓舞吖 💞 感谢 💐