python采集付费论文批量下载 并保存到文档,毕设论文再也不愁......

news2024/10/1 19:00:59

嗨害大家好鸭! 我是小熊猫鸭~

大家是不是在写毕业论文的时候

需要参考某一段的内容

要用到复制粘贴,但是吧,某文库就需要付费,

就老难受了…

我们今天就来解决这个"老难受"

在这里插入图片描述

环境使用:

python 3.8
pycharm

模块使用

requests >>> 数据请求模块 pip install requests
    docx >>> 文档保存 pip install python-docx
    re 内置模块 不需要安装

一个小细节

文字识别:
1. 注册一个百度云API账号
2. 创建应用 并且去免费领取资源
3. 在技术文档里面 Access Token获取
4. 调用API接口做文字识别

本次地址

在这里插入图片描述
这里我没打前缀,不过审…自己打吧

在这里插入图片描述

模块安装问题:

  • 如果安装python第三方模块:
  1. win + R 输入 cmd 点击确定,
  2. 输入安装命令 pip install 模块名 (pip install requests) 回车
  3. 在pycharm中点击Terminal(终端) 输入安装命令
  • 安装失败原因:

  • 失败一: pip 不是内部命令
    解决方法: 设置环境变量

  • 失败二: 出现大量报红 (read time out)
    解决方法: 因为是网络链接超时, 需要切换

镜像源整理:

清华:https://pypi.tuna.tsinghua.edu.cn/simple
阿里云:https://mirrors.aliyun.com/pypi/simple/
中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/
华中理工大学:https://pypi.hustunique.com/
山东理工大学:https://pypi.sdutlinux.org/
豆瓣:https://pypi.douban.com/simple/
例如:pip3 install -i https://pypi.doubanio.com/simple/ 模块名

  • 失败三: cmd里面显示已经安装过了, 或者安装成功了, 但是在pycharm里面还是无法导入
    解决方法: 可能安装了多个python版本 (anaconda 或者 python 安装一个即可) 卸载一个就好 或者你pycharm里面python解释器没有设置好

一. 分析数据来源

找文档数据内容, 是在哪个url里面生成的

  • 通过开发者工具进行抓包分析
    1. 打开开发者工具: F12 / 鼠标右键点击检查选择network
    2. 刷新网页: 让本网页数据内容重新加载一遍
    如果你是非VIP账号, 看数据, 图片形式 —> 把数据<图片> 获取下来 —> 做文字识别
    3. 分析文库数据内容, 图片所在地址

源码、资料点击此处


二. 代码实现步骤

1. 发送请求, 模拟浏览器对于url地址发送请求

在这里插入图片描述

请求参数

data = {#python学习交流:660193417###
        'docId': docId,
        'query': name,
        'recPositions': ''
    }

请求头

 headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/'
    }

发送请求

response = requests.get(url=url, params=data, headers=headers)

# <Response [200]> 响应对象, 200 表示请求成功
    print(response)

2. 获取数据, 获取服务器返回响应数据

response.json() 获取响应json字典数据, 但是返回数据必须是完整json数据格式 花括号 {}
response.text 获取响应文本数据, 返回字符串  任何时候都可以, 但是基本获取网页源代码的时候
response.content 获取响应二进制数据, 返回字节 保存图片/音频/视频/特定格式文件

在这里插入图片描述

3. 解析数据, 提取图片链接地址

定义文件名 整型

num = 1
# for循环遍历, 把列表里面元素一个一个提取出来
for index in response.json()['data']['relateDoc']:
    # index 字典呀
    pic = index['pic']
    print(pic)

4. 保存数据, 把图片内容保存到本地文件夹

发送请求 + 获取数据 二进制数据内容
        # img_content = requests.get(url=pic, headers=headers).content
        # # 'img\\'<文件夹名字> + str(num)<文件名> + '.jpg'<文件后缀>  mode='wb' 保存方式, 二进制保存
        # # str(num) 强制转换成 字符串
        # # '图片\\' 相对路径, 相对于你代码的路径 你代码在那个地方, 那个代码所在地方图片文件夹
        # with open('图片\\' + str(num) + '.jpg', mode='wb') as f:
        #     # 写入数据 保存数据  把图片二进制数据保存
        #     f.write(img_content)
        # # 每次循环 + 1
        # print(num)
        # num += 1

5. 做文字识别, 识别文字内容

在这里插入图片描述

进行文字识别

在这里插入图片描述
在这里插入图片描述

遍历一下

在这里插入图片描述

6.保存文档

# # 读取文件夹里面所有图片内容
# content_list = []
# files = os.listdir('img\\')
# for file in files:
#     filename = 'img\\' + file
#     words = get_content(file=filename)
#     print(words)
#     content_list.append(words)
#
# # 保存word文档里面
# doc = Document()
# # 添加第一段文档内容
# content = '\n'.join(content_list)
# doc.save('data.docx')

今天的文章就是这样啦~

我是小熊猫,咱下篇文章再见啦(✿◡‿◡)

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/95330.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

2021年全球区块链投融资概况 美国融资量最多 数字资产相关领域依旧火热

据不完全统计&#xff0c;2021年&#xff0c;全球区块链产业共发生1812笔融资事件&#xff0c;从月度投资量来看&#xff0c;3月和4月投资量均达200笔以上&#xff0c;3月数量最多为239笔&#xff0c;其次是4月数量为214笔。1月和2月则获投量最少&#xff0c;均不达100笔&#…

怎么写一个树形穿梭框

图片懒加载基本原理 所谓图片懒加载&#xff0c;就是需要展示图片的时候再加载&#xff0c;当图片没有进入我们的视觉范围内的时候&#xff0c;图片还没有加载&#xff0c;只用一个占位符或者 loading 图片替代。当我们滚动页面时&#xff0c;占位符或者 loading 图片进入到我…

[附源码]Python计算机毕业设计Django绿色生活交流社区网站

项目运行 环境配置&#xff1a; Pychram社区版 python3.7.7 Mysql5.7 HBuilderXlist pipNavicat11Djangonodejs。 项目技术&#xff1a; django python Vue 等等组成&#xff0c;B/S模式 pychram管理等等。 环境需要 1.运行环境&#xff1a;最好是python3.7.7&#xff0c;…

部门来了个测试开发,听说是培训生,上来一顿操作给我看呆了...

&#x1f4cc; 博客主页&#xff1a; 程序员二黑 &#x1f4cc; 专注于软件测试领域相关技术实践和思考&#xff0c;持续分享自动化软件测试开发干货知识&#xff01; &#x1f4cc; 公号同名&#xff0c;欢迎加入我的测试交流群&#xff0c;我们一起交流学习&#xff01; 前段…

大数据呀大数据

大数据 啥是大数据? 我自己的一些经历–>>在做代码开发之前,一直觉得大数据这件事是高大上的一门学问,门槛很高,而且我上大学的时候这个词才刚刚在众多互联网记住中展露头角; 我的个人经历–>> 我上大学时那时候安卓的版本才到安卓4.4,在智能手机出来普及以前,各…

STM32 10个工程实战前言

从今年2022年元旦开通博客到现在基本接近一年了&#xff0c;真的会感到感觉时间飞逝&#xff0c;尤其当你全身心地投入一件工作上时&#xff0c;在FPGA基础篇和FPGA 20个经理例程篇后&#xff0c;又准备了STM32基础篇和STM32 10个工程实战篇&#xff0c;前两者即将收尾&#xf…

外汇天眼:欧洲央行加息50基点!加息的步伐将会放缓

欧洲央行(European Central Bank)在周四的会议上选择小幅加息&#xff0c;将基准利率从1.5%上调至2%。而其主要再融资操作和边际贷款工具的借贷成本分别升至2.50%和2.75%。 它还表示&#xff0c;从2023年3月初开始&#xff0c;到2023年第二季度末&#xff0c;它将开始平均每月减…

付费视频被人薅走?了解一下hls视频加密

前言 作者现在主要负责的项目是通过音视频等课程提高教师职业能力的&#xff0c;说白了就是给老师卖课赚钱。大家都知道知识付费现在还是很火的&#xff0c;既然是要付费的知识&#xff0c;就肯定有人想白嫖&#xff0c;直接去下载课程里面音视频。业界就有很多工具&#xff0…

世界杯观赛调研公布: Z世代消费者首选海信电视

2022世界杯决赛在即&#xff0c;作为观赛主体的Z世代迎来了四年一度的足球狂欢季。12月12日&#xff0c;市场研究机构千趣GKURC&#xff08;关键用户调查研究中心&#xff09;发布了《Z世代2022世界杯观赛和消费行为特征》调查报告&#xff08;以下简称报告&#xff09;。 报告…

图解设计模式:Teamplate Method 模板方法模式 由子类实现具体内容的模式

前言 &#x1f4e3; &#x1f4e3; &#x1f4e3; &#x1f4e2;&#x1f4e2;&#x1f4e2; ☀️☀️点开就是缘分认识一下&#xff0c;我是小冷。是一个兴趣驱动自学练习两年半的的Java工程师。 &#x1f4d2; 一位十分喜欢将知识分享出来的Java博主⭐️⭐️⭐️&#xff0c;…

ChatGPT的博弈:一场猫捉老鼠的游戏画上句号

前言 上周日我在B站发了个视频(https://www.bilibili.com/video/BV1Ud4y1e7BP)&#xff0c;本来想水一期的(毕竟一个半月没更新了)&#xff0c;不过借着ChatGPT的热度&#xff0c;播放量突破2w。 随之而来的是大批网友涌入群聊&#xff0c;想测验一下ChatGPT的性能&#xff0…

手把手教你在Ubuntu定制文件系统

为了给客户的测试和开发提供便利&#xff0c;飞凌嵌入式的开发板产品一般都支持多种操作系统&#xff0c;以基于全志T507H处理器设计研发的OKT507-C开发板为例&#xff0c;它支持三种操作系统&#xff0c;分别是&#xff1a;Linux、Android 和 Forlinx Desktop&#xff08;Ubun…

招聘惊现997工作要求!HR:因为下班比较晚,所以公司一般不加班

对于程序员来说&#xff0c;加班就像阳光和空气&#xff0c;实在是太正常不过的事情了。 就算本身并不是需要加班的公司&#xff0c;在项目上线的前夕多多少少肯定还是需要加一些班的&#xff01; 但是&#xff0c;下面这家公司就不一样了&#xff0c;直言公司就是997工作制……

Centos 配置磁盘加密(crypt-disk)

文章目录 Crypt-disk 创建一块新的磁盘,启用磁盘加密,解锁密码为“CSK2022!”; 映射到/dev/mapper/crypt 分区,并挂载到/mut/crypt 目录。一、去虚拟机添加一块磁盘二、安装cryptsetup2.对/dev/sdb 进行加密操作3.映射加密磁盘4.格式化5.挂载到到/mut/crypt 目录。题目 Cry…

Pytest测试框架(二):fixture 方法等相关操作--自定义测试用例的前置后置条件

pytest中的fixture&#xff1a; fixture是pytest特有的功能&#xff0c;它用pytest.fixture标识&#xff0c;定义在函数前面。fixture有明确的名字&#xff0c;在其他函数&#xff0c;模块&#xff0c;类或整个工程调用它时会被激活。fixture是基于模块来执行的&#xff0c;每个…

如何用C#制作 微信个人机器人

打包下载..https://github.com/wechaty/dotnet-wechaty在windows上安装docker&#xff0c;由于可能不是专业版windows10&#xff0c;可能会遇到一系列问题&#xff0c;百度能解决。可以参考 win10安装docker&#xff08;适用于windows家庭版&#xff09;_一起玩编程的博客-CSDN…

基于jsp+mysql+SSM学生兼职信息网站-计算机毕业设计

项目介绍 运行环境: 最好是java jdk 1.8&#xff0c;我们在这个平台上运行的。其他版本理论上也可以。 IDE环境&#xff1a; Eclipse,Myeclipse,IDEA都可以 tomcat环境&#xff1a; Tomcat 7.x,8.x,9.x版本均可 硬件环境&#xff1a; windows 7/8/10 1G内存以上 管理员角色…

系统的混乱并非业务本身之复杂,我们并不擅长处理『简单』

作者&#xff1a;聂晓龙 一、前言 一群高智商青年在餐厅吃饭&#xff0c;餐桌上一个瓶盖标识为盐的瓶子里装的是胡椒粉&#xff0c;而标识为胡椒粉的瓶子里装的却是盐&#xff0c;他们想出了一个充满才气的方案来完成对调--仅需要一张餐巾纸、一根吸管和两个空碟子。当他们叫来…

Jmeter 性能测试入门 ——性能插件介绍

目录 一、前言 1、首先&#xff0c;JMeter提供了三个基本的线程组&#xff0c;分别为: 2、其他线程组可以通过集成插件的方式使用&#xff0c;包括&#xff1a; 二、集成插件下载安装 1、下载地址&#xff1a;jmeter-plugins.org 2、安装&#xff1a;下载后文件为plugins…

nodejs+vue015疫情社区管理系统

目 录 摘 要 I ABSTRACT II 目 录 II 第1章 绪论 1 1.1背景及意义 1 1.2 国内外研究概况 1 1.3 研究的内容 1 第2章 相关技术 3 2.3 B/S结构 4 2.4 MySQL数据库 4 第3章 系统分析 5 3.1 需求分析 5 3.2 系统可行性分析 5 3.2.1技术可…