白嫖怪小案例———用爬虫实现csdn免费下载资源搜寻

news2025/1/21 18:55:35

前言

众所周知,在csdn下载资源有很多都是要收费的,最常见的是要积分的

但是小编囊中羞涩,买不起VIP,也没有积分,而资源又要一个一个点进去才知道是不是免费的(最爱0积分了,老白嫖怪了),很烦

 就花了一天做了个爬虫小代码来解决问题(一天?俺是菜鸟,本来也没咋练过)

顺便重温了爬虫和正则表达式,过程对本菜鸟来说挺痛苦的,估计也没人想知道,就直接放最终结果了

分步代码

导入模块

# -*- coding: utf-8 -*-
import requests
import re

数据爬取

    url = f'https://so.csdn.net/api/v3/search?q={key}&t=doc&p=1&s=0&tm=0&lv=-1&ft=0&l=&u=&ct=-1&pnt=-1&ry=-1&ss=-1&dct=-1&vco=-1&cc=-1&sc=-1&akt=-1&art=-1&ca=-1&prs=&pre=&ecc=-1&ebc=-1&platform=wap'
    # 定义 HTTP 请求头部信息,模拟浏览器访问
    headers = {
        'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/115.0.0.0 Mobile Safari/537.36 Edg/115.0.1901.203',
    }
    # 发送 HTTP GET 请求,并获取响应数据
    response = str(requests.get(url, headers=headers).json())

数据处理

    originfile = re.findall("'originfile': '(.*?)'", response)
    sourcescore = re.findall("'sourcescore': '(.*?)'", response)
    digest = re.findall("'digest': '(.*?)'", response)
    url = re.findall("'url': '(.*?)'", response)
    author = re.findall("'author': '(.*?)'", response)
    lenth = min([len(sourcescore), len(originfile), len(author), len(digest), len(url)])
    if lenth:
        dicts = {i: [sourcescore[i], originfile[i], author[i], digest[i], url[i]] for i in range(lenth)}
    else:
        print("没有找到您所要的数据")
        return 0

打印输出

    b = ["所需积分:", "文件:", "上传者:", "简介:", "下载地址:"]
    for i in dicts.values():
        if int(i[0]) <= value:
            for flag in range(5):
                print(b[flag] + i[flag])
            print("\n")

闭包封装

#  csdn积分资源搜寻器
def search(key: str, value: int):
    # 第一步,数据爬取

    url = f'https://so.csdn.net/api/v3/search?q={key}&t=doc&p=1&s=0&tm=0&lv=-1&ft=0&l=&u=&ct=-1&pnt=-1&ry=-1&ss=-1&dct=-1&vco=-1&cc=-1&sc=-1&akt=-1&art=-1&ca=-1&prs=&pre=&ecc=-1&ebc=-1&platform=wap'
    # 定义 HTTP 请求头部信息,模拟浏览器访问
    headers = {
        'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/115.0.0.0 Mobile Safari/537.36 Edg/115.0.1901.203',
    }
    # 发送 HTTP GET 请求,并获取响应数据
    response = str(requests.get(url, headers=headers).json())

    # 第二部,数据处理

    originfile = re.findall("'originfile': '(.*?)'", response)
    sourcescore = re.findall("'sourcescore': '(.*?)'", response)
    digest = re.findall("'digest': '(.*?)'", response)
    url = re.findall("'url': '(.*?)'", response)
    author = re.findall("'author': '(.*?)'", response)
    lenth = min([len(sourcescore), len(originfile), len(author), len(digest), len(url)])
    if lenth:
        dicts = {i: [sourcescore[i], originfile[i], author[i], digest[i], url[i]] for i in range(lenth)}
    else:
        print("没有找到您所要的数据")
        return 0

    # 第三步,打印输出
    b = ["所需积分:", "文件:", "上传者:", "简介:", "下载地址:"]
    for i in dicts.values():
        if int(i[0]) <= value:
            for flag in range(5):
                print(b[flag] + i[flag])
            print("\n")

传参调用

if __name__ == '__main__':
    print("这里是csdn免费资源搜寻器")
    keys = input("请输入你想搜索的东西:")
    values = int(input("请输入你想限制的最大积分数:"))
    print("好的,请稍等片刻")
    search(keys, values)
    s = input("任务完成输入任意字符回车可关闭窗口")

此时,整个案例就算完成了,后面附加完整代码和打包成.exe文件的方法

完整代码

# -*- coding: utf-8 -*-
import requests
import re

"""
由于csdn的付费资源也是0积分,俺是菜鸟,能力不足,无法筛选出去,请留意
"""


#  csdn积分资源搜寻器
def search(key: str, value: int):
    # 第一步,数据爬取

    url = f'https://so.csdn.net/api/v3/search?q={key}&t=doc&p=1&s=0&tm=0&lv=-1&ft=0&l=&u=&ct=-1&pnt=-1&ry=-1&ss=-1&dct=-1&vco=-1&cc=-1&sc=-1&akt=-1&art=-1&ca=-1&prs=&pre=&ecc=-1&ebc=-1&platform=wap'
    # 定义 HTTP 请求头部信息,模拟浏览器访问
    headers = {
        'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/115.0.0.0 Mobile Safari/537.36 Edg/115.0.1901.203',
    }
    # 发送 HTTP GET 请求,并获取响应数据
    response = str(requests.get(url, headers=headers).json())

    # 第二部,数据处理

    originfile = re.findall("'originfile': '(.*?)'", response)
    sourcescore = re.findall("'sourcescore': '(.*?)'", response)
    digest = re.findall("'digest': '(.*?)'", response)
    url = re.findall("'url': '(.*?)'", response)
    author = re.findall("'author': '(.*?)'", response)
    lenth = min([len(sourcescore), len(originfile), len(author), len(digest), len(url)])
    if lenth:
        dicts = {i: [sourcescore[i], originfile[i], author[i], digest[i], url[i]] for i in range(lenth)}
    else:
        print("没有找到您所要的数据")
        return 0

    # 第三步,打印输出
    b = ["所需积分:", "文件:", "上传者:", "简介:", "下载地址:"]
    for i in dicts.values():
        if int(i[0]) <= value:
            for flag in range(5):
                print(b[flag] + i[flag])
            print("\n")


# 传参调用
if __name__ == '__main__':
    print("这里是csdn免费资源搜寻器")
    keys = input("请输入你想搜索的东西:")
    values = int(input("请输入你想限制的最大积分数:"))
    print("好的,请稍等片刻")
    search(keys, values)
    s = input("任务完成输入任意字符回车可关闭窗口")

打包使用

pycharm安装打包工具

打开终端输入运行命令

pip install pyinstaller

 打包成.exe文件

pyinstaller -F -i image.ico -n name main.py

图标最好用.ico格式,(虽然我的png好像也成功了),图标要换成自己的图片路径,name换成自己想要的名字,main.py 是你要打包的文件,没弹窗有输出的别写-w

参数说明 
  • -F 或 --onefile:默认为禁用,即生成一个文件夹而不是单个可执行文件。
  • -D 或 --onedir:默认为启用,即生成一个包含可执行文件和相关文件的文件夹。
  • -n <name> 或 --name=<name>:默认为输入文件的基本名称。
  • -w 或 --windowed:默认为禁用,即生成一个没有带控制台窗口的控制台程序。
  • -c 或 --console:默认为启用,即生成一个有控制台窗口的窗口化程序。
  • -i <icon> 或 --icon=<icon>:默认为无,默认情况下没有指定图标文件。
  • -a <dir> 或 --add-data <dir>:默认为无,默认情况下不添加任何文件或目录。
  • -b 或 --debug:默认为禁用,即生成一个不带调试信息的可执行文件。
  • -p <path> 或 --path=<path>:默认为系统默认的模块搜索路径。
  • -y 或 --noconfirm:默认为禁用,即在运行过程中会询问问题。
 注意
  • -w 参数禁用控制台窗口,生成的程序将不会显示命令行窗口。这在需要一个无窗口的GUI应用程序时非常有用。

  • -c 参数生成一个带有控制台窗口的控制台程序,即生成的程序将在命令行窗口中运行,并可以查看程序的输出和错误信息。

默认情况下,PyInstaller会生成一个带有控制台窗口的控制台程序,因此-c 参数默认启用,而 -w 参数默认禁用。

 

 成功后生成build,dist,spec,东西在dist里,其他不重要,可删。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/895356.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Egg.js构建一个stream流式接口服务

经常需要用到 stream 流式接口服务,比如&#xff1a;大文件下载、日志实时输出等等。本文将介绍如何使用Egg.js构建一个 stream 流式接口服务。 一、准备工作 目录结构&#xff1a; app//controllerindex.jstest.txttest.shindex.js 控制器test.txt 测试文件&#xff0c;最好…

vue3 injection报错 injection“xxx“ not found.

在封装CheckboxGroup组件的的时候&#xff0c;需要通过provide&#xff0c;代码如下&#xff1a; //父组件 <template><div class"envCheckBoxGroup"><slot></slot></div> </template> <script setup> import { provide …

【云原生】3分钟快速在Kubernetes部署Prometheus2.42+Grafana9.5.1+Alertmanager0.25

文章目录 1、简介2、GitHub地址3、环境信息4、安装5、访问Grafana1、简介 Prometheus-operator帮助我们快速创建Prometheus+Grafana+Alertmanager等服务,而kube-prometheus更加完整的帮助我们搭建全套监控体系,这包括部署多个 Prometheus 和 Alertmanager 实例, 指标导出器…

Spring系列篇--关于Spring Bean完整的生命周期【附有流程图,超级易懂】

&#x1f973;&#x1f973;Welcome Huihuis Code World ! !&#x1f973;&#x1f973; 接下来看看由辉辉所写的关于Spring的相关操作吧 目录 &#x1f973;&#x1f973;Welcome Huihuis Code World ! !&#x1f973;&#x1f973; 一.Spring Bean是单例模式还是多例模式 二…

【脚踢数据结构】查找

(꒪ꇴ꒪ )&#xff0c;Hello我是祐言QAQ我的博客主页&#xff1a;C/C语言&#xff0c;Linux基础&#xff0c;ARM开发板&#xff0c;软件配置等领域博主&#x1f30d;快上&#x1f698;&#xff0c;一起学习&#xff0c;让我们成为一个强大的攻城狮&#xff01;送给自己和读者的…

代码随想录—力扣算法题:707设计链表.Java版(示例代码与导图详解)

版本说明 当前版本号[20230818]。 版本修改说明20230818初版 目录 文章目录 版本说明目录707.设计链表思路获取链表第index个节点的数值在链表的最前面插入一个节点在链表的最后面插入一个节点在链表第index个节点前面插入一个节点删除链表的第index个节点 单链表角度总结 7…

STM32入门——IIC通讯

江科大STM32学习记录 I2C通信 I2C&#xff08;Inter IC Bus&#xff09;是由Philips公司开发的一种通用数据总线两根通信线&#xff1a;SCL&#xff08;Serial Clock&#xff09;、SDA&#xff08;Serial Data&#xff09;同步&#xff0c;半双工带数据应答支持总线挂载多设备…

Python“牵手”lazada商品评论数据采集方法,lazadaAPI申请指南

lazada平台API接口是为开发电商类应用程序而设计的一套完整的、跨浏览器、跨平台的接口规范&#xff0c;lazadaAPI接口是指通过编程的方式&#xff0c;让开发者能够通过HTTP协议直接访问lazada平台的数据&#xff0c;包括商品信息、店铺信息、物流信息等&#xff0c;从而实现la…

程序人生:进不了大厂的测试员,究竟还有没有出路了?

金九银十的到来&#xff0c;使得许多职场人按耐不住&#xff0c;纷纷开始找寻合适的工作机会。猎头和HR们摩拳擦掌&#xff0c;争取在这两个月给今年多加点业绩。 对许多互联网人来说&#xff0c;跳槽意味着加薪&#xff0c;而对于程序员而言&#xff0c;是否能跳槽进大厂是他…

前端---需要了解浏览器相关知识--浏览器请求服务器资源---缓存

知识点1: 掘金1&#xff1a;浏览器缓存 掘金2 :浏览器缓存 一、浏览器缓存 请求&#xff08;静态资源 &#xff5c; 动态资源&#xff09; 一、缓存是什么&#xff1f; 如果没有缓存的机制 每次都要重新请求静态资源 1.从网络上的下载时间&#xff0c;肯定大于从硬盘里读的…

《树莓派4B家庭服务器搭建指南》第二十期:在树莓派运行rsnapshot, 实现对服务器数据低成本增量本地备份

title: 020《树莓派4B家庭服务器搭建指南》第二十期&#xff1a;在树莓派运行rsnapshot, 实现对服务器数据低成本增量本地备份 我的天翼云服务器有/opt 和 /usr/share/nginx两个目录, 用来存储网站的内容, 数据无价, 为了避免珍贵的数据丢失&#xff0c;我决定使用树莓派运行 …

TikTok或将于8月底关闭半闭环、速卖通或将推出“半托管”模式

《出海周报》是运营坛为外贸企业主和外贸人独家打造的重要资讯栏目&#xff0c;聚焦企业出海、海外市场动态、海外监管政策等方面&#xff0c;以简捷的方式&#xff0c;提升读者获取资讯的效率。 接下来运营坛为大家带来第15期出海周报&#xff0c;快来看看这周国内外市场发生了…

【经验】VScode远程连接Ubuntu出错的解决办法(2023年,完整的排查思路)

用VScode常常会碰到以下情况&#xff0c;Could not establish connection。 先介绍一下VScode远程连接和终端SSH连接的区别&#xff1a;终端直接用SSH连接时&#xff0c;只需要开启SSH服务&#xff0c;并消耗少量的内存即可&#xff1b;VScode连接时&#xff0c;会自动在服务器…

HCIP实验之MPLS

目录 一&#xff0c;实验题目 ​编辑 拓扑与IP地址规划如图所示 二&#xff0c;实验思路 三&#xff0c;实验步骤 3.1 私网部分IP地址配置 3.2 LSP部分配置 3.3 启动OSPF协议 3.4 启动MPLS协议 3.5 启动MPLS VPN 3.6 实现公网私网互通 3.7 配置BGP 3.8 双向重发布 …

Python软件外包开发框架

Python有许多流行的开发框架&#xff0c;用于不同类型的应用开发&#xff0c;包括Web应用、数据科学、人工智能等。以下分享一些常见的Python开发框架及其特点&#xff0c;希望对大家有所帮助。北京木奇移动技术有限公司&#xff0c;专业的软件外包开发公司&#xff0c;欢迎交流…

[MySQL] — 数据类型和表的约束

目录 数据类型 数据类型分类 数值类型 tinyint类型 bit类型 小数类型 float decimal 字符串类型 char varchar char和varchar的区别 日期和时间类型 enum 和 set 表的约束 空属性 默认值 列描述 zeorfill 主键 创建表时在字段上指定主键 删除主键&#xff1a; 追…

Lnton羚通算法算力云平台在环境配置时 OpenCV 无法显示图像是什么原因?

问题&#xff1a; cv2.imshow 显示图像时报错&#xff0c;无法显示图像 0%| | 0/1 [00:00<…

IDEA连接MySQL数据库错误

说明&#xff1a;使用IDEA连接云服务器中的MySQL数据库时&#xff0c;报下面的这个错误&#xff1b; [08S01] Communications link failureThe last packet sent successfully to the server was 0 milliseconds ago. The driver has not received any packets from the serve…

docker cURL error 6: Could not resolve host

场景&#xff1a; 微信小程序 获取 用户 openpid&#xff0c;在此之前&#xff0c;我需要先 "获取稳定版接口调用凭据"&#xff0c;根据手册提示的&#xff0c;要先调用 https://api.weixin.qq.com/cgi-bin/stable_token 我这边就开始了请求&#xff0c;结果返回了…

上班族的高效时间管理软件,可一直显示在电脑桌面上

在现代职场中&#xff0c;相信工作党都深有体会&#xff0c;繁忙的工作带来的压力和任务都堆积如山&#xff0c;如果没有一个良好的时间管理系统&#xff0c;我们可能会一筹莫展。而高效管理时间的好处也是显而易见的&#xff0c;它不仅可以帮助我们更好地安排工作&#xff0c;…