【从零开始制作 bt 下载器】一、了解 torrent 文件

news2024/12/22 20:04:39

【从零开始制作 bt 下载器】一、了解 torrent 文件

    • 写作背景
    • 了解 torrent 文件
    • 认识 bencode
    • python 解析 torrent 文件
    • 解密 torrent 文件
    • 结尾

写作背景

最先开始是朋友向我诉说使用某雷下载结果显示因为版权无法下载,找其他的下载器有次数限制,于是来询问我是否能自己制作一个 bt 下载器。

都问到门儿上来了,是男人就不能退缩。我答应下来,并开启这个专栏。让我们一点点解开 P2P 的面纱,制作一个属于自己的 bt 下载器吧!

因为能力有限,所以如果出现 措辞不当解释不通 情况,烦请各位大佬在评论区指出!

了解 torrent 文件

首先让我们来看看传说中的 torrent 文件中都包含了什么信息(随便找了个举例子,直接 ‘rb’ 读取),如下图所示。
在这里插入图片描述在这里插入图片描述
我们可以发现一些规律,文件都是以 d 开头,后边数字,然后冒号,再一些字符,这就是 bencode

认识 bencode

bencode 编码用来进行信息描述,包括四种数据类型,以 python 数据类型作为参照来说就是 strintlistdict

  • str ,字符类型,格式是 【Length】:【String】 ,就是这个字符串的长度,一个冒号,该字符串。我们就很容易读取字符串,如果碰到数字,后边跟了个冒号,那么就读取这个数字长度即为我们要的字符串。
  • int ,整数类型,格式是 i【int】e ,就是以字符 i 开头,e 结尾,中间是数字,而其中的数字即为所求。
  • list ,列表类型,格式类似于整数类型,和整数类型的差别就在于是以 l 开头,而其中的内容可以是字符串、整数、嵌套列表,可以在读取到 l 、判断为列表时对其中的内容进行递归,获取列表中的每一个元素。
  • dict ,字典类型,格式也类似于列表类型,只不过是以 d 开头,其中的内容就要以键值对的形式读,也就是先读到的元素作为键,后边一个元素作为值,然后再开启下一个键值对。

python 解析 torrent 文件

看过了 bencode ,是不是觉得很简单,那现在就用 pythontorrent 文件进行解析吧,看看里边都有什么内容。

倒是有现成的库 bencode ,但我尝试后发现每个元素都是 bytes 类型(也有可能是我哪里没有设置导致的吧),我还是想将可以转化的都转化一下,所以最后决定自己写一个。

直接上代码。

def tdecode(fread, dtype=None):
    # 初始化变量
    length = b''
    if dtype in ['str', 'int']:
        data = b''
    elif dtype == 'list':
        data = []
    elif dtype == 'dict':
        key = b''
        data = {}
    elif dtype is None:
        pass
    else:
        raise ValueError(f'Input param `dtype` "{dtype}" is invalid, valuable: ["str", "int", "list", "dict"].')

    # 对文件进行读取
    while True:
        # 每次读取一个字符
        c = fread.read(1)

        # 以特定字符作为起始的较为特殊的类型
        d_list = {b'i': 'int', b'l': 'list', b'd': 'dict'}
        if c in d_list or c == b':':
            # 如果属于上述特殊类型,则进行递归,并获取递归结果
            # 否则为字符串类型,直接读取 length 字节
            current = tdecode(fread, d_list[c]) if c in d_list else fread.read(eval(length))
            length = b''

            # 将字节转为字符串,其余类型不变
            # 也可能碰到 hash 值无法解码,直接存储字节流
            try:
                current = current.decode() if isinstance(current, bytes) else current
            except:
                pass

            # 如果当前类型是字符串或者整数类型,直接返回
            if dtype in ['str', 'int']:
                return current if dtype == 'str' else eval(current)
            # 列表类型直接加入列表
            elif dtype == 'list':
                data.append(current)
            # 字典类型需要判断是否有键,没有的话就设置,有的话将键值对加入字典
            elif dtype == 'dict':
                if not key: key = current
                else:
                    data[key] = current
                    key = b''
            # 针对所有数据为一个大字典,如果变量 data 不存在则返回变量 current
            else: return data if 'data' in locals().keys() else current
        # 如果是数字 0-9 或者数字的负号,则记录到 length 变量中,可能代表字符串的长度,也可能代表整数类型
        elif 48 <= ord(c) <= 57 or (c == b'-' and dtype == 'int'):
            length += c
        # 类型结尾符,整数类型就 eval 后返回,列表和字典直接返回
        elif c == b'e':
            if dtype == 'int': return eval(length)
            else: return data
        else:
            pass

这个函数接受两个参数,

  • 第一个就是使用 open 函数以 rb 模式打开的 _io.BufferedReader 对象,注意一定要是 rb 打开,因为其中存储的 hash 值无法解码,直接使用 r 读取会报错。
  • 第二个就是当前要读取的元素的类型,初始的话 None 就好了。

P.S. 先开始我想的是构造一些变量对当前读取到的元素进行存储,四种类型都要存储,但因为有嵌套关系的存在,我放弃了直接拿同一变量存储很多元素,因为很多时候不知道会嵌套多少层,写起来比较麻烦,所以就写了个函数,利用函数递归来区分不同层次的元素。

解密 torrent 文件

我们这时候就可以比较方便地看看 torrent 文件中到底存储了什么数据。下面是开头那两个 torrent 文件解析后的结果。

在这里插入图片描述在这里插入图片描述
可以看到键有 announce-listcommentinfo 等等,info 又是一个字典,包含了一些信息,这些都在后边的文章中解释有什么作用。

这样解码的工作就完成了。




结尾

有想要一起学习 python 的小伙伴可以 私信我 进群哦。

以上就是我要分享的内容,因为 学识尚浅会有不足,还 请各位大佬指正
有什么问题也可在评论区留言。
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/372275.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Redis学习笔记(二)Redis基础(基于5.0.5版本)

一、Redis定位与特性 Redis是一个速度非常快的非关系数据库&#xff08;non-relational database&#xff09;&#xff0c;用 Key-Value 的形式来存储数据。数据主要存储在内存中&#xff0c;所以Redis的速度非常快&#xff0c;另外Redis也可以将内存中的数据持久化到硬盘上。…

[SSD综述 1.3] SSD及固态存储技术半个世纪发展史

在我们今天看来&#xff0c;SSD已不再是个新鲜事物。这多亏了存储行业的前辈们却摸爬滚打了将近半个世纪&#xff0c;才有了SSD的繁荣&#xff0c; 可惜很多前辈都没有机会看到。所有重大的技术革新都是这样&#xff0c;需要长期的技术积累&#xff0c;一代一代的工程师们默默的…

华为OD机试用Python实现 -【狼羊过河 or 羊、狼、农夫过河】(2023-Q1 新题)

华为OD机试题 华为OD机试300题大纲狼羊过河 or 羊、狼、农夫过河题目描述输入描述输出描述说明示例一输入输出说明Python 代码实现代码实现思路华为OD机试300题大纲 参加华为od机试,一定要注意不要完全背诵代码,需要理解之后模仿写出,通过率才会高。 华为 OD 清单查看地址…

学到贫血之-贫血模型和充血模型

学习自&#xff1a;设计模式之美 1 基于贫血模型的传统开发模式 // ControllerVO(View Object) public class UserController {private UserService userService; //通过构造函数或者IOC框架注入public UserVo getUserById(Long userId) {UserBo userBo userService.getUser…

【华为OD机试模拟题】用 C++ 实现 - 相对开音节(2023.Q1)

最近更新的博客 【华为OD机试模拟题】用 C++ 实现 - 获得完美走位(2023.Q1) 文章目录 最近更新的博客使用说明相对开音节题目输入输出示例一输入输出说明示例二输入输出说明Code使用说明 参加华为od机试,一定要注意不要完全背诵代码,需要理解之后模仿写出,通过率才会高…

【云原生】搭建k8s高可用集群—20230225

文章目录多master&#xff08;高可用&#xff09;介绍高可用集群使用技术介绍搭建高可用k8s集群步骤1. 准备环境-系统初始化2. 在所有master节点上部署keepalived3.1 安装相关包3.2 配置master节点3.3 部署haproxy错误解决3. 所有节点安装Docker/kubeadm/kubelet4. 部署Kuberne…

《痞子衡嵌入式半月刊》 第 72 期

痞子衡嵌入式半月刊&#xff1a; 第 72 期 这里分享嵌入式领域有用有趣的项目/工具以及一些热点新闻&#xff0c;农历年分二十四节气&#xff0c;希望在每个交节之日准时发布一期。 本期刊是开源项目(GitHub: JayHeng/pzh-mcu-bi-weekly)&#xff0c;欢迎提交 issue&#xff0c…

【华为OD机试模拟题】用 C++ 实现 - 求解连续数列+和最大子矩阵(2023.Q1 双倍快乐)

最近更新的博客 【华为OD机试模拟题】用 C++ 实现 - 获得完美走位(2023.Q1) 文章目录 最近更新的博客使用说明求解连续数列题目输入输出描述示例一输入输出Code和最大子矩阵题目输入输出示例一输入输出说明

CMU15-445 Project.0总结

在线测试 本地测试 Project #0 - C Primer 以下是Project #0的网址&#xff0c;2022FALL的Project #0本质上是实现一棵字典树&#xff0c;关于字典树的相关内容可以参考C实现字典树。 在本题中&#xff0c;为了存储对应着字符串的任意类型值&#xff0c;题目设计了一个Tri…

CV——day79 读论文:基于小目标检测的扩展特征金字塔网络

Extended Feature Pyramid Network for Small Object DetectionI. INTRODUCTIONII. RELATED WORKA. 深层物体探测器B. 跨尺度特征C. 目标检测中的超分辨率III. OUR APPROACHA. 扩展特征金字塔网络B. 特征纹理传输C. 交叉分辨蒸馏IV. EXPERIMENTSA. Experimental Settings1&…

SEATA是什么?它的四种分布式事务模式

一、SEATA是什么&#xff1f; Seata 是一款开源的分布式事务解决方案&#xff0c;致力于提供高性能和简单易用的分布式事务服务。Seata 将为用户提供了 AT、TCC、SAGA 和 XA 事务模式&#xff0c;为用户打造一站式的分布式解决方案。 在继续学习使用SEATA之前&#xff0c;对s…

电子科技大学数据库与软件工程实验五

适用于网工和物联网专业 期末考试会考 目录 一、实验目的 二、实验内容 三、实验软件 四、实验步骤及数据记录 1. 权限管理 2. 数据库备份 3. 生成 AWR 报告 五、实验结论及思考题 六、总结及心得体会 七、对本实验过程及方法、手段的改进建议 一、实验目的 1、掌握…

工作九年的机器人讲师收入如何

如下都是个人情况&#xff0c;供各位朋友参考&#xff0c;仅为个人情况&#xff0c;只代表我个人。为何写这样一篇博客&#xff1a;看了最近的热点我在一所普普通通的不知名高校工作了九年。如果问及我存款……我实在是非常非常惭愧的。真实数值如下&#xff08;组合贷&#xf…

【数据库】第八章 数据库编程

第八章 数据库编程 8.1 嵌入式SQL&#xff08;C语言版&#xff09; 被嵌入的语言&#xff08;java ,C)等被称为宿主语言&#xff0c;简称主语言 当主语言 为 C 语言的时候 ​ 语法格式为 EXEC SQL <SQL语句>当主语言为java的时候 格式为 #SQL {<SQL语句>}以下讲解…

MATLAB | 如何解决实验数据散点图重叠问题(overlap)

本期部分实验效果&#xff1a; 这期讲一下如果数据重合严重该咋办(overlap)&#xff0c;事先说明&#xff0c;本文中的绘图均使用一个几行的简单小代码进行了修饰&#xff1a; function defualtAxes axgca;hold on;box on ax.XGridon; ax.YGridon; ax.XMinorTickon; ax.YMinor…

Redis 之企业级解决方案

文章目录一、缓存预热二、缓存雪崩三、缓存击穿四、缓存穿透五、性能指标监控5.1 监控指标5.2 监控方式&#x1f34c;benchmark&#x1f34c;monitor&#x1f34c;slowlog提示&#xff1a;以下是本篇文章正文内容&#xff0c;Redis系列学习将会持续更新 一、缓存预热 1.1 现象…

云服务器产生背景与历史演进

云服务器产生背景  业务量爆发和衰退周期考验后端服务器性能匹配 在传统IT架构中&#xff0c;需要提前预估业务爆发时间和业务量&#xff0c;提前部署服务器以支撑业务。但是&#xff0c;往往预估与实际结果是有差距的&#xff0c;预估量过大会造成服务器采购成本高&#x…

阿里巴巴内网 Java 面试 2000 题解析(2023 最新版)

前言 这份面试清单是今年 1 月份之后开始收集的&#xff0c;一方面是给公司招聘用&#xff0c;另一方面是想用它来挖掘在 Java 技术栈中&#xff0c;还有一些知识点是我还在探索的&#xff0c;我想找到这些技术盲点&#xff0c;然后修复它&#xff0c;以此来提高自己的技术水平…

2016年chatGPT之父Altman与马斯克的深度对话(值得一看)

2016年9月&#xff0c;现今OpenAI CEO&#xff0c;ChatGPT之父&#xff0c;时任创投公司Y Combinator的总裁Sam Altman在特斯拉加州弗里蒙特工厂采访了埃隆马斯克。马斯克阐述了创建OpenAI的初衷&#xff0c;以及就他而言&#xff0c;对于未来最为重要的五件事。这是OpenAI的两…

【概念辨析】大小端存储

一、情境 在进行内存调试窗口的查看时&#xff0c;是不是会有一种错觉&#xff0c;就是它存的数据与我们预期的都是颠倒的&#xff0c;比如&#xff1a; 这里的a就和我们预期的不是很相同。 二、大小端 大小端是计算机厂家根据自己的习惯制定的关于数据字节序的规则。 1.大端…