当前位置: 首页 > news >正文

【从零开始制作 bt 下载器】一、了解 torrent 文件

【从零开始制作 bt 下载器】一、了解 torrent 文件

    • 写作背景
    • 了解 torrent 文件
    • 认识 bencode
    • python 解析 torrent 文件
    • 解密 torrent 文件
    • 结尾

写作背景

最先开始是朋友向我诉说使用某雷下载结果显示因为版权无法下载,找其他的下载器有次数限制,于是来询问我是否能自己制作一个 bt 下载器。

都问到门儿上来了,是男人就不能退缩。我答应下来,并开启这个专栏。让我们一点点解开 P2P 的面纱,制作一个属于自己的 bt 下载器吧!

因为能力有限,所以如果出现 措辞不当解释不通 情况,烦请各位大佬在评论区指出!

了解 torrent 文件

首先让我们来看看传说中的 torrent 文件中都包含了什么信息(随便找了个举例子,直接 ‘rb’ 读取),如下图所示。
在这里插入图片描述在这里插入图片描述
我们可以发现一些规律,文件都是以 d 开头,后边数字,然后冒号,再一些字符,这就是 bencode

认识 bencode

bencode 编码用来进行信息描述,包括四种数据类型,以 python 数据类型作为参照来说就是 strintlistdict

  • str ,字符类型,格式是 【Length】:【String】 ,就是这个字符串的长度,一个冒号,该字符串。我们就很容易读取字符串,如果碰到数字,后边跟了个冒号,那么就读取这个数字长度即为我们要的字符串。
  • int ,整数类型,格式是 i【int】e ,就是以字符 i 开头,e 结尾,中间是数字,而其中的数字即为所求。
  • list ,列表类型,格式类似于整数类型,和整数类型的差别就在于是以 l 开头,而其中的内容可以是字符串、整数、嵌套列表,可以在读取到 l 、判断为列表时对其中的内容进行递归,获取列表中的每一个元素。
  • dict ,字典类型,格式也类似于列表类型,只不过是以 d 开头,其中的内容就要以键值对的形式读,也就是先读到的元素作为键,后边一个元素作为值,然后再开启下一个键值对。

python 解析 torrent 文件

看过了 bencode ,是不是觉得很简单,那现在就用 pythontorrent 文件进行解析吧,看看里边都有什么内容。

倒是有现成的库 bencode ,但我尝试后发现每个元素都是 bytes 类型(也有可能是我哪里没有设置导致的吧),我还是想将可以转化的都转化一下,所以最后决定自己写一个。

直接上代码。

def tdecode(fread, dtype=None):# 初始化变量length = b''if dtype in ['str', 'int']:data = b''elif dtype == 'list':data = []elif dtype == 'dict':key = b''data = {}elif dtype is None:passelse:raise ValueError(f'Input param `dtype` "{dtype}" is invalid, valuable: ["str", "int", "list", "dict"].')# 对文件进行读取while True:# 每次读取一个字符c = fread.read(1)# 以特定字符作为起始的较为特殊的类型d_list = {b'i': 'int', b'l': 'list', b'd': 'dict'}if c in d_list or c == b':':# 如果属于上述特殊类型,则进行递归,并获取递归结果# 否则为字符串类型,直接读取 length 字节current = tdecode(fread, d_list[c]) if c in d_list else fread.read(eval(length))length = b''# 将字节转为字符串,其余类型不变# 也可能碰到 hash 值无法解码,直接存储字节流try:current = current.decode() if isinstance(current, bytes) else currentexcept:pass# 如果当前类型是字符串或者整数类型,直接返回if dtype in ['str', 'int']:return current if dtype == 'str' else eval(current)# 列表类型直接加入列表elif dtype == 'list':data.append(current)# 字典类型需要判断是否有键,没有的话就设置,有的话将键值对加入字典elif dtype == 'dict':if not key: key = currentelse:data[key] = currentkey = b''# 针对所有数据为一个大字典,如果变量 data 不存在则返回变量 currentelse: return data if 'data' in locals().keys() else current# 如果是数字 0-9 或者数字的负号,则记录到 length 变量中,可能代表字符串的长度,也可能代表整数类型elif 48 <= ord(c) <= 57 or (c == b'-' and dtype == 'int'):length += c# 类型结尾符,整数类型就 eval 后返回,列表和字典直接返回elif c == b'e':if dtype == 'int': return eval(length)else: return dataelse:pass

这个函数接受两个参数,

  • 第一个就是使用 open 函数以 rb 模式打开的 _io.BufferedReader 对象,注意一定要是 rb 打开,因为其中存储的 hash 值无法解码,直接使用 r 读取会报错。
  • 第二个就是当前要读取的元素的类型,初始的话 None 就好了。

P.S. 先开始我想的是构造一些变量对当前读取到的元素进行存储,四种类型都要存储,但因为有嵌套关系的存在,我放弃了直接拿同一变量存储很多元素,因为很多时候不知道会嵌套多少层,写起来比较麻烦,所以就写了个函数,利用函数递归来区分不同层次的元素。

解密 torrent 文件

我们这时候就可以比较方便地看看 torrent 文件中到底存储了什么数据。下面是开头那两个 torrent 文件解析后的结果。

在这里插入图片描述在这里插入图片描述
可以看到键有 announce-listcommentinfo 等等,info 又是一个字典,包含了一些信息,这些都在后边的文章中解释有什么作用。

这样解码的工作就完成了。




结尾

有想要一起学习 python 的小伙伴可以 私信我 进群哦。

以上就是我要分享的内容,因为 学识尚浅会有不足,还 请各位大佬指正
有什么问题也可在评论区留言。
在这里插入图片描述

http://www.lryc.cn/news/20693.html

相关文章:

  • SystemVerilog-时序逻辑建模(5)多个时钟和时钟域交叉
  • 基本中型网络的仿真(RYU+Mininet的SDN架构)-以校园为例
  • 西北工业大学大学物理(II)期末试题选填解析2021-2022
  • 【USB】windows热插拔通知接口分析
  • CMake入门
  • python中一种编写config文件并及时更新的方法
  • 基于Windows下离线安装当前最新Arduino ESP32 SDK(2.0.7)固件开发包
  • Android 9.0 app添加校验锁(输入密码才能进入app)
  • 注意力机制详解系列(二):通道注意力机制
  • 动态规划-规划兼职工作
  • Redis学习笔记(二)Redis基础(基于5.0.5版本)
  • Ancaonda常用cmd命令总结
  • yolov5_reid【附代码,行人重识别,可做跨视频人员检测】
  • 多模态预训练模型综述
  • 华为OD机试题,用 Java 解【玩牌高手】问题
  • 数学建模 latex 图片以及表格排版整理(overleaf)
  • 进程优先级(Linux)
  • [面试直通版]网络协议面试核心之IP,TCP,UDP-TCP与UDP协议的区别
  • VO,BO,PO,DO,DTO,AO的区别
  • JavaSE学习笔记day15
  • Spring Security认证研究
  • BigKey、布隆过滤器、分布式锁、红锁
  • 一文让你彻底理解Linux内核调度器进程优先级
  • Java 抽象类和接口
  • 三行代码让你的git记录保持整洁
  • 阿里巴巴内网 Java 面试 2000 题解析(2023 最新版)
  • 网络应用之静态Web服务器
  • IndexDB 浏览器服务器
  • 追梦之旅【数据结构篇】——详解C语言实现链队列
  • SpringMVC - 13 - SpringMVC执行流程