当前位置: 首页 > news >正文

【机器学习】【分子属性预测】——python读取.tar.gz文件(以OC22数据集为例)

1 Pre-knowledge

   .tar.gz 文件是一种常见的压缩文件格式,它实际上是两种压缩格式的组合:.tar 和 .gz。

  • .tar:这是“tape archive”的缩写,是一种打包(archiving)文件格式,用于将多个文件和目录合并成一个单一的文件,以便存储或传输。.tar 文件本身并不压缩数据,它只是将文件和目录打包在一起。
  • .gz:这是“gzip”的缩写,是一种压缩程序,使用LZ77算法对文件进行压缩。.gz 文件是gzip压缩程序压缩过的文件。

   当一个文件被压缩为 .tar.gz 或 .tgz 格式时,意味着该文件首先被打包成一个 .tar 文件,然后这个 .tar 文件被gzip程序进一步压缩。这样做的好处是可以先打包多个文件,再进行压缩,使得文件传输和存储更加高效。

2 OC22 Download

   我们使用到的数据集为OC22中的IS2RS/IS2RE。点击html中的蓝色链接即可下载原始数据。
html link:https://fair-chem.github.io/core/datasets/oc22.html
figure 1

3 Code

import tarfile# 指定解压缩的文件名
in_path = "data/is2res_total_train_val_test_lmdbs.tar.gz"# 打开.tar.gz文件
tar = tarfile.open(in_path, "r:gz")# 列出压缩包中的文件
for member in tar.getmembers():print(member.name)# 提取压缩包中的文件
tar.extractall()# 关闭tar文件
tar.close()

首先使用tarfile.open()函数打开.tar.gz文件,参数”r:gz”指定了以读取、gzip压缩的模式打开文件。然后使用tar.getmembers()函数列出压缩包中的文件,并逐个打印文件名。最后,使用tar.extractall()函数提取压缩包中的所有文件到当前目录,tar.close()函数关闭tar文件。

4 Result

  1. 输出压缩包中的文件名为:
    figure 2

  2. 在使用tar.extractall()函数后将数据解压缩到了文件名称所对应的目录。
    figure 3

http://www.lryc.cn/news/501322.html

相关文章:

  • Qt中禁止或管理任务栏关闭窗口的行为
  • docker的网络类型和使用方式
  • 二维立柱图|积水类问题
  • vue前端实现导出页面为word(两种方法)
  • 22. Three.js案例-创建旋转的圆环面
  • Elasticsearch:使用阿里 infererence API 及 semantic text 进行向量搜索
  • Linux WEB服务器的部署及优化
  • 人工智能大模型LLM开源资源汇总(持续更新)
  • 目标跟踪算法:SORT、卡尔曼滤波、匈牙利算法
  • Java版-图论-拓扑排序与有向无环图
  • GTC2024 回顾 | 优阅达携手 HubSpot 亮相上海,赋能企业数字营销与全球业务增长
  • eclipse启动的时候,之前一切很正常,但突然报Reason: Failed to determine a suitable driver class的解决
  • _tkinter.TclError: can‘t find package tkdnd Unable to load tkdnd library.解决办法
  • VBA高级应用30例应用在Excel中的ListObject对象:向表中添加注释
  • folly库Conv类型转换源码解析
  • UE4 骨骼网格体合并及规范
  • Java版企业电子招标采购系统源业码Spring Cloud + Spring Boot +二次开发+ MybatisPlus + Redis
  • 通过源码⼀步⼀步分析 ArrayList 扩容机制
  • 源码分析之Openlayers中默认Controls控件渲染原理
  • 中间件的分类与实践:从消息到缓存
  • 京东e卡 h5st 4.96
  • 《CSS 知识点》滚动条仅在 hover 时才显示(宽度不改变)
  • 手里有病理切片+单细胞测序的数据,如何开展医工交叉的研究?
  • 力矩扭矩传感器介绍
  • 【Appium】AttributeError: ‘NoneType‘ object has no attribute ‘to_capabilities‘
  • QT 中 多线程(备查)
  • 第八十六条:在实现serializable接口时要特别谨慎
  • 【Elasticsearch 中间件】Elasticsearch 客户端使用案例
  • 深入理解MySQL中的ONLY_FULL_GROUP_BY
  • 获得日志记录之外的新视角:应用程序性能监控简介(APM)