当前位置: 首页 > news >正文

成为git砖家(10): 根据文件内容生成SHA-1

文章目录

    • 1. `.git/objects` 目录
    • 2. `git cat-file` 命令
    • 3. 根据文件内容生成 sha-1
    • 4. 结语
    • 5. References

1. .git/objects 目录

git 是一个根据文件内容进行检索的系统。 当创建 hello.py, 填入

print("hello, world")

的内容, 并执行

git add hello.py
git commit -m "init"

会在 .git/objects 目录生成子目录和文件。 子目录是2位,文件则是38位, 子目录和文件名字拼接起来的到的40位哈希码, 就是 SHA-1:

在这里插入图片描述
比较新版本的 git, 当执行上述 git 操作后, 会在 .git/objects 里存储多个子目录, 旧版本的 git 则只生成一个子目录。我用的 git 2.45.2, 目录结构为:

在这里插入图片描述

2. git cat-file 命令

git cat-file 命令能查看 sha-1 的情况, 这里暂时未查阅文档, 仅做基本介绍。

git cat-file -t <sha-1> 查看的是 sha-1 的类型。 其中 sha-1 是子目录和文件拼接起来的。例如

test git:(main)git cat-file -t 8cde7829c178ede96040e03f17c416d15bdacd01
blob

git cat-file -p <sha-1> 则是查看 blob 类型的内容:

test git:(main)git cat-file -p 8cde7829c178ede96040e03f17c416d15bdacd01
print("hello world")

3. 根据文件内容生成 sha-1

git 其实已经帮我们计算了 sha-1, 这是它存储文件时最基本的计算。 当我们有两个内容完全一样的文件被 git addgit commit, 对应的 blob 对象是相同的。

作为验证,我们拷贝 hello.py 内容并提交:

test git:(main)cp hello.py world.py
➜  test git:(main)git add world.py
➜  test git:(main)git commit -m "add world.py"
[main f72f05d] add world.py1 file changed, 1 insertion(+)create mode 100644 world.py

在这里插入图片描述
发现 .git/objects 目录新增的两个子目录,分别是 tree 和 commit 类型,并不是 blob 类型。 换言之, world.pyhello.py 对应的 blob 都是 8cde7829c17.

作为验证, 可以使用 Python 的 hashlib模块, 基于如下格式算出 sha-1:

blob {文件内容长度}\0 {file_content}

其中 {file_content} 是文件内容.

的到的结果是:

test git:(main) ✗ python githash.py hello.py
8cde7829c178ede96040e03f17c416d15bdacd01
➜  test git:(main) ✗ python githash.py world.py
8cde7829c178ede96040e03f17c416d15bdacd01

具体的 githash.py 实现如下:

#!/usr/bin/env python3from sys import argv
from hashlib import sha1
from io import StringIOclass Githash(object):def __init__(self):self.buf = StringIO()def update(self, data):self.buf.write(data)def hexdigest(self):data = self.buf.getvalue().encode('utf-8')h = sha1()h.update(f"blob {len(data)}\0".encode('utf-8'))h.update(data)return h.hexdigest()def githash_data(data):h = Githash()h.update(data)return h.hexdigest()def githash_fileobj(fileobj):return githash_data(fileobj.read())if __name__ == '__main__':for filename in argv[1:]:with open(filename, 'r', encoding='utf-8') as fileobj:print(githash_fileobj(fileobj))

4. 结语

.git/objects 目录存放的子目录中, 有些子目录是 blob 类型的对象, 表示了文件内容。 当两个文件内容一致时, git 对它们生成相同的 SHA-1。 在了解 blob 类型对象的 sha-1 计算过程的前提下,基于 Python 的 hashlib 写了一个工具, 能根据文件内容算出 sha-1, 这既可以作为理解 git 对象存储的初步, 也可以作为后续自行实现一个 mini-git 的基础。

5. References

  • https://gist.github.com/msabramo/763200
  • https://www.bilibili.com/video/BV1FZ4y1W7ZS/?p=2&spm_id_from=pageDriver
http://www.lryc.cn/news/412218.html

相关文章:

  • 园区导航小程序:一站式解决园区导航问题,释放存储,优化访客体验
  • 对于n进制转十进制的解法及代码(干货!)
  • 当代互联网打工人的生存现状,看完泪流满面!
  • 花几千上万学习Java,真没必要!(三十八)
  • Zilliz 2025届校园招聘正式启动,寻找向量数据库内核开发工程师
  • TwinCAT3 新建项目教程
  • 大模型算法面试题(十九)
  • 应用地址信息获取新技巧:Xinstall来助力
  • 图的最短路径算法:Dijkstra、Floyd-Warshall、Bellman-Ford
  • Camera的pipline(TODO)
  • 非关系数据库-非关系数据库入门指南
  • 看门狗IWDG、WWDG(速记版)
  • ETL工程师角度下的SQL优化
  • 阿里云实时计算Flink在多行业的应用和实践
  • 开源项目与工具:C++中的高性能并发库 - Intel Threading Building Blocks (TBB)
  • Chapter 22 数据可视化——折线图
  • 管理流创建schema流程源码解析
  • 【iOS】iOS内存五大分区
  • 【项目实战】—— 高并发内存池
  • 二叉搜索树的第 k 大的节点
  • 利用langchain 做大模型 Few-shot Learning 提示,包括固定和向量相似的动态样本筛选
  • 基于python的百度迁徙迁入、迁出数据分析(五)
  • SpringBoot 如何处理跨域请求
  • 大数据技术基础编程、实验和案例----大数据课程综合实验案例
  • 微信小程序-获取手机号:HttpClientErrorException: 412 Precondition Failed: [no body]
  • 大数据核心概念与技术架构简介
  • 快排 谁在中间
  • ORA-00911: invalid character
  • Pytorch实现线性回归Linear Regression
  • 十八次(虚拟主机与vue项目、samba磁盘映射、nfs共享)