当前位置: 首页 > news >正文

Python算法——霍夫曼编码树

Python中的霍夫曼编码树

霍夫曼编码是一种用于数据压缩的技术,通过构建霍夫曼编码树(Huffman Tree)来实现。这篇博客将详细讲解霍夫曼编码树的原理、构建方法和使用方式,并提供相应的Python代码实现。

霍夫曼编码原理

霍夫曼编码是一种变长编码,通过给不同的符号分配不同长度的编码,来实现对数据的高效压缩。编码树是一棵二叉树,其中每个叶子节点代表一个符号,而从根到叶子的路径上的每一步都对应一个二进制编码。

霍夫曼编码树的构建过程基于数据中各符号的出现频率,频率越高的符号,其对应的编码路径越短。

霍夫曼编码树的构建

构建霍夫曼编码树的基本步骤如下:

  1. 创建一个优先队列(最小堆),用于存储各个节点。
  2. 将每个符号及其频率作为一个节点插入队列中。
  3. 从队列中选择两个频率最低的节点,合并为一个新节点,其频率为两者之和,然后将新节点插入队列。
  4. 重复步骤 3,直到队列中只剩下一个节点,即霍夫曼编码树的根节点。
    Python代码实现
import heapq
from collections import defaultdictclass HuffmanNode:def __init__(self, symbol, frequency):self.symbol = symbolself.frequency = frequencyself.left = Noneself.right = Nonedef __lt__(self, other):return self.frequency < other.frequencydef build_huffman_tree(data):# 统计每个符号的频率frequency_map = defaultdict(int)for symbol in data:frequency_map[symbol] += 1# 初始化优先队列priority_queue = [HuffmanNode(symbol, frequency) for symbol, frequency in frequency_map.items()]heapq.heapify(priority_queue)# 构建霍夫曼编码树while len(priority_queue) > 1:left_node = heapq.heappop(priority_queue)right_node = heapq.heappop(priority_queue)merged_node = HuffmanNode(None, left_node.frequency + right_node.frequency)merged_node.left, merged_node.right = left_node, right_nodeheapq.heappush(priority_queue, merged_node)return priority_queue[0]def huffman_codes(node, current_code="", code_map=None):if code_map is None:code_map = {}if node is not None:if node.symbol is not None:code_map[node.symbol] = current_codehuffman_codes(node.left, current_code + "0", code_map)huffman_codes(node.right, current_code + "1", code_map)return code_map# 示例
data_to_compress = "hello world"
huffman_tree_root = build_huffman_tree(data_to_compress)
huffman_code_map = huffman_codes(huffman_tree_root)print("Huffman Codes:")
for symbol, code in huffman_code_map.items():print(f"{symbol}: {code}")

示例说明

以上示例中,我们使用字符串 “hello world” 来演示霍夫曼编码的构建过程。在示例中,每个字符都被看作一个符号,并计算其频率。然后,根据频率构建霍夫曼编码树,最终得到每个符号对应的霍夫曼编码。

输出结果:

Huffman Codes:
h: 110
e: 01
o: 111
d: 001
l: 000
r: 10
w: 0011

这表示字符 “h” 对应的霍夫曼编码为 “110”,字符 “e” 对应的编码为 “01”,以此类推。通过理解霍夫曼编码树的构建和编码方式,我们可以在数据压缩中应用这一技术。

http://www.lryc.cn/news/248489.html

相关文章:

  • hql面试题之上海某资深数仓开发工程师面试题-求不连续月份的月平均值
  • VT驱动开发
  • 火柴人版王者-Java
  • docker 中的–mount 和-v 参数有啥区别
  • 设计规则:模块化的力量
  • 数据结构与算法之递归: LeetCode 78. 子集 (Typescript版)
  • C# 使用 Fody 监控方法执行时间
  • J2EE征程——第一个纯servletCURD
  • BatchOutput PDF for Mac(PDF 批量处理软件)
  • 记一次oracle错误处理
  • hugging face下载dataset时候出现You must be authenticated to access it.问题解决
  • 数据结构---树
  • tomcat调优配置
  • 基于深度学习的点云三维目标检测方法综述
  • Linux命令中的符号
  • BTCPay Server:免费、安全、开源的比特币支付处理器 | 开源日报 No.90
  • 【数据挖掘】国科大刘莹老师数据挖掘课程作业 —— 第三次作业
  • Windows挂载NFS
  • 数据结构第五课 -----二叉树的代码实现
  • 优橙内推北京专场——5G网络优化(中高级)工程师
  • Mysql DDL语句建表及空字符串查询出0问题
  • 深入ArkTS:应用状态管理与LocalStorage装饰器详解【鸿蒙专栏-11】
  • 管理Android12系统的WLAN热点
  • 从0开始学习JavaScript--JavaScript 中 `let` 和 `const` 的区别及最佳实践
  • 【上海大学数字逻辑实验报告】二、组合电路(一)
  • lodash中foreach踩坑
  • Unity C++交互
  • 人工智能-优化算法之动量法
  • 【MySQL】InnoDB中的索引
  • 《软件工程原理与实践》复习总结与习题——软件工程