当前位置: 首页 > news >正文

AV1技术学习:Transform Coding

对预测残差进行变换编码,去除潜在的空间相关性。VP9 采用统一的变换块大小设计,编码块中的所有的块共享相同的变换大小。VP9 支持 4 × 4、8 × 8、16 × 16、32 × 32 四种正方形变换大小。根据预测模式选择由一维离散余弦变换 (DCT) 和非对称离散正弦变换 (ADST) 核组合构成的一组可分离的二维变换类型。AV1继承了VP9中的变换编码方案,并在变换块大小和变换核方面扩展了其灵活性。

一、Transform Block Size

AV1 将最大变换块大小扩展到 64 × 64。最小变换块大小仍然是 4×4。此外,还支持 N × N/2、N/2 × N、N × N/4、N/4 × N 的矩形变换块大小。

AV1 对所有的帧间编码块采用递归变换块划分方法,捕获局部固定区域,提高变换编码效率。
初始变换块大小与编码块大小匹配,除非编码块大小大于64 × 64,在这种情况下,使用 64 × 64 变换块大小。对于亮度分量,最多允许划分两次。N × N、N × N/2、N × N/4编码块的递归划分规则如下图所示。

帧内编码块继承了统一的变换块大小方法,即所有变换块具有相同的大小。与帧间编码的情况类似,最大变换块大小与编码块大小相匹配,并且对于亮度可以向下划分两次。方形和矩形编码块大小的可用选项如下图所示。

 色度分量在统计上的变化要小得多。因此,变换块尺寸设置为使用可用最大变换块尺寸。

二、Transform Kernels

和 VP9 中每个编码块只有一个变换核类型不同,AV1允许每个变换块可以独立选择自己的变换核。将二维可分离变换核扩展为四个一维变换核的组合:DCT、ADST、flipped ADST (FLIPADST)和 identity transform (IDTX),得到16个二维变换核。FLIPADST 是 ADST 变换核的反转。变换核的选择是基于统计和适应各种边界条件。DCT核被广泛应用于信号压缩,并且近似于一致相关数据的最优线性变换 Karhunen-Loeve 变换(KLT)。另一方面,ADST 近似于假设单侧平滑的 KLT,因此适合编码一些帧内预测残差。类似地,FLIPADST 从另一端捕获单侧平滑。此外 IDTX 可以适应在块中包含尖锐变换并且DCT和ADST都无效的情况。此外,IDTX与其他一维变换相结合,提供了一维变换本身,因此可以更好地压缩残差中的水平和垂直模式。下图给出了维度 N = 8 时四个一维变换核对应的波形。

即使使用 SIMD ,逆变换也占解码器计算成本的很大一部分。蝶形结构允许在普通矩阵乘法上大幅度减少乘法运算,即从O(N2)减少到O(NlogN),其中N是变换维数。因此,它非常适合大的变换块大小。注意,由于推导的原始 ADST 无法对蝶形结构进行分解,因此 AV1 在变换块大小为 8 × 8 及以上时采用了和图24所示的 ADST 的变体。

当变换块大小较大时,边界效应不明显,此时所有正弦变换的变换编码增益基本收敛。因此只有 DCT 和 IDTX 用于尺寸为32 × 32及以上的变换块。

http://www.lryc.cn/news/406382.html

相关文章:

  • Git操作指令
  • CSS 创建:从入门到精通
  • Windows 11 系统对磁盘进行分区保姆级教程
  • 探索WebKit的CSS盒模型:深入理解Web布局的基石
  • c++初阶知识——string类详解
  • php接口返回的json字符串,json_decode()失败,原来是多了红点
  • Python3网络爬虫开发实战(2)爬虫基础库
  • el-image预览图片点击遮盖处关闭预览
  • 基于Neo4j将知识图谱用于检索增强生成:Knowledge Graphs for RAG
  • 康康近期的慢SQL(oracle vs 达梦)
  • 探索 GPT-4o mini:成本效益与创新的双重驱动
  • 2.6基本算法之动态规划2989:糖果
  • 12.顶部带三角形的边框 CSS 关键字 currentColor
  • Llama中模块参数大小
  • Modbus转EtherCAT网关将Modbus协议的数据格式转换为EtherCAT协议
  • 【开发实战】QT5 + OpenCV4 开发环境配置应用演示
  • “微软蓝屏”事件暴露的网络安全问题及应对策略
  • 白骑士的PyCharm教学基础篇 1.3 调试与运行
  • 爬虫学习1:初学者简单了解爬虫的基本认识和操作(详细参考图片)
  • WHAT - 通过 shadcn 组件源码学习 React
  • grafana对接zabbix数据展示
  • C++ 学习补充 1:短链算法
  • 硅纪元视角 | 语音克隆突破:微软VALL-E 2,Deepfake新纪元!
  • 没有51基础,能不能学好STM32?
  • Web开发:VUE3小白开发入门基础笔记
  • 技术周总结 2024.07.15~07.21周日(Spark性能优化)
  • 提高性能的常见技术
  • LeetCode206 反转链表
  • nginx通过nginx_upstream_check_module实现后端健康检查
  • FastGPT 知识库搜索测试功能解析(二)