当前位置：首页 > news >正文

Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming

news 2025/8/12 11:05:29

2024.8
tsinghua

在这里插入图片描述

method

whisper encoder: whisper small
LLM
- Qwen0.5b init
- 预测方式：text + 7*audio token， parallel generation的方式预测，delay-step=1----先预测文本token，再预测SNAC 第一级码本，然后序列化的逐渐预测后续码本，也遵循了coarse-to-fine的预测；
audio token：SNAC的码本，7级
SNAC 的不同级别，码本的预测粒度不同；

在这里插入图片描述

在这里插入图片描述

data

VoiceAssistant-400K 的数据集

http://www.lryc.cn/news/617737.html

相关文章：

Mining of Real-world Hypergraphs part1-2 逐字翻译解读

react中父子数据流动和事件互相调用（和vue做比较）

剑桥大学最新研究：基于大语言模型(LLM)的分子动力学模拟框架，是MD的GPT时刻还是概念包装？

机器翻译：Bahdanau注意力和Luong注意力详解

HarmonyOS AI辅助编程工具（CodeGenie）概述

鸿蒙flutter项目接入极光推送

golang包管理工具中 GOPATH 与 Go Modules 的区别总结

新人如何简化学习Vue3文件

while循环结合列表或字典

YOLOv6深度解析：实时目标检测的新突破

企业架构工具篇之ArchiMate的HelloWorld(2)

Eino中的两种应用模式：“单独使用”和“在编排中使用”

软考架构师：数据库的范式

分治-归并-912.排序数组-力扣(LeetCode)

Catalyst 日志记录（Logging）

石材 × 设计：解锁永恒材质的四大灵感密码

获取MaixPy系列开发板机器码——MaixHub 模型下载机器码获取方法

ESP32 配合上位机串口打印数据

【Web 服务的铁三角架构】Flask、Nginx 与 Docker 的分工与协作

FFmpeg - 基本 API大全（视频编解码相关的）

macOS 搭建 Gitea 私有 Git 服务器教程

wed前端第三次作业

算法训练营DAY57 第十一章：图论part07

缓存的三大问题分析与解决

STM32蓝牙模块驱动开发

第10节大模型分布式推理典型场景实战与架构设计

《算法导论》第 19 章 - 斐波那契堆

【SpringBoot】持久层 sql 注入问题

一周学会Matplotlib3 Python 数据可视化-绘制直方图(Histogram)

银河麒麟V10配置KVM的Ubuntu虚机GPU直通实战