当前位置：首页 > news >正文

【AIGC半月报】AIGC大模型启元：2024.11（上）

news 2025/9/11 11:31:41

【AIGC半月报】AIGC大模型启元：2024.11（上）

- (1) Hunyuan-Large（腾讯开源大模型）
- (2) FLUX1.1 pro（文生图）
- (3) CogVideoX v1.5（智谱AI升级文生视频大模型）

(1) Hunyuan-Large（腾讯开源大模型）

2024.11.06 腾讯一出手就是个超大模型，开源的Hunyuan-Large是目前市面上最大基于 Transformer架构的专家混合（MoE）模型。一共有3890 亿参数，其中激活参数为 520 亿，具备处理长达256K上下文能力。
　　根据腾讯公开测试数据显示，Hunyuan-Large不仅超过了社交巨头Meta开源的最新、最大模型LLama3.1 - 405B，并且在激活参数数量显著减少的情况下，实现了高达3.2%的性能提升。在数学、日常推理、文本生成等方面非常优秀。
　　Hunyuan-Large采用了高效的MoE结构，使用多个专家替换了Transformer中的原始前馈网络。在训练过程中，只有一小部分专家会被激活，这样的设计使得模型能够更加高效地进行训练和推理。
　　一共包含共享专家和专用专家两种模式，不仅能够捕捉所有token所需的共同知识，还能够动态学习特定领域的知识。同时Hunyuan-Large还开发了一种新的回收路由策略，用于处理在原始top-k路由过程中被丢弃的token。这种策略通过将这些token重新分配给未超过容量的其他专家，以优化训练效率和稳定性。
　　Hunyuan-Large还对KV缓存进行了创新，使用了压缩技术。在传统的Transformer架构中，每层都会维护一个用于存储先前计算出的键值对的缓存，这对于支持长序列输入非常必要。但随着序列长度的增长，这种缓存机制会导致巨大的内存开销。
　　而KV缓存压缩技术通过减少KV缓存的存储需求来降低内存占用，同时保持了模型对于长序列处理的能力，可以有效地减少键值对的存储空间，而不牺牲准确性或速度。即使面对非常长的文本输入，模型也能高效运行，不会因为内存限制而受到阻碍。

推荐文章： 腾讯放大招，超Meta！史上参数最大，开源专家混合模型
开源地址：

GitHub：https://github.com/Tencent/Tencent-Hunyuan-Large
Huggingface：https://huggingface.co/tencent/Tencent-Hunyuan-Large
云开发平台：https://cloud.tencent.com/document/product/851/112032

(2) FLUX1.1 pro（文生图）

2024.11.07 BlackForestLabs团队又升级了他们最新的文生图模型FLUX1.1 pro。
　　本次升级主要是给FLUX1.1 [pro]增加了新的高分辨率功能，将其功能扩展到支持高达4倍的图像分辨率（最高可达4MP像素，对应2048x2048图像），而每个图像的生成时间仅需10秒。
　　这个生成高分辨率图像功能称为ultra模式。开启ultra模式可以使模型能够在保持标准版FLUX1.1 pro的提示遵循优势的同时，生成四倍于标准分辨率的图像，最高可达4MP像素。与许多在高分辨率下速度显著下降的高分辨率模型不同，　　　　　　FLUX1.1 [pro] 的性能基准测试显示，其生成速度比同类高分辨率产品快2.5倍以上，每样本的生成时间仅为10秒。此外，FLUX1.1 pro的价格具有竞争力，每张图像的生成费用为0.06美元，这为用户提供了一个高效且经济的高分辨率图像生成选项。
　　除了ultra模式，BlackForestLabs团队还推出了raw模式。开启这个功能可以生成具有更少的合成感和更自然的审美的图像。与其他文本到图像模型相比，原始模式显著增加了人物主题的多样性，并增强了自然摄影的真实感。

推荐文章： Flux再升级，推出Ultra模式：10秒生成2K高清大图！
开源地址： /

(3) CogVideoX v1.5（智谱AI升级文生视频大模型）

2024.11.08 自8月初以来，我们陆续推出了CogVideoX系列模型（2B、5B、5B-I2V），这些开源模型已成为行业领先，深受开发者喜爱。　
　　经过持续迭代，我们在此发布并开源最新版本的视频模型 CogVideoX v1.5。　
　　相比于原有模型，CogVideoX v1.5 将包含 5/10秒、768P、16 帧的视频生成能力，I2V模型支持任意尺寸比例，大幅提升图生视频质量及复杂语义理解。　
此次开源包括两个模型：