当前位置: 首页 > news >正文

【AIGC半月报】AIGC大模型启元:2024.11(上)

【AIGC半月报】AIGC大模型启元:2024.11(上)

    • (1) Hunyuan-Large(腾讯开源大模型)
    • (2) FLUX1.1 pro(文生图)
    • (3) CogVideoX v1.5(智谱AI升级文生视频大模型)

(1) Hunyuan-Large(腾讯开源大模型)

2024.11.06 腾讯一出手就是个超大模型,开源的Hunyuan-Large是目前市面上最大基于 Transformer架构的专家混合(MoE)模型。一共有3890 亿参数,其中激活参数为 520 亿,具备处理长达256K上下文能力。
  根据腾讯公开测试数据显示,Hunyuan-Large不仅超过了社交巨头Meta开源的最新、最大模型LLama3.1 - 405B,并且在激活参数数量显著减少的情况下,实现了高达3.2%的性能提升。在数学、日常推理、文本生成等方面非常优秀。
  Hunyuan-Large采用了高效的MoE结构,使用多个专家替换了Transformer中的原始前馈网络。在训练过程中,只有一小部分专家会被激活,这样的设计使得模型能够更加高效地进行训练和推理。
  一共包含共享专家和专用专家两种模式,不仅能够捕捉所有token所需的共同知识,还能够动态学习特定领域的知识。同时Hunyuan-Large还开发了一种新的回收路由策略,用于处理在原始top-k路由过程中被丢弃的token。这种策略通过将这些token重新分配给未超过容量的其他专家,以优化训练效率和稳定性。
  Hunyuan-Large还对KV缓存进行了创新,使用了压缩技术。在传统的Transformer架构中,每层都会维护一个用于存储先前计算出的键值对的缓存,这对于支持长序列输入非常必要。但随着序列长度的增长,这种缓存机制会导致巨大的内存开销。
  而KV缓存压缩技术通过减少KV缓存的存储需求来降低内存占用,同时保持了模型对于长序列处理的能力,可以有效地减少键值对的存储空间,而不牺牲准确性或速度。即使面对非常长的文本输入,模型也能高效运行,不会因为内存限制而受到阻碍。

推荐文章: 腾讯放大招,超Meta!史上参数最大,开源专家混合模型
开源地址:

  • GitHub:https://github.com/Tencent/Tencent-Hunyuan-Large
  • Huggingface:https://huggingface.co/tencent/Tencent-Hunyuan-Large
  • 云开发平台:https://cloud.tencent.com/document/product/851/112032

(2) FLUX1.1 pro(文生图)

2024.11.07 BlackForestLabs团队又升级了他们最新的文生图模型FLUX1.1 pro。
  本次升级主要是给FLUX1.1 [pro]增加了新的高分辨率功能,将其功能扩展到支持高达4倍的图像分辨率(最高可达4MP像素,对应2048x2048图像),而每个图像的生成时间仅需10秒。
  这个生成高分辨率图像功能称为ultra模式。开启ultra模式可以使模型能够在保持标准版FLUX1.1 pro的提示遵循优势的同时,生成四倍于标准分辨率的图像,最高可达4MP像素。与许多在高分辨率下速度显著下降的高分辨率模型不同,      FLUX1.1 [pro] 的性能基准测试显示,其生成速度比同类高分辨率产品快2.5倍以上,每样本的生成时间仅为10秒。此外,FLUX1.1 pro的价格具有竞争力,每张图像的生成费用为0.06美元,这为用户提供了一个高效且经济的高分辨率图像生成选项。
  除了ultra模式,BlackForestLabs团队还推出了raw模式。开启这个功能可以生成具有更少的合成感和更自然的审美的图像。与其他文本到图像模型相比,原始模式显著增加了人物主题的多样性,并增强了自然摄影的真实感。

推荐文章: Flux再升级,推出Ultra模式:10秒生成2K高清大图!
开源地址: /

(3) CogVideoX v1.5(智谱AI升级文生视频大模型)

2024.11.08 自8月初以来,我们陆续推出了CogVideoX系列模型(2B、5B、5B-I2V),这些开源模型已成为行业领先,深受开发者喜爱。 
  经过持续迭代,我们在此发布并开源最新版本的视频模型 CogVideoX v1.5。 
  相比于原有模型,CogVideoX v1.5 将包含 5/10秒、768P、16 帧的视频生成能力,I2V模型支持任意尺寸比例,大幅提升图生视频质量及复杂语义理解。 
此次开源包括两个模型:

  • CogVideoX v1.5-5B
  • CogVideoX v1.5-5B-I2V

除了ultra模式,BlackForestLabs团队还推出了raw模式。开启这个功能可以生成具有更少的合成感和更自然的审美的图像。与其他文本到图像模型相比,原始模式显著增加了人物主题的多样性,并增强了自然摄影的真实感。

推荐文章: CogVideoX v1.5,开源。
开源地址:

  • GitHub:https://github.com/thudm/cogvideo
  • huggingface:https://huggingface.co/THUDM/CogVideoX1.5-5B-SAT
http://www.lryc.cn/news/479626.html

相关文章:

  • 纯前端生成PDF(jsPDF)并下载保存或上传到OSS
  • 海外媒体发稿:旅游业媒体推广12个方面的注意事项-华媒舍
  • 分割回文串(DFS)
  • Qt第三课 ----------容器类控件
  • 打印菱形(C语言)
  • Oracle 19c 中启用 scott 用户
  • git commit 校验
  • 【AtCoder】Beginner Contest 377-B.Avoid Rook Attack
  • 江协科技STM32学习- P38 软件SPI读写W25Q64
  • 【Triton 教程】低内存 Dropout
  • npx创建项目时,error fetch failed.TypeError: fetch failed
  • 《Kotlin实战》-附录
  • yelp数据集上识别潜在的热门商家
  • 【Linux】进程信号全攻略(一)
  • linux文件重命名
  • 如何选择适合的AWS EC2实例类型
  • 【Uniapp】Uniapp Android原生插件开发指北
  • 【随手笔记】FLASH-W25Q16(三)
  • 2024软件测试面试热点问题
  • 【JAVA】java 企业微信信息推送
  • 介绍一下数组(c基础)(smart 版)
  • Java项目实战II基于Spring Boot的个人云盘管理系统设计与实现(开发文档+数据库+源码)
  • 探索数据科学与大数据技术专业本科生的广阔就业前景
  • 微服务架构面试内容整理-Zuul
  • 解决Knife4j 接口界面UI中文乱码问题
  • 微服务架构面试内容整理-Sleuth
  • Go语言的接口示例
  • 【Apache ECharts】<农作物病害发生防治面积>
  • 基于vue3实现的聊天机器人前端(附代码)
  • DICOM标准:深入详解DICOM医学影像中的传输语法