当前位置: 首页 > news >正文

阿里云魔搭发起“ModelScope-Sora开源计划”,将为中国类Sora模型开发提供一站式工具链

在2024年3月23日的全球开发者先锋大会上,阿里云的魔搭社区宣布了一个新计划:“ModelScope-Sora开源计划”。这个计划旨在通过开源方式,帮助中国在Sora模型类型上做出更多创新。这个计划提供了一整套工具,包括处理数据的工具、多模态数据集、Sora模型的基础版本和训练推理工具等。

魔搭社区还推出了一个叫做Data-Juicer的系统,这是第一个为多模态数据处理而开源的系统。它包含了很多高效的工具,可以大大提高处理视频数据的效率和质量。

Sora模型因为使用了大量的高质量数据,所以在技术上引起了很大的关注。阿里通义实验室的专家李雅亮说,数据的质量决定了机器学习能达到的高度。只有高质量、细致、大量的数据,才能让模型训练得更好。

但是,处理Sora模型类型的数据非常具有挑战性。现有的数据处理工具大多不是为多模态数据设计的,尤其是视频数据。因此,魔搭社区首先推出了Data-Juicer系统,这个系统可以筛选和优化多模态数据,使其更高质量、更丰富、更容易处理。

魔搭开源的Data-Juicer流程示意图

Data-Juicer支持处理文本、图片、音频和视频,它有很多功能,比如筛选、映射、去重、格式化输出和美学评分等。开发者可以像玩乐高一样自由组合这些功能。例如,它可以自动剪辑视频,提高分辨率,调整宽高比,去除文本段落,甚至可以计算视频中的动态和静态部分,只保留精彩的瞬间。

魔搭开源的lite-Sora模型架构图

魔搭社区还推出了一个基于Data-Juicer的沙盒实验室,让研发人员可以在小规模数据集和模型上快速实验,找到最佳的方法。然后,他们可以使用阿里云PAI来处理大规模数据,并在PAI上完成模型的训练和推理。

此外,魔搭社区还开源了一个基础版的Sora模型,华东师范大学的段忠杰博士和魔搭社区合作,创建了一个名为lite-Sora的视频生成模型,并在小规模数据集上进行了初步训练。

魔搭社区还计划举办“ModelScope-Sora挑战赛”,鼓励更多开发者创建并开源自己的Sora模型,共同推动中国多模态大模型的发展。同时,魔搭社区也在努力构建一个开放的、高质量的中文多模态数据集。作为中国最大和最活跃的AI开源模型社区,阿里云魔搭已经聚集了3000多个优质模型和上千个数据集,为超过400万开发者提供服务。

http://www.lryc.cn/news/328743.html

相关文章:

  • 大模型与数据分析:探索Text-to-SQL
  • Unity VisionOS开发流程
  • 聊聊k8s服务发现的优缺点
  • Tomcat是如何处理并发请求的?
  • H12-831_561
  • Java23种常见设计模式汇总
  • 神经网络与深度学习(一)
  • 算法学习——LeetCode力扣图论篇2
  • 大数据设计为何要分层,行业常规设计会有几层数据
  • css3之2D转换transform
  • pytest中文使用文档----6临时目录和文件
  • 从0开始搭建基于VUE的前端项目
  • elementUI this.$msgbox msgBox自定义 样式自定义 富文本
  • Lua与Python区别
  • Python学习(二)
  • 管理阿里云服务器ECS -- 网站选型和搭建
  • WPF中继承ItemsControl子类控件数据模板获取选中属性
  • Android卡顿掉帧问题分析之实战篇
  • OpenKylin安装Kafka
  • 嵌入式硬件中常见的面试问题与实现
  • 【Node.JS】koa
  • 工作日志- 不定期更新
  • Qt使用opencv打开摄像头
  • Redis的Hash数据结构中100万对field和value,field是自增时如何优化?优化Hash结构。
  • 二十四种设计模式与六大设计原则(一):【策略模式、代理模式、单例模式、多例模式、工厂方法模式、抽象工厂模式】的定义、举例说明、核心思想、适用场景和优缺点
  • mac怎么删除python
  • 【笔记】Android U RILJ 中与运营商名称SPN显示相关的日志分析
  • 蓝桥杯【奇怪的捐赠】c语言
  • 【3月比赛合集】5场可报名的「创新应用」、「数据分析」和「程序设计」大奖赛,任君挑选!
  • vue3 视频播放功能整体复盘梳理