当前位置: 首页 > news >正文

part1:sora技术

1.Sora能力边界探索

        从sora的视频合集里看到了多段视频,假如我不知道这是sora视频合计,估计我第一反应并不是AI生成了这些视频,可以说在我这里通过了图灵测试😊。

        在视频合集里还有同一场景的多角度/镜头的生成能力,让我想起了我曾经学习3d建模的时光(大学时曾经学习过一段时间的maya做3d建模),在制作动画中也会切换不同视角,估计sora训练数据里有一些3d建模的素材,不然很难输出同一场景的多镜头的视频。

        sora还可以支持任意分辨率,宽高比的视频输出,从视频截图里还可以看到无论什么分辨率,视频的主题(乌龟)都能恰好出现在视频比较中间的位置,我想是不是sora生成的原始视频是一个比较大的场景,然后根据不同分辨率宽高比需求,然后像拍电影一样调整成自己想要的宽高比,聚焦主角,当然这样可能会造成算力浪费,当时如果是这样实现的会感觉很有趣😄。

        sora生成的玻璃杯掉到桌子上后没有碎,这种看起来是sora的缺点,并不能很好模拟出真实世界的物理规律,但是我觉得sora团队能公开这种看似失败的视频,证明他们已经想好了解决方案在改进中了,可能到了sora2.0发布的时候,这个视频还会再次出现,只不过标题是sora2.0和sora1.0的对比。

2.Sora模型训练流程,关键技术拆解

        通过原始视频数据切分为 Patches通过 VAE 编码器压缩成低维空间表示,通过原始视频数据切分为 Patches通过 VAE 编码器压缩成低维空间表示,基于 Diffusion Transformer完成从文本语义到图像语义的再映射,DiT 生成的低维空间表示,通过 VAE 解码器恢复成像素级的视频数据。这里的技术名词还有些陌生,但是从描述中能了解到sora也是需要将复杂的东西分解成简单的东西,然后做训练,再生成简单的东西,再输出复杂的内容。

3.个人的思考与总结

        本次学习了解到了最新的sora视频能里有多强,期待进一步的技术学习及代码实践,AI时代跟上时代的脚步。

http://www.lryc.cn/news/308393.html

相关文章:

  • RK3568平台开发系列讲解(基础篇)文件私有数据
  • 跨时钟信号处理方法
  • OD(13)之Mermaid饼图和象限图
  • 基于springboot+vue的智能无人仓库管理系统
  • 图神经网络实战——图论
  • 【PHP进阶】Rabbitmq的实际使用
  • 如何解决机器视觉高速图像处理软件的加密需求?
  • Linux的条件变量
  • 【Python笔记-设计模式】状态模式
  • Pytorch 复习总结 5
  • Codeforces Round 930 (Div. 2)
  • c语言求平方与倒数序列的部分和
  • Vue-4
  • 【Acwing】差分矩阵
  • Linux系统加固:如何有效管理系统账号
  • 在Windows中安装PyTorch
  • 助力智能化农田作物除草,基于YOLOv7【tiny/l/x】不同系列参数模型开发构建农田作物场景下玉米苗、杂草检测识别分析系统
  • linux nasm汇编中调用printf不报错,但调用scanf报错。抛出了分段错误(核心转储)
  • Linux系统——Nginx负载均衡模式
  • 【自然语言处理之语言模型】讲解
  • 输入一个整数n,输出这个整数的二进制的0和1的个数
  • 初阶数据结构:链表相关题目练习(补充)
  • java: 错误: 不支持发行版本 5
  • springSecruity--->和springboot结合的跨域问题
  • 网关kong记录接口处理请求和响应插件 tcp-log-with-body的安装
  • ElasticSearch之Completion Suggester
  • ant 布局组件 组件等高设置
  • 不可多得的干货,网易的朋友给我这份339页的Android面经
  • Qt项目:网络1
  • 软件测试有哪些常用的测试方法?