当前位置: 首页 > news >正文

hunyuan 混元学习

使用了5个subset,也是用了text-image和text-video进行训练的

也是进行了复杂的视频选择。同movie gen.

也进行了模型切断,用拉普拉斯算子找到最清晰的一帧作为训练的起始

训练了不同的模型去选择数据,比如用Dover去选择美观度比较好的数据,用其他模型去选择清晰度高的模型等。判断motion大小(比如静止的)把不合适的视频去掉。用OCR模型把带有很多字的视频拿掉。用YOLOX把一些敏感信息拿掉。虽然拿掉了很多数据,但是数据多样性高也好,所以用个小模型去测试那个去掉视频的操作好。图4

最后的finetune数据又是人工标注,大概一百万。用的JSON保存信息

加强版的dense description

background\style等关键词,还用了dropout设置多样性更多的captions使得描述格式不会太固定。

数据对于machine learning很重要

http://www.lryc.cn/news/528462.html

相关文章:

  • 开发、科研工具汇总
  • 项目部署(springboot项目)
  • OpenEuler学习笔记(十四):在OpenEuler上搭建.NET运行环境
  • 神经网络的通俗介绍
  • 基于 AWS SageMaker 对 DeepSeek-R1-Distilled-Llama-8B 模型的精调与实践
  • 如何使用DeepSeek R1
  • 大屏 UI 设计风格的未来趋势
  • unity学习22:Application类其他功能
  • 51单片机入门_02_C语言基础0102
  • 定位的叠放次序 z-index
  • ESP32-S3模组上跑通esp32-camera(36)
  • 前端性能优化:HMR热更新和预获取加载
  • 【自学笔记】计算机网络的重点知识点-持续更新
  • 算法基础学习——二分查找(附带Java模板)
  • 【llm对话系统】大模型源码分析之llama模型的long context更长上下文支持
  • 单片机基础模块学习——NE555芯片
  • Hive:struct数据类型,内置函数(日期,字符串,类型转换,数学)
  • 最优化问题 - 内点法
  • vim交换文件的工作原理
  • CISCO路由基础全集
  • 网络直播时代的营销新策略:基于受众分析与开源AI智能名片2+1链动模式S2B2C商城小程序源码的探索
  • 2024年终总结——今年是蜕变的一年
  • AutoDL 云服务器:普通 用户 miniconda 配置
  • 渲染流程概述
  • 前端力扣刷题 | 4:hot100之 子串
  • Julia 之 @btime 精准测量详解
  • 【Django教程】用户管理系统
  • 【机器学习】自定义数据集 使用pytorch框架实现逻辑回归并保存模型,然后保存模型后再加载模型进行预测
  • C语言连接Mysql
  • Windows上通过Git Bash激活Anaconda