当前位置：首页 > news >正文

故事可视化AI

news 2025/7/9 5:33:33

i68,爱六八,链接你我他

StoryWeaver故事可视化

通过知识增强的角色定制技术，实现高质量的故事可视化
论文链接:https://arxiv.org/pdf/2412.07375
项目仓库:https://github.com/Aria-Zhangjl/StoryWeaver
由厦门大学多媒体可信感知与高效计算教育部重点实验室和网易伏羲人工智能实验室联合推出

主要功能

角色定制与可视化：根据文本叙述和角色图像生成一系列视觉化的故事图像，精确定制给定角色的形象。
语义对齐：系统能确保生成的图像序列与文本提示在语义上保持一致，即图像内容与文本描述相匹配。
知识图谱应用：系统能理解和表示故事中角色的详细属性和角色间的关系。
多角色互动：StoryWeaver 能处理多角色故事场景，保持每个角色的身份清晰，展现角色间的自然互动。
跨注意力分配：优化多角色故事中的注意力分配，避免身份混合问题。

相关文章

StoryWeaver：故事可视化生成模型，快速生成故事绘本，支持处理单角色和多角色的故事可视化任务
开源StoryWeaver为你生成完美的童话故事

StoryTeller长视频描述生成系统

StoryTeller简要

全自动的长视频描述生成系统
字节跳动、上交、北大开源
论文链接:https://arxiv.org/pdf/2411.07076
项目仓库:https://github.com/hyc2026/StoryTeller
StoryTeller 在 MovieQA 上超越了所有开源和闭源基线模型，特别是，StoryTeller 的准确率比最强的基线 Gemini-1.5-pro 高出 9.5%

StoryTeller亮点直击

引入音画角色识别任务：提出了音画角色识别任务，通过整合视觉、音频和文本信息，实现对白与角色的精准匹配，从而解决长视频描述中的一致性挑战，包括角色描述和故事逻辑连贯性。
StoryTeller系统创新: 开发了StoryTeller系统，包含视频分割模块、音画角色识别模块和身份感知的描述生成模块，生成密集且一致性高的长视频描述，兼顾基础视觉概念和高级剧情信息。
高质量数据集与自动评估方法: 构建了MovieStory101数据集，包含密集标注的三分钟电影片段和对白角色身份标签，同时引入MovieQA自动评估方法，通过GPT-4回答多选问题，以准确率衡量描述质量。
显著性能提升: StoryTeller在MovieQA任务中比最强基线Gemini-1.5-pro提升9.5%准确率，在人类对比评估中表现出+15.56%的优势。同时，将音画角色识别结果输入其他模型也显著提升了它们的长视频描述能力，分别提升5.5%和13.0%的准确率。

StoryTeller相关文章

超Gemini-1.5-pro 9.5%！字节&上交&北大开源StoryTeller：生成一致性高的长视频描述

Story-Adapter长故事可视化

自动生成100帧漫画或动画的分镜图，故事的语义一致性比较好
图片间逻辑清晰，人物场景能保持一致
不需要额外训练可以直接使用
论文链接:https://arxiv.org/abs/2410.06244
官方网站:Story-Adapter
项目仓库:https://github.com/jwmao1/story-adapter

原文链接:https://i68.ltd/notes/posts/20250102-llm-story/

http://www.lryc.cn/news/515793.html

相关文章：

【机器学习篇】从新手探寻到算法初窥：数据智慧的开启之门

ffmpeg八大开发库

【ArcGISPro/GeoScenePro】解决常见的空间参考和投影问题

Linux上安装配置单节点zookeeper

现代光学基础-1

pytorch中nn.Conv2d详解及参数设置原则

T-SQL语言的正则表达式

Python 中常见的数据结构之二推导式

STM32 拓展低功耗案例3：待机模式（hal）

【开源社区openEuler实践】探索 Yocto-Meta-OpenEuler：嵌入式开发的强大基石

JS (node) 的 ACM 模式 + debug方法 (01背包为例)

vue设计与实现-框架设计

Stable Diffusion和Midjourney有什么区别？

即插即用，无痛增强模型生成美感！字节跳动提出VMix:细粒度美学控制，光影、色彩全搞定

面向对象分析和设计OOA/D，UML，GRASP

【每日学点鸿蒙知识】广告ID、NFC手机充值、CSS支持语法、PC与模拟器交互、SO热更新等

30分钟学会HTML

服务器信息整理：用途、操作系统安装日期、设备序列化、IP、MAC地址、BIOS时间、系统

Golang设计模式目录

选择IT驻场外包公司，要找有哪些资质的公司

Java List 集合详解：基础用法、常见实现类与高频面试题解析

Arduino UNO 驱动1.8 TFT屏幕显示中文

Flink operator实现自动扩缩容

分布式系统架构6：链路追踪

vite-plugin-imagemin安装问题

Git revert回滚

永磁同步电机预测模型控制（MPC)

【JAVA】switch ... case ... 的用法