当前位置: 首页 > news >正文

一个文生视频MoneyPrinterTurbo项目解析

最近抖音剪映发布了图文生成视频功能,同时百家号也有这个功能,这个可以看做是一个开源的实现,一起看看它的原理吧~

一句话提示词

大模型生成文案

百家号生成视频效果

MoneyPrinterTurbo生成视频效果

天空为什么是蓝色的?

天空之所以呈现蓝色,是因为大气中的分子和小粒子会散射太阳光中的蓝色光线比其他颜色更多。这种现象称为“瑞利散射”。太阳光是由不同颜色的光线组成的,这些颜色的光线混合在一起形成了白光。在地球的大气中,较短的波长,如蓝色和紫色,比较长的波长,如红色和橙色,更容易被散射。然而,我们的眼睛对蓝色光线的敏感度更高,因此我们看到的天空大部分时间都是蓝色的。此外,当太阳接近地平线时,光线需要穿越更多的大气层,这使得更多的蓝色和绿色光线被散射掉,留下的主要是红色和橙色,这就是为什么日落和日出时天空会呈现出红色或橙色的原因。

天空为什么是蓝色的?

天空为什么是蓝的MPT生成

一、项目说明

利用AI大模型,一键生成高清短视频:只需提供一个视频 主题关键词 ,就可以全自动生成视频文案、视频素材、视频字幕、视频背景音乐,然后合成一个高清的短视频。

1.功能特性

  • 完整的MVC架构,代码结构清晰,易于维护,支持APIWeb界面

  • 支持视频文案AI自动生成,也可以自定义文案

  • 支持多种高清视频尺寸

    • 竖屏 9:16,1080x1920

    • 横屏 16:9,1920x1080

  • 支持批量视频生成,可以一次生成多个视频,然后选择一个最满意的

  • 支持视频片段时长设置,方便调节素材切换频率

  • 支持中文英文视频文案

  • 支持多种语音合成

  • 支持字幕生成,可以调整字体位置颜色大小,同时支持字幕描边设置

  • 支持背景音乐,随机或者指定音乐文件,可设置背景音乐音量

  • 视频素材来源高清,而且无版权

  • 支持OpenAImoonshotAzuregpt4freeone-api通义千问Google GeminiOllama等多种模型接入

2.后期计划

  • GPT-SoVITS 配音支持

  • 优化语音合成,利用大模型,使其合成的声音,更加自然,情绪更加丰富

  • 增加视频转场效果,使其看起来更加的流畅

  • 增加更多视频素材来源,优化视频素材和文案的匹配度

  • 增加视频长度选项:短、中、长

  • 打包成一键启动包(Windows,macOS),方便使用

  • 增加免费网络代理,让访问OpenAI和素材下载不再受限

  • 可以使用自己的素材

  • 朗读声音和背景音乐,提供实时试听

  • 支持更多的语音合成服务商,比如 OpenAI TTS, Azure TTS

  • 自动上传到YouTube平台

二.安装部署

1.安装

  • 尽量不要使用 中文路径,避免出现一些无法预料的问题

  • 请确保你的 网络 是正常的,VPN需要打开全局流量模式

① 克隆代码
git clone https://github.com/harry0703/MoneyPrinterTurbo.git
② 修改配置文件
  • config.example.toml 文件复制一份,命名为 config.toml

  • 按照 config.toml 文件中的说明,配置好 pexels_api_keysllm_provider,并根据 llm_provider 对应的服务商,配置相关的 API Key

③ 配置大模型(LLM)
  • 如果要使用 GPT-4.0GPT-3.5,需要有 OpenAIAPI Key,如果没有,可以将 llm_provider 设置为 g4f ( 一个免费使用GPT的开源库 https://github.com/xtekky/gpt4free ,但是该免费的服务,稳定性较差,有时候可以用,有时候用不了)

  • 或者可以使用到 月之暗面 申请。注册就送 15元体验金,可以对话1500次左右。然后设置 llm_provider="moonshot"moonshot_api_key

  • 也可以使用 通义千问,具体请看配置文件里面的注释说明

2.部署

① 创建虚拟环境

建议使用conda创建 python 虚拟环境

git clone https://github.com/harry0703/MoneyPrinterTurbo.gitcd MoneyPrinterTurboconda create -n MoneyPrinterTurbo python=3.10conda activate MoneyPrinterTurbopip install -r requirements.txt
② 安装好 ImageMagick
Windows:
  • 下载https://imagemagick.org/archive/binaries/ImageMagick-7.1.1-29-Q16-x64-static.exe

  • 安装下载好的 ImageMagick,注意不要修改安装路径

  • 修改配置文件 config.toml中的imagemagick_path为你的实际安装路径(如果安装的时候没有修改路径,直接取消注释即可)

MacOS:
brew install imagemagick
Ubuntu:
sudo apt-get install imagemagick
CentOS:
sudo yum install ImageMagick
③ 启动Web界面

注意需要到 MoneyPrinterTurbo 项目根目录下执行以下命令

Windows:
conda activate MoneyPrinterTurbowebui.bat
MacOS or Linux:
conda activate MoneyPrinterTurbosh webui.sh

启动后,会自动打开浏览器

④ 启动API服务
python main.py

启动后,可以查看API文档http://127.0.0.1:8080/docs或者http://127.0.0.1:8080/redoc直接在线调试接口,快速体验

三.源码剖析

1.开发框架

  • UI:Streamlit • A faster way to build and share data apps

  • OpenAPI:FastAPI

2.参数解析

{"video_subject": "string",                      ## 视频主题,必选"video_script": "",                             ## 视频脚本,可以为空,为空则LLM生成"video_terms": "string",                        ## 视频搜索词列表,英文,可以为空,为空则LLM生成"video_aspect": "9:16",                         ## 视频宽高比,支持:"16:9""9:16""1:1""video_concat_mode": "random",                  ## 视频拼接方式,支持:"random""sequential""video_clip_duration": 5,                       ## 视频剪辑持续时长,默认5,小于此时长的视频不会被下载"video_count": 1,                               ## 视频生成个数,默认1"video_language": "",                           ## 视频语言"voice_name": "",                               ## 配音人名称"voice_volume": 1,                              ## 配音音量,默认1"bgm_type": "random",                           ## 背景音乐选择类型,
http://www.lryc.cn/news/340267.html

相关文章:

  • 智能商品计划系统如何提升鞋服零售品牌的竞争力
  • OpenHarmony开发案例:【分布式遥控器】
  • 如何将Oracle 中的部分不兼容对象迁移到 OceanBase
  • Python也可以合并和拆分PDF,批量高效!
  • python笔记(14)迭代器和生成器
  • 简单3步,OpenHarmony上跑起ArkUI分布式小游戏
  • GPT-3和自然语言处理的前沿:思考AI大模型的发展
  • 傅里叶变换例题
  • 基于Docker构建CI/CD工具链(六)使用Apifox进行自动化测试
  • Java 中建造者模式,请用代码具体举例
  • Tomcat 启动闪退问题解决方法
  • 使用docker部署数据可视化平台Metabase
  • 数图智慧零售解决方案,赋能零售行业空间资源价值最大化
  • Django中的实时通信:WebSockets与异步视图的结合【第167篇—实时通信】
  • R 格式(蓝桥杯)
  • Intellij idea的快速配置详细使用
  • JavaEE:JVM
  • Linux基础|线程池Part.1|线程池的定义和运行逻辑
  • 蓝队面试经验总结
  • MySQL命令分类与大纲
  • windows编译xlnt,获取Excel表里的数据
  • c#字段和属性的区别
  • 微软正式发布Copilot for Security
  • AI大模型日报#0416:李飞飞《2024年人工智能指数报告》、Sora加入Adobe、李彦宏聊百度大模型之路
  • OpenCV轻松入门(八)——图片卷积
  • 鸿蒙HarmonyOS开发规范-完善中
  • 神经网络压缩图像
  • Catagory(rt)
  • Games104 现代游戏引擎3
  • 【云计算】混合云分类