当前位置: 首页 > news >正文

视频文字转语音经验笔记

自媒体视频制作的一些小经验,分享给大家。

一、音频部分:

1、文字转语音阐述:

微软语音识别 云希-青年男, 0.5-0.8变速 。注:云泽-中年男(不支持长音频录制), 适合郑重场合,关键知识点阐述。
测试工具:
a、小蜗软件,测试效果也可以,综合了各种文字字幕转换工具。ui比较专业,用的微软tts内核。
b、edge-tts-record0.1.1 (测试后推荐)。 也可自己录制后转音色的方式。30分钟录制限制。注:保存音频路径必须为英文或拼音。

c、关于佛教多音字发音校对的问题,微软ai对于专有中文名词发音有勿,需要用相应的其他词替代。
官方没提供快速字幕文字查找定位时间线功能。需要手动到处srt字幕,之后,在外部文本工具里,查看剪映相应的时间定位点。
不同的字数,会影响多音字发音ai判断。一乘了义 不带标点,仅四个字 了 发liao,多字带标点速以上,发le。

比如: 使用tts-vue1.9.15 软件ssml 标记语法输入词语拼音,并局部音频剪辑替换。

【阿弥陀佛】阿发错误音e,需要转为 【阿`弥陀佛】发a。

【一乘了义】错误了音le,一乘了义 不带标点,仅四个字 了 发liao,多字带标点速以上,发le。

【十行】错误音 hang 需要改为 【十`行】 xing

【诸佛刹土】错误音 sha 需要改为【诸`佛刹土】 cha

【迦叶】ye需要转为 【迦舍】发she

【舍利弗】fu改为【舍利佛】fo

d、录音期间,电脑要关闭下载等其他会发生的程序,以免夹杂。比如:网盘程序等。

2、配乐音效素材:

剪映官方,不多说,技术已经普及。

3、音色转换:

预方案:RMAIVoiceChanger(原入梦RVC软件)。暂时没使用。
选择了微软云希,简单快捷,语速设为0.8所有,平稳清晰。

二、图像部分:

1、图片素材来源:

baidu图片搜索,fooocus AI 图片生成修改。为了提升出图速度,建议关闭其他程序,仅运行ai程序。能保证在笔记本2070s显卡下稳定运算。
A、ai生成群体人物脸部扭曲错误,可以用ai换脸工具roop rope AI人脸替换离线版3.0完成批量替换。
测试工具:photoshop修图。
b、手部修复,不必用controlnet,可以在ps中简单重绘修补手部,外形,只后用ai重绘局部或全图。
c、图片缩放,fooocus 1.5倍放大,nv2070s显存能承担。2k左右。2倍放大卡死,估计显存不足。

2、音频转字幕生成:

剪映内置,ai语音转字幕。 每次转换限制字数5000内。支持文字参考输入。
a、超长分钟以上音频,需要先将语音音频剪裁为多段,每段与输入文本对应的内容,如果文字与音频内容不对应,整体长度不一致,会出现字幕生成错位问题。
b、每次转字幕时,必须把每段音频拖到新轨道,并点选音频轨道后。锁定并静音其他轨道,一次次生成。最终合并一起。
c、最后,每转一段,最好把音轨与字幕合成一个剪辑组,便于拖动组合。最后都合并为一轨道里,最后,可以取消各分段的剪辑组。恢复字幕和音频独立状态,再合并为一个大剪辑组。便于管理分割。
d、如果音频与视频分离的,可以合为同步视频,最红合为一个大的剪辑组,便于之后剪辑。
e、视频转化低编码,可以用file converter (右键快速菜单)工具。高效环保。

3、剪映剪辑技巧:

a、同轨道两片段拖动对齐时,后一个对不上前一个,差一点就自动建到新轨去了。经实验,发现,将当前游标,移到前片段尾部自动吸附后,再拖动后片段到前片段尾部就对齐了。
b、剪映没有阴影特效。只能通过假阴影模拟,一种是默认官方黑片+方形蒙版(边缘模糊)
另一种是ps 手动做个png透明阴影图片,导入。
c、复合片段,有变速标签项,可以后期整体变速,但音频部分要适当做音频变速补偿,否则会失真。
d、封面的导出,任何视频、音频、字幕导出,都会自动包含封面,可仅选择字幕导出即可输出封面,加快输出速度。
e、修改内容后,剪映预览无法更新问题。可以关闭自动渲染功能,并删除预渲染视频文件,即可完成视频的更新显示。在全局设置中,第三个标签项下,可以找到预渲染视频文件夹设置,和自动渲染选项,关闭自动渲染,固态硬盘无需预渲染,流畅度不影响。

4、其他经验:

b站视频回复时,如何添加快捷时间标记到回复里,作为内容预览大纲:
直接输入时间码 52:00 格式 空格+内容文字 即可。

南无阿弥陀佛

http://www.lryc.cn/news/389755.html

相关文章:

  • 视频融合共享平台LntonCVS统一视频接入平台智慧安防应用方案
  • 使用Python绘制动态螺旋线:旋转动画效果
  • Symfony实战手册:PHP框架的高级应用技巧
  • TOGAF培训什么内容?参加TOGAF培训有什么好处?考试通过率多少?
  • keepalived HA nginx方案
  • 报错:pathspec ‘xxx‘ did not match any file(s) known to git
  • sed 保持空间命令之 x 的执行逻辑
  • 按位异或^
  • 《企业实战分享 · 常用运维中间件》
  • PyCharm 2024.1简介
  • 终身免费的Navicat数据库,不需要破解,官方支持
  • Spring Boot中的模板引擎选择与配置
  • 4、音视频封装格式---FLV
  • vscode 前行复制到下一行
  • 什么是文档透明加密|好用的文档透明加密软件有哪些?
  • XTDrone-固定翼无人机编队跟踪无人车-配置教程
  • 实现高性能、可扩展的实时数据采集系统:go-zero的应用与实践
  • AUTOSAR NvM模块(五)
  • 输出feign调用详细日志
  • mac编译r2frida问题解决
  • 中介者模式在金融业务中的应用及其框架实现
  • javaSE期末练习题
  • Linux文件数据写入
  • vue2 中如何使用 vuedraggable 库实现拖拽功能
  • 0基础学C++ | 第13天 | 基础知识 | 类 | 对象
  • Java | Leetcode Java题解之第212题单词搜索II
  • Flink面试题总结
  • 人工智能与云计算
  • 9.(vue3.x+vite)修改el-input,el-data-picker样式
  • java反射和注解