当前位置: 首页 > news >正文

彩蛋岛 销冠大模型案例

彩蛋岛 销冠大模型案例

任务:

https://kkgithub.com/InternLM/Tutorial/tree/camp3/docs/EasterEgg/StreamerSales

视频

https://www.bilibili.com/video/BV1f1421b7Du/?vd_source=4ffecd6d839338c9390829e56a43ca8d

项目git地址:

https://kkgithub.com/PeterH0323/Streamer-Sales

底层技术:

🚀 KV cache + Turbomind 推理加速
📚 RAG 检索增强生成
🎙️ ASR 语音转文字输入
🔊 TTS 文字转语音输出
🦸 数字人解说视频生成  SD 来生成视频:comfyUI 
🌐 Agent 使用网络查询实时快递等信息图片扣字; 图片进行长边裁剪;图片检测识别xtuner 微调训练

在线体验:
https://openxlab.org.cn/apps/detail/HinGwenWong/Streamer-Sales

笔记

功能:主播文案一键生成+商品解说

输入:给定商品特点

目标:激发用户购买意愿

架构:
在这里插入图片描述

数据集设计

主播视角;性格,说话方式
用户视角:可能关心问题
产品视角: 特性,亮点

训练

xtuner zero2 训练:

xtuner train finetune_configs/internlm2_chat_7b/internlm2_chat_7b_qlora_custom_data.py --deepspeed deepspeed_zero2

数字人-文生图流程

成熟的赛道是直接使用真人录制好的视频,然后 TTS 之后直接生成口型贴到人脸上,这种方法可控性强,而且获得成本低,已经大量推广了。

comfyui

生成人像图
DW Pose 生成骨骼图
ControlNet 控制人物姿态
AnimateDiff 生成视频
插帧提升帧率
提升分辨率

ComfyUI 环境搭建

https://kkgithub.com/InternLM/Tutorial/tree/camp3/docs/EasterEgg/StreamerSales#2-%E7%8E%AF%E5%A2%83%E6%90%AD%E5%BB%BA

文生图流程

首先加入 sd checkpoint ,和 vae 模型,vae 可选,模型可选

DW Pose 生成骨骼图 & ControlNet 控制人物姿态

AnimateDiff 生成视频

TTS 文字转语音

conda activate streamer-sales
uvicorn server.tts.tts_server:app --host 0.0.0.0 --port 8001 # tts

ASR 语音识别生成文字

conda activate streamer-sales
uvicorn server.asr.asr_server:app --host 0.0.0.0 --port 8003 # asr

异步

uvicorn

感觉

技术点比较全面,适合参考。

http://www.lryc.cn/news/440890.html

相关文章:

  • 大数据Flink(一百二十一):Flink CDC基本介绍
  • SqlServer自定义类型的使用
  • LeetCode 滑动窗口 滑动子数组的美丽值
  • 【JavaEE初阶】多线程(4)
  • 初识 C++ ( 1 )
  • Python数据分析 Pandas库-初步认识
  • Flutter问题记录 - 适配Xcode 16和iOS 18
  • VMware ESXi 7.0U3q macOS Unlocker 集成驱动版更新 OEM BIOS 2.7 支持 Windows Server 2025
  • 大数相乘,大数相加
  • Spring Boot配置文件敏感信息加密
  • Java操作数栈分析
  • C#|.net core 基础 - 值传递 vs 引用传递
  • axure的下载,激活,汉化全过程,多图
  • LCR 026
  • 万能小程序运营管理系统 _requestPost 任意文件读取漏洞复现
  • libyuv之linux编译
  • vue3路由基本使用
  • 哪些人适合学习人工智能?
  • 计算机的错误计算(九十七)
  • Flask-Migrate的使用
  • python怎么输入整数
  • 代码随想录打卡Day36
  • 速盾:凡科建站开cdn了吗?
  • python贪吃蛇游戏项目源码【免费】
  • Mycat搭建分库分表
  • Python中的数据结构
  • mysql笔记8(多表查询)
  • typescript-tsconfig文件解释
  • 所有用贪心的算法和所有用动态规划(dp)的算法合集
  • 论文阅读 | 基于流模型和可逆噪声层的鲁棒水印框架(AAAI 2023)