当前位置: 首页 > news >正文

如何使用llm 制作多模态

首先将任何非字符的序列信息使用特殊n个token 编码。
具体编码方法以图像为例子说明:
将固定尺寸图像如256256 的图像分割为1616 的子图像块。
将已知的所有图像数据都分割后进行str将其看做是一个长的字符,而后去重后方式一个词表。
使用特殊1024 个token 表示该词表。由于词表远远大于该特殊token 的个数,必须使用 多个位的特殊token 表示,例如
使用两位 token 表示 能 1024*1024 词 可以不断的 累乘 直到大于词表大小 固定使用 这些位的token 且 小的要前面填充0 token。
例如 0,0,1023 表示一个子图。这样就可以使用 1024 个token 表示词表。
这样将整个数据集和特殊token 建立映射关系。只要设计一个神经网络学习整个映射关系,就能实现任意图像和特殊token之间的转换。
反过来任意特殊token 也能转换为任意图像。
通过上面的例子可以同样的将任务声音进行转换。
也可以将任意视频信息进行转换。
总之只要数据量足够就能完全模拟任何信息。且能通过文字控制任何信息的生成。
当前是如何制作两个完全有效学习特殊token和这些信息的互转的神经网络。
在这里插入图片描述

http://www.lryc.cn/news/253777.html

相关文章:

  • k8s(二):Pod
  • Python 字典详解(dict)
  • IPoIB在国产并行系统上的实现与优化
  • 东南大学与OpenHarmony携手共建开源生态,技术俱乐部揭牌成立并迎来TSC专家进校园
  • NPU、CPU、GPU算力及算力计算方式
  • 华清远见嵌入式学习——C++——作业6
  • k8s安装学习环境
  • RepidJson将内容写入文件简单代码示例
  • golang构建docker镜像的几种方式
  • golang使用sip协议 用户名和密码注册到vos3000
  • 第4章 互联网
  • 【JavaWeb】前端工程化(VUE3)
  • JAVA基础知识:异常处理
  • PostGIS学习教程十:空间索引
  • LeetCode 13 罗马数字转整数
  • 【动态规划】LeetCode2111:使数组 K 递增的最少操作次数
  • SpringCloud面试题——Nacos
  • leetcode:统计感冒序列的数目【数学题:组合数含逆元模版】
  • 外贸建站平台工具推荐?做海洋建站的平台?
  • 【智能家居】三、添加语音识别模块的串口读取功能点
  • 物联网开发(一)新版Onenet 基础配置
  • qt/c/c++文件操作总结
  • 表示你的shell未被正确配置以使用conda activate--换成清华源anaconda
  • VT-MRPA1-151-1X/V0/0控制2FRE16模块式模拟放大器
  • 无需公网IP实现公网远程访问本地WebDAV服务
  • 远程服务器QEMU+Ubuntu+GRUB+VNC最佳实践
  • macbook电脑运行缓慢和卡顿内存怎么清理了?
  • 优化用户直播体验:第三方美颜SDK的前沿技术
  • UE4/UE5 材质实现带框环形进度条
  • Docker 环境中 Spring Boot 应用的 Arthas 故障排查与性能优化实战