当前位置: 首页 > news >正文

论文阅读——ONE-PEACE

ONE-PEACE: EXPLORING ONE GENERAL REPRESENTATION MODEL TOWARD UNLIMITED MODALITIES

适应不同模态并且支持多模态交互。

预训练任务不仅能提取单模态信息,还能模态间对齐。

预训练任务通用且直接,使得他们可以应用到不同模态。

各个模态独立编码,然后模态融合。

Vision Adapter:使用hierarchical MLP (hMLP) stem对图像分块,直到patch size 16 × 16,不同块之间没有交互。然后打成patch 特征序列,再加一个类别前缀向量,并加上绝对位置编码。得到:

Audio Adapter (A-Adapter):16kHz采样,归一化数据,使用卷积提取相对特征。得到:

Language Adapter (L-Adapter):先变成subword sequence-->加上[CLS] and [EOS]-->embeddings-->absolute positional embeddings-->

预训练任务包括:cross-modal contrastive learning and intra-modal denoising contrastive learning

Cross-Modal Contrastive Learning:不同模态之间语义空间对齐。

Intra-Modal Denoising Contrastive Learning:单模态内部更精细的细节。

http://www.lryc.cn/news/305343.html

相关文章:

  • 围剿尚未终止 库迪深陷瑞幸9.9阳谋
  • 5G网络(接入网+承载网+核心网)
  • 学习Markdown
  • MySQL知识点总结(五)——锁
  • IDEA 2023.2 配置 JavaWeb 工程
  • 软考40-上午题-【数据库】-关系代数运算2-专门的集合运算
  • RHEL9安装Python2.7
  • 更新至2022年世界各国数字经济发展相关指标(23个指标)
  • vue从flask获取数据并显示
  • Kafka生产常见问题分析与总结
  • 重温MySQL
  • 构造函数,原型,实例,类的关系整理
  • [极客挑战2019]HTTP
  • 发布 rust 源码包 (crates.io)
  • jQuery 基础、选择器和筛选器
  • 网络原理-UDP/TCP协议
  • C语言——实用调试技巧——第2篇——(第23篇)
  • broom系列包: 整理模型输出结果
  • Spring Boot 参数校验机制原理以及如何实现一个自定义校验注解
  • 长短期记忆神经网络
  • 解决vscode每次git pull/push都需要输入账号密码
  • Rancher实用篇-使用rancher,部署微服务应用
  • 爬取m3u8视频
  • 抖音视频抓取软件的优势|视频评论内容提取器|批量视频下载
  • apidoc接口文档的自动更新与发布
  • Oracle EBS R12.1 FA 批量计划外折旧
  • 15.3 基于深度学习的WiFi指纹低成本地点识别
  • Git基本操作(1)
  • k8s-helm部署应用 19
  • OGG-00918 映射中缺少键列 id.