当前位置: 首页 > news >正文

算法参考改进点/知识点

1、clip文章中改进点

图像编码器image encoder:

  1. 全局平均池化层替换为注意力池化机制。注意力池化机制:通过一个单层的“transformer式”多头QKV注意力,其中查询query是基于图像的全局平均池表示。
  2. 改进VIT(Vision Transformer):在transformer之前对 combined patch 和 position embeddings添加了额外的层归一化,并使用稍微不同的初始化方案。

文本编码器text encoder

训练过程改进点:使用混精度训练

关于优化模型训练的过程可以参考这篇论文:How to train really large models on many GPUs?

2、上采样:

  • 放大原数据,数据插值;
  • 放大原图像,从而可以显示在更高分辨率的显示设备上;
  • 常见的方法有双线性插值、反卷积、反池化。
  • 应用:图像放大:几乎都采用内插值的方法,在原有图像像素的基础上在像素点之间采用合适的插值算法插入新元素。

3、下采样:

  •  降采样,缩小图像,就是池化
  • 目的:降低特征的维度并保留有效信息,一定程度上避免过拟合,同时也保持旋转、平移和伸缩不变性,增大感受野并提取多尺度特征
  • 采样的过程就类似平均池化和最大池化

4、embedding层

是一种将离散输入(如单词、字符、用户ID等)转换为连续、密集向量表示的方法,旨在捕捉输入元素之间的语义和上下文关系。

http://www.lryc.cn/news/416101.html

相关文章:

  • electron 配置、打包 -报错解决
  • 基于STM32设计的智能鱼缸(华为云IOT)(200)
  • Django与数据库
  • 大数据系列之:CentOS7安装R详细步骤
  • Linux学习第57天:Linux PWM驱动实验
  • git 远程拉取指定文件
  • 【css】 CSS3+JS做一个酷炫的仪表进度条3d进度条
  • uniapp小程序全局配置分享到朋友和朋友圈功能的实现
  • Java优化后台分页
  • <数据集>电梯内人车识别数据集<目标检测>
  • 二百五十三、OceanBase——Linux上安装OceanBase数据库(三):OBD页面上部署OceanBase数据库
  • Redis应用笔记
  • html实现好看的塔罗牌、十二星座运势网站源码
  • 万字长文带你入门shell编程(超详细)
  • 音质提升秘籍:专业音频剪辑软件汇总
  • idea配置
  • 将 WinForms 中的 Panel 替换为 WPF 的 WindowsFormsHost 元素
  • C++ ---- vector的底层原理剖析及其实现
  • 跑酷视频素材去哪里下载?哪里有跑酷游戏视频素材?
  • Centos 7配置问题
  • 浮动IP(Floating IP)计费;OpenStack算力共享;OpenStack实现资源虚拟化;算力调度策略
  • Android 源码单独编译Settings模块
  • 虚拟机类加载机制
  • Google Earth Engine(GEE)——逐月筛选影像,并给影像集合添加新的属性
  • 如何从智联招聘网站快速抓取职位详情?两大技巧揭秘
  • C#知识|ini文件操作
  • Linux系统学习之路
  • DNS介绍与部署-Day 01
  • python 图片爬虫记录
  • 本地安装Llama3.1与LobeChat可视化UI界面并实现远程访问大模型实战