当前位置: 首页 > news >正文

paligemma、Grounding-DINO-1.5简单无需标注无需训练直接可以使用的VLM图像到文本模型

1、paligemma

参考:https://github.com/google-research/big_vision/blob/main/big_vision/configs/proj/paligemma/README.md

模型架构:
文本与图像特征一起送入大模型
在这里插入图片描述

在线体验网址:
https://huggingface.co/spaces/big-vision/paligemma

在这里插入图片描述
在这里插入图片描述

通过文字prompt既可与图片对话输出,下面是官方案例
在这里插入图片描述

2、Grounding-DINO-1.5

参考:
https://github.com/IDEA-Research/Grounding-DINO-1.5-API?tab=readme-ov-file#3-runing-demo-code

模型架构:
类似CLIP对比学习方式

http://www.lryc.cn/news/351249.html

相关文章:

  • FreeRTOS学习——FreeRTOS队列(下)之队列创建
  • js实现鼠标拖拽多选功能
  • postgres_exporter 监控pg坑一:备库无延迟但是监控告警备库延迟
  • vue打包部署到springboot,通过tomcat运行
  • 如何有效防止数据丢失
  • linux命令中arj使用
  • UE5中搭建一个简单的海岛
  • 爬虫学习--12.MySQL数据库的基本操作(下)
  • js的算法-选择排序(简单选择排序)
  • Mac虚拟机工具 CrossOver 24.0.0 Beta3 Mac中文版
  • 路由聚合和VRRP技术
  • 【原创教程】三菱FX3U系列培训专题课教案
  • 清空了电脑回收站,之前的文件还能否恢复?
  • 设计模式——职责链(责任链)模式
  • 功耗相关总结
  • 17款奔驰GLS450升级头等舱行政独立四座马鞍是什么样体验
  • 浏览器的下载行为基本原理
  • 浅谈微服务的自动化部署
  • 【C语言】8.C语言操作符详解(1)
  • Buzz库网络爬虫实例:快速爬取百度搜索实时热点
  • SQL注入:pikachu靶场中的SQL注入通关
  • springsecurity入门登录授权
  • 医学科技查新中对查新点的撰写方法!附案例讲解!
  • 2024最新流媒体在线音乐系统网站源码| 音乐社区 | 多语言 | 开心版
  • 回溯算法05(leetcode491/46/47)
  • Transformer,革命性的深度学习架构
  • 实验五:实现循环双链表各种基本运算的算法
  • ElasticSearch IK分词器的安装、词典扩展与停用
  • 代码随想录训练营总结
  • 深度学习-转置卷积