当前位置: 首页 > article >正文

数据集笔记:SeekWorld

  • 提出了一项新任务:地理定位推理(Geolocation Reasoning)
    • 该任务要求模型在感知视觉信息的同时,推理出图像中视觉语义所隐含的高级逻辑关系,从而确定图像的拍摄地点 
    • TheEighthDay/SeekWorld at main
  • 构建了一个基于规则的地理定位强化学习数据集 SeekWorld
    • 包含两个训练集
      • Train-Clue-Tracking
        • 从 o3 中收集的针对视觉线索跟踪的详细推理过程数据
        • {"response": "<think>\n\n<image clue>1: crop_images/20250317_190614-norway_rogaland/image_1.jpg [coordinates: 0.0000, 0.0000, 0.9990, 0.9981]\n\n<image clue>2: crop_images/20250317_190614-norway_rogaland/image_2.jpg [coordinates: 0.2004, 0.3430, 0.5559, 0.6496]\n\nI am considering the architectural origin of this picture.\n\nThe image resolution is low, perhaps due to a screenshot or downsampling issue, making the text difficult to read. It seems that the vertical sign says \"SKAGEN\"? However, the vertically arranged letters on the red building look like \"S N...\". I plan to continue zooming in on the image to better examine these letters.。。。

      • Train-No-Process
        • 不含推理过程的普通样本数据
        • {"message": "[{\"role\": \"system\", \"content\": \"You are a helpful assistant good at solving problems with step-by-step reasoning. You should first thinks about the reasoning process in the mind and then provides the user with the answer. The reasoning process and answer are enclosed within <think> </think> and <answer> </answer> tags.\"}, {\"role\": \"user\", \"content\": [{\"type\": \"image\", \"image\": \"/data/phd/tiankaibin/dataset/data/streetview_images_first_tier_cities/bourbon_street_french_quarter_new_orleans_la_usa_h45_r100_20250317_184521.jpg\"},{\"type\": \"text\", \"text\": \"In which country and within which first-level administrative region of that country was this picture taken?Please answer in the format of <answer>$country,administrative_area_level_1$</answer>?\"}]}]", "answer": "$united states,louisiana/state of louisiana/la/pelican state$"}

  • 基于 Train-No-Process 数据,并以 Qwen2.5-7B-VL-Instruct 为基础模型,通过强化学习训练得到一个专门的视觉地理定位模型 SeekWord-7B 
http://www.lryc.cn/news/2394719.html

相关文章:

  • LeetCode 算 法 实 战 - - - 移 除 链 表 元 素、反 转 链 表
  • Jenkins实践(10):pipeline构建历史展示包名和各阶段间传递参数
  • 从头认识AI-----循环神经网络(RNN)
  • 配置远程无密登陆ubuntu服务器时无法连接问题排查
  • 5.31 数学复习笔记 22
  • kafka学习笔记(三、消费者Consumer使用教程——使用实例及及核心流程源码讲解)
  • 鸿蒙 Form Kit(卡片开发服务)
  • 算力卡上部署OCR文本识别服务与测试
  • KWIC—Implicit Invocation
  • Visual Studio 2022 发布独立的 exe 文件
  • 11.4java语言执行浅析4
  • Excel 操作 转图片,转pdf等
  • 说说 Kotlin 中的 Any 与 Java 中的 Object 有何异同?
  • python分配方案数 2023年信息素养大赛复赛/决赛真题 小学组/初中组 python编程挑战赛 真题详细解析
  • 《信号与系统》第 5 章 离散时间傅里叶变换
  • 动态IP与区块链:重构网络信任的底层革命
  • 目前主流图像分类模型的详细对比分析
  • uniapp使用Canvas生成电子名片
  • 世冠科技亮相中汽中心科技周MBDE会议,共探汽车研发数字化转型新路径
  • Linux笔记---线程
  • MCP架构深度解析:从基础原理到核心设计
  • 【监控】pushgateway中间服务组件
  • 数据库暴露--Get型注入攻击
  • AI炼丹日志-26 - crawl4ai 专为 AI 打造的爬虫爬取库 上手指南
  • ESP32-idf学习(四)esp32C3驱动lcd
  • 【python】uv管理器
  • 关于Web安全:7. WebShell 管理与持久化后门
  • 音视频中的复用器
  • 戴尔AI服务器订单激增至121亿美元,但传统业务承压
  • 远程线程注入