当前位置: 首页 > news >正文

文献研读|基于像素语义层面图像重建的AI生成图像检测

前言:本篇文章主要对基于重建的AI生成图像检测的四篇相关工作进行介绍,分别为基于像素层面重建的检测方法 DIRE 和 Aeroblade,以及基于语义层面重建的检测方法 SimGIR 和 Zerofake;并对相应方法进行比较。

相关文章:论文研读|针对文生图模型的AIGC检测


⚠️ 基于像素层面重建的检测

顾名思义,像素层面的重建,即保证重建图像在视觉上要尽可能与原始图像一致。

比较具有代表性的2️⃣篇文章是 DIRE 和 Aeroblade:

  • DIRE for Diffusion-Generated Image Detection. ICCV, 2023. code
  • AEROBLADE: Training-Free Detection of Latent Diffusion Images Using Autoencoder Reconstruction Error. CVPR, 2024. code

二者的主要思想都是以视觉相似性为目的对原始图像进行重建,根据真实图像和生成图像分别与各自重建图像的差异性完成检测。主要区别在于,得到重建图像后,DIRE使用原始图像与重建图像的残差作为输入训练一个二分类器;而Aeroblade无需训练,直接使用lpips距离直接判断原始图像是否为生成图像。

在这里插入图片描述


⚠️ 基于语义层面重建的检测

基于语义的图像重建,旨在保证原始图像与重建图像在语义层面的相似性。

比较具有代表性的2️⃣篇文章是 ZeroFake 和 SimGIR:

  • SemGIR: Semantic-Guided Image Regeneration Based Method for AI-generated Image Detection and Attribution. ACM Multimedia, 2024.
  • ZeroFake: Zero-Shot Detection of Fake Images Generated and Edited by Text-to-Image Generation Models. CCS, 2024. code

这两项工作主要思想都是以原始图像对应的提示词文本为语义指引,得到重建图像辅助检测。区别在于,SemGIR 直接使用BLIP图像描述模型得到原始图像的提示词文本,生成重建图像,然后联合原始图像特征与重建图像特征训练二分类器进行检测(如下图):

在这里插入图片描述

而 Zerofake 无需训练,直接通过计算原始图像与重建图像的SSIM距离完成检测(提前设定比较阈值,文中为0.78)。此外,不同于 SimGIR,Zerofake不是使用BLIP模型得到的描述文本直接作为原始图像提示词文本,而是对描述文本添加了对抗扰动提示,如下图及伪代码所示:

在这里插入图片描述

在这里插入图片描述


像素层面重建和语义层面重建的区别是在 SimGIR 这篇文章中提出来的,旨在保证原始图像与重建图像的语义特征相似性。虽然方法是在 few-shot场景下使用常规的特征拼接得到检测特征依据,但能够找到这样一个切入点成文个人感觉比较新奇,启发就是方法的motivation很重要,要言之有物,言之有理。

比较好奇的一个点是,原始图像与重建图像之间的语义一致性对于检测结果有什么具体影响,并且这一影响是否在原理和实验层面进行解释呢?

在这里插入图片描述

http://www.lryc.cn/news/505787.html

相关文章:

  • 【操作系统】为什么需要架构裁剪?
  • LSTM长短期记忆网络
  • 基于前端技术UniApp和后端技术Node.js的电影购票系统
  • 数据结构与算法:稀疏数组
  • Meta重磅发布Llama 3.3 70B:开源AI模型的新里程碑
  • VSCode中的Black Formatter没有生效的解决办法
  • 【潜意识Java】蓝桥杯算法有关的动态规划求解背包问题
  • Odoo:免费开源ERP的AI技术赋能出海企业电子商务应用介绍
  • 微信小程序苹果手机自带的数字键盘老是弹出收起,影响用户体验,100%解决
  • sql中case when若条件重复 执行的顺序
  • 压力测试Jmeter简介
  • cesium 与 threejs 对比
  • 探索QScreen的信号与槽:动态响应屏幕变化
  • vLLM项目加入PyTorch生态系统,引领LLM推理新纪元
  • 索引-介绍结构语法
  • SpringBoot整合JDBC
  • XXE靶场
  • Elasticsearch:使用 Open Crawler 和 semantic text 进行语义搜索
  • Facebook的隐私保护政策:用户数据如何在平台上被管理?
  • 【ETCD】【源码阅读】深入解析 EtcdServer.applySnapshot方法
  • ‌HBase是什么,‌HBase介绍
  • 【Rust自学】3.3. 数据类型:复合类型
  • 【C++】小乐乐求和问题的高效求解与算法对比分析
  • configure错误:“C compiler cannot create executables“
  • PAT乙级 锤子剪刀布 巩固巩固map的使用
  • Webpack学习笔记(1)
  • 使用xpath规则进行提取数据并存储
  • 【物联网技术与应用】实验3:七彩LED灯闪烁
  • 素数回文数的个数
  • 车辆重识别代码笔记12.18