当前位置: 首页 > news >正文

首个统一生成和判别任务的条件生成模型框架BiGR:专注于增强生成和表示能力,可执行视觉生成、辨别、编辑等任务

BiGR是一种新型的图像生成模型,它可以生成高质量的图像,同时还能有效地提取图像特征。该方法是通过将图像转换为一系列的二进制代码来工作,这些代码就像是图像的“压缩版”。在训练时会遮住一些代码,然后让模型学习如何根据剩下的代码来填补这些空缺。

BiGR不仅能够生成图像,还能在很多视觉任务中表现良好,比如修复损坏的图像或对图像进行编辑,而这些都无需对模型进行特别的调整。这使得BiGR在图像生成领域非常灵活和高效。

相关链接

论文地址:http://arxiv.org/abs/2410.14672v1

项目主页:https://haoosz.github.io/BiGR

代码链接:https://github.com/haoosz/BiGR

论文介绍

BiGR是一种新颖的条件图像生成模型,使用紧凑的二进制潜在代码进行生成训练,专注于增强生成和表示能力。BiGR可以执行视觉生成、辨别、编辑等。

  • 统一性:BiGR是第一个在同一模型中统一生成任务和判别任务的条件图像生成模型。通过对紧凑的二进制潜在代码进行建模,与现有模型相比, BiGR在两个任务中都表现出色。

  • 效率:BiGR以较低的时间成本生成图像,这归因于迭代揭露过程中所需的少量采样步骤,同时仍保持较高的生成质量。

  • 灵活性:BiGR可以灵活地用于各种视觉应用,例如以零样本方式进行修复、去除修复、编辑、插值和丰富,而无需针对特定任务进行结构更改或参数微调。

  • 可扩展性:BiGR在生成任务和判别任务中都表现出可扩展性,这通过对生成质量和线性探测性能的全面评估得到了证明。

方法

BiGR建立在 Llama 主干之上,结合了掩码标记预测和二进制转码器。BiGR 使用加权二进制交叉熵 (wBCE) 损失进行训练,以重建掩码标记。对于图像生成,我们设计了熵序采样。对于视觉表示,我们只需在中间层应用平均池化。

定量比较

图像生成

零样本广义应用

BiGR支持多种零样本应用,而无需特定于任务的结构更改或参数微调。

实验结果表明,BiGR在生成质量上优于现有模型,尤其是在使用二进制目标和掩蔽建模时。此外还比较了BiGR与最新的自回归生成基线LlamaGen的表现,发现BiGR在生成和判别任务上都展现出更强的能力。

http://www.lryc.cn/news/465761.html

相关文章:

  • 【Java知识】Java进阶-服务发现机制SPI
  • 多模态技术的协同表现:从文本生成、语音合成到口型同步综合测评
  • Java最全面试题->Java主流框架->Srping面试题
  • 参编国家标准需要注意的事项有哪些?
  • 【Dash】feffery_antd_components 按钮组件的应用
  • 01 springboot-整合日志(logback-config.xml)
  • Java最全面试题->计算机基础面试题->计算机网络面试题
  • VSCode编译器改为中文
  • 前端开发设计模式——状态模式
  • 特种作业操作烟花爆竹试题分享
  • 实现prometheus+grafana的监控部署
  • 确保Spring Boot定时任务只执行一次方案
  • 【Python数据可视化】利用Matplotlib绘制美丽图表!
  • 【最新通知】2024年Cisco思科认证CCNA详解
  • 监控内容、监控指标、监控工具大科普
  • 生成文件夹 - python 实现
  • 快速了解学会python基础语言及IDLE 提供的常用快捷键
  • 【python】OpenCV—Sort the Point Set from Top Left to Bottom Right
  • LeetCode 1493.删掉一个元素以后全为1的最长子数组
  • php常用设计模式之工厂模式
  • 通用软件版本标识
  • (计算机毕设)基于SpringBoot的就业平台开题报告
  • STM32G4系列MCU的ADC模块标定方法和采样时间
  • NVIDIA Jetson支持的神经网络加速的量化平台
  • MySQL 免密登录的几种配置方式
  • html全局属性、框架标签
  • ARL 灯塔 | CentOS7 — ARL 灯塔搭建流程(Docker)
  • 抖音列表页采集-前言
  • Linux 端口占用 kill被占用的端口 杀掉端口
  • 爬虫之数据解析