当前位置: 首页 > news >正文

多粒度在研究中的应用

FontDiffuser: One-Shot Font Generation via Denoising Diffusion with Multi-Scale Content Aggregation and Style Contrastive Learning

存在的问题
现有的字体生成方法虽然取得了令人满意的性能,但在处理复杂字和风格变化较大的字符(尤其是中文字符)时,仍会出现严重的笔画缺失、伪影、模糊、结构布局错误和风格不一致等问题,如上图4所示。

原因分析

  • 大多数方法都采用基于 GAN 的框架,由于其对抗训练的性质,可能会出现训练不稳定的问题。

  • 这些方法大多只通过单一尺度的高维特征来感知内容信息,而忽略了对保留源内容(尤其是复杂字符)的细粒度细节

  • 许多方法利用先验知识来帮助字体生成,例如字符的笔画或部件组成;然而,对于复杂的字符来说,获取这些细粒度信息的成本很高;

  • 在过去的方法中,目标风格通常由一个简单的分类器或判别器来进行特征表示学习,这种分类器或判别器很难学习到合适的风格,在一定程度上阻碍了在风格变化较大时的风格转换。

在这里插入图片描述
图1 在内容编码器中不同尺度的特征图
在这里插入图片描述

VadCLIP: Adapting Vision-Language Models for Weakly Supervised Video Anomaly Detection

将视觉语言模型应用于弱监督视频异常检测

简述:」VadCLIP是利用对比语言-图像预训练(CLIP)模型进行弱监督视频异常检测的新方法。它通过直接利用冻结的CLIP模型,无需预训练和微调,简化了模型适应过程。与现有方法不同,VadCLIP充分利用CLIP在视觉和语言之间的精细关联,采用双分支结构。一个分支进行粗粒度二分类,另一个分支则充分利用语言-图像对齐进行细粒度分析。通过双分支结构,VadCLIP实现了从CLIP到WSVAD任务的迁移学习,实现了粗粒度和细粒度的视频异常检测。
在这里插入图片描述

http://www.lryc.cn/news/272289.html

相关文章:

  • Docker命令---查看容器日志
  • Spring Boot 基于Redisson实现注解式分布式锁
  • Javascript 正则表达式零宽断言
  • Chocolatey
  • 雍禾植发成毛发行业标杆!雍禾医疗获“年度医疗大健康消费企业”
  • Linux内核--进程管理(十二)共享内存和信号量
  • java 构造方法
  • CISSP 第2章: 人员安全和风险管理概念
  • 前端八股文(CSS篇)一
  • 游戏加速器LSP/DLL导致WSL.EXE无法打开问题修复!
  • 宏电股份5G RedCap终端产品助力深圳极速先锋城市建设
  • linux top命令中 cpu 利用率/mem 使用率与load average平均负载计算方式
  • win11出现安全中心空白和IT管理员已限制对某些区域的访问(不一样的解决方式),真实的个人经历,并且解决经过
  • 关于安卓重启设备和重启应用进程
  • Linux内核--进程管理(十三)O(1)调度算法
  • 【QT】发生的运行时错误汇总
  • 机器学习常用算法模型总结
  • 笔记中所得(已删减)
  • 在Django5中使用Websocket进行通信
  • 外汇天眼:CySEC与NAGA Markets Europe达成15万欧元的和解
  • Docker仓库搭建与镜像推送拉取
  • 最适合初学者的PHP集成环境!
  • 添加 Android App Links
  • 五、Spring AOP面向切面编程(基于注解方式实现和细节)
  • ES6 class详解
  • 嵌入式固件加密的几种方式
  • [C#]使用onnxruntime部署Detic检测2万1千种类别的物体
  • 关于Spring @Transactional事务传播机制详解
  • 力扣139.单词拆分
  • Docker 镜像命令总汇