当前位置：首页 > news >正文

每日学术速递2.17

news 2025/9/15 19:19:18

CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理

Subjects: cs.LG

1.Decoupled Model Schedule for Deep Learning Training

标题：深度学习训练的解耦模型时间表

作者：Hongzheng Chen, Cody Hao Yu, Shuai Zheng, Zhen Zhang, Zhiru Zhang, Yida Wang

文章链接：https://arxiv.org/abs/2302.08005v1

项目代码：https://github.com/awslabs/slapo

摘要：

近年来，大型深度学习 (DL) 模型的开发有所增加，这使得训练效率变得至关重要。通常的做法是在可用性和性能之间进行权衡。一方面，诸如 PyTorch 之类的 DL 框架使用动态图来以次优模型训练性能为代价为模型开发人员提供便利。另一方面，从业者提出了各种通过牺牲一些灵活性来提高训练效率的方法，从使图静态化以进行更彻底的优化（例如 XLA）到针对大规模分布式训练进行定制优化（例如 DeepSpeed 和威震天-LM）。在本文中，我们的目标是通过关注点分离来解决可用性和训练效率之间的紧张关系。受将张量级运算符的平台特定优化与其算术定义分离的 DL 编译器的启发，本文提出了一种调度语言来将模型执行与定义分离。具体来说，调度在 PyTorch 模型上运行，并使用一组调度原语将模型转换为常见的模型训练优化，例如高性能内核、有效的 3D 并行性和高效的激活检查点。与现有的优化方案相比，我们通过高层原语按需优化模型，从而在很大程度上为用户保留了可编程性和可调试性。我们的评估结果表明，通过系统地安排现有的手工优化，我们能够在配备 8 个 NVIDIA V100 GPU 的单台机器上将训练吞吐量提高多达 3.35 倍，并提高多达 1.5 倍。与 DeepSpeed 和 Megatron-LM 的开箱即用性能相比，在具有多达 64 个 GPU 的多台机器上是 32 倍。

2.Assisting Human Decisions in Document Matching

标题：在文档匹配中协助人类决策

作者：Joon Sik Kim, Valerie Chen, Danish Pruthi, Nihar B. Shah, Ameet Talwalkar

文章链接：https://arxiv.org/abs/2302.08450v1

项目代码：https://github.com/wnstlr/document-matching

摘要：

许多实际应用，从同行评审中的论文审稿人分配到招聘的求职者匹配，都需要人类决策者通过将他们的专业知识与机器学习模型的预测相结合来识别相关匹配。在许多此类模型辅助文档匹配任务中，决策者强调需要有关模型输出（或数据）的辅助信息以促进他们的决策。在本文中，我们设计了一个代理匹配任务，使我们能够评估哪些类型的辅助信息可以提高决策者的绩效（在准确性和时间方面）。通过一项众包（N=271 名参与者）研究，我们发现提供黑盒模型解释会降低用户在匹配任务上的准确性，这与人们普遍认为的可以通过更好地理解模型来提供帮助的信念相反。另一方面，发现旨在密切关注某些任务特定需求的自定义方法可有效提高用户性能。令人惊讶的是，我们还发现用户对辅助信息的感知效用与他们的客观效用（通过他们的任务绩效衡量）不一致。

Subjects: cs.CV

3.URCDC-Depth: Uncertainty Rectified Cross-Distillation with CutFlip for Monocular Depth Estimation

标题：URCDC-Depth：使用 CutFlip 进行不确定性校正交叉蒸馏以进行单眼深度估计

作者：Shuwei Shao, Zhongcai Pei, Weihai Chen, Ran Li, Zhong Liu, Zhengguo Li

文章链接：https://arxiv.org/abs/2302.08149v1

项目代码：https://github.com/shuweishao/urcdc-depth

摘要：

这项工作旨在从单个 RGB 图像估计高质量的深度图。由于缺乏深度线索，充分利用长程相关性和局部信息对于准确的深度估计至关重要。为此，我们在 Transformer 和卷积神经网络 (CNN) 之间引入了不确定性校正交叉蒸馏，以学习统一的深度估计器。具体来说，我们使用从 Transformer 分支和 CNN 分支导出的深度估计作为伪标签来互相学习。同时，我们对像素级深度不确定性进行建模，以纠正噪声深度标签的损失权重。为了避免由强大的 Transformer 分支引起的巨大性能差距恶化交叉蒸馏，我们将特征映射从 Transformer 转移到 CNN 并设计耦合单元以协助弱 CNN 分支利用转移的特征。此外，我们提出了一种非常简单但非常有效的数据增强技术 CutFlip，它强制模型利用除了垂直图像位置的线索之外的更有价值的线索来进行深度估计。广泛的实验表明，我们的模型，称为 ~\textbf{URCDC-Depth}，在 KITTI 和 NYU-Depth-v2 数据集上超过了以前最先进的方法，即使在推理时没有额外的计算负担。