机器学习笔记:主动学习(Active Learning)初探
1 基本介绍
- 监督学习问题中,存在标记成本昂贵且难以大量获取的问题。
- 针对一些特定任务,只有行业专家才能为样本做上准确标记。
- 在此问题背景下,主动学习(Active Learning, AL)尝试通过选择性地标记较少数据而训练出表现较好的模型。
- 主动学习最重要的假设是不同样本对于特定任务的重要程度不同,所以带来的表现提升也不全相同。
- 选取较为重要的样本可以使当前模型以较少的标记样本数得到较好的表现
- 在这一过程中,主动学习的本质是对样本的重要性(/信息度/期望带来的表现等)等进行评估
- 模型会从数据集中主动选择一些不带标签的数据,交互式地向专家(oracle)请求标注,这个过程叫做query。
- 在每一次标注之后,模型重新或者增量地在带标签的数据上训练,然后再主动地选择不带标签数据进行标注,重复这个过程。
- 主动学习最重要的假设是不同样本对于特定任务的重要程度不同,所以带来的表现提升也不全相同。
1.1 从不同角度理解主动学习
从问题的角度 | 通过以某种主动策略构建较小训练集来减少标记成本的机器学习方式 |
从策略的角度 | 以某种方式对未标记样本重要性的评估 |
从训练的角度 | 一种交互式的标记、训练、评估流程 |
2 主动学习基本的问题场景
Pool-based scenario |
|
Stream-based scenario |
|
Query synthesis scenario |
|
3 主动学习对样本的评估方法
基于 Pool-based Scenario + Classification
选取的样本进行manual label
Informativeness |
|
Representativeness-impart |
|
Expected Improvements |
|
Learn to score |
|
参考内容:
主动学习(Active Learning),看这一篇就够了 - 知乎 (zhihu.com)
通俗理解主动学习 - 知乎 (zhihu.com)