当前位置：首页 > news >正文

[论文阅读] 人工智能 | 机器学习工作流的“救星”：数据虚拟化服务如何解决数据管理难题？

news 2025/7/29 14:11:38

机器学习工作流的“救星”：数据虚拟化服务如何解决数据管理难题？

论文：DATA VIRTUALIZATION FOR MACHINE LEARNING

一段话总结：

本文聚焦于机器学习（ML）工作流中的数据虚拟化，提出扩展数据虚拟化概念以支持大量虚拟数据集的创建与管理，这些数据集包含源数据集的路径链接和数据转换函数的调用链接。文中设计并实现了具有服务导向架构的数据虚拟化服务（DVS），包含数据虚拟化管理器（DVM）、数据查询引擎（DQE）等核心组件，并通过六个应用案例（如风力涡轮机故障检测、河流流量预测等）验证其价值，能带来存储节省、数据溯源自动化、实验可重复性提升等收益。

研究背景：机器学习工作流的“数据泥潭”

如果你接触过机器学习项目，可能会遇到这样的场景：团队里每个人都在处理相似的数据，却各自保存着无数份中间文件——比如同一份图像数据，有人裁剪后存了一份，有人归一化后又存了一份，还有人划分训练集和测试集后再存一份。时间一长，存储服务器被塞满，想复现某个实验时，却忘了当初的数据是怎么处理的……

这正是当前机器学习（ML）工作流的普遍痛点。论文中提到，ML工作流往往需要数月甚至数年，涉及大量实验、迭代和协作，数据转换任务（如合并、筛选、归一化、分区等）层出不穷。这些任务通常由开发者各自完成，导致重复劳动、数据存储浪费、数据来源难以追溯（数据溯源）、实验结果无法复现等问题。

传统的数据虚拟化技术虽能实现远程数据访问，但难以应对ML场景中高频、小规模的虚拟操作，也无法整合数据处理功能。因此，研究者们提出了专门针对ML工作流的数据虚拟化方案。

主要作者及单位信息

本文由来自英国的研究团队合作完成：

Saiful Khan、Niraj Bhujel 来自卢瑟福·阿普尔顿实验室科学计算部门（STFC）
Joyraj Chakraborty、Philip Beaucamp、Min Chen 来自牛津大学工程科学系

创新点：给数据“装上导航和操作指南”

这篇论文的核心创新在于扩展了数据虚拟化的概念，让虚拟数据集不仅能“找到”源数据，还能“记住”如何处理数据。具体来说：

虚拟数据集的双重链接：虚拟数据集不仅包含指向源数据的路径链接，还包含调用数据转换函数的链接。比如，一份用于训练的虚拟数据集，会记录“从哪份源数据来”以及“经过了哪些筛选、归一化步骤”。
服务导向的架构设计：构建了一套完整的数据虚拟化服务（DVS），包含多个专用组件，例如：
- 用YAML格式定义虚拟数据集的规范（SSVD），确保格式统一；
- 数据查询引擎（DQE）负责追溯数据来源；
- 数据处理引擎（DPE）负责执行转换操作；
- 数据虚拟化管理器（DVM）作为核心，统筹所有虚拟数据集和转换逻辑。
支持自定义与标准化结合：既提供合并、分区等内置转换函数，也允许高级用户添加自定义函数，兼顾灵活性和规范性。

研究方法：从问题到落地的完整路径

研究者通过“定义问题→设计方案→实践验证”的步骤，构建并验证了数据虚拟化服务：

明确ML工作流的核心痛点：梳理出ML中常见的数据转换类型（如合并多来源数据、筛选特定特征、划分训练/测试集等），指出传统方式在存储、一致性、溯源上的缺陷。
设计数据虚拟化服务架构：针对痛点设计DVS的组件分工，确保能支持多存储系统（本地磁盘、云存储等）、多数据类型（图像、时间序列等）和主流ML工具（Pandas、PyTorch等）。
技术实现：用Python 3.12开发，结合FastAPI实现高效接口，基于Pandas、NumPy处理数据转换，通过DuckDB优化缓存和查询。
实际案例验证：在6个ML应用中测试DVS，包括风力涡轮机故障检测、河流流量预测、语音增强等，验证其在存储节省、溯源管理等方面的效果。

主要贡献：让ML工作流“轻装上阵”

这项研究的价值体现在多个层面：

节省资源：通过虚拟数据集替代物理副本，减少存储浪费。例如，处理风力涡轮机数据时，无需存储多份筛选后的特征数据，仅通过虚拟链接即可复用源数据。
提升效率与规范性：标准化的数据转换流程让不同开发者的实验可对比、可复现；自动记录数据溯源，无需人工维护复杂的记录。
解放开发者精力：开发者无需重复编写数据处理代码，可专注于模型设计。例如，在语音增强任务中，通过虚拟数据集快速测试不同噪声水平的影响，无需手动生成并存储所有版本。
支持复杂场景：在偏微分方程求解、聚变数据分析等复杂场景中，DVS能高效管理海量中间数据，加速模型开发。

思维导图：

在这里插入图片描述

详细总结：

摘要与引言
- 现状：机器学习团队存在多个并发工作流，从数据处理到模型部署需数月至数年，存在大量中间数据管理问题。
- 数据虚拟化的扩展：传统数据虚拟化侧重远程数据访问，本文扩展其概念，支持ML工作流中大量虚拟数据集的创建与管理，虚拟数据集包含源数据集路径链接和数据转换函数调用链接。
- 研究贡献：提出扩展概念、设计实现服务导向架构的DVS、通过六个应用案例验证优势。
相关工作
- 发展历程：从早期企业信息集成（EII）系统到数据联邦系统，现有研究多聚焦数据访问，缺乏对ML中数据处理的支持。
- 局限：现有系统在可扩展性、性能、适配ML数据处理需求方面不足。
ML工作流中的数据管理问题
- 数据转换多样：包括合并、集成、变量选择、标签选择、归一化、分区等（如将时间序列重组为N个片段用于分类模型）至。
- 传统方式缺陷：存储浪费（如多次分区存储多份数据）、操作不一致、数据溯源依赖个人、实验难以复现等。

数据虚拟化解决方案

核心思想：用虚拟数据集替代物理副本，通过链接指向源数据和转换函数，按需生成数据。

优势对比（表1）：

类别	无数据虚拟化	有数据虚拟化
核心ML操作	转换实践不一致，实验难复现	系统化版本控制，实验可复现
资源管理	存储浪费严重	逻辑访问，消除不必要物理副本
开发效率	重复劳动多，质量参差不齐	标准化查询，集中维护，质量有保障
运营卓越	安全实践不一致，文档分散	集中安全策略，自动化文档生成

设计与实现
- 需求：支持多存储系统、数据类型、ML API，管理虚拟与显式数据集关系，提供内置/自定义转换函数等至。
- 架构组件：
  - 数据虚拟化管理器（DVM）：核心组件，维护所有虚拟和显式数据集信息。
  - 数据源接口（DSI）：与父数据服务交互，访问显式数据集。
  - 虚拟数据集规范标准（SSVD）：基于YAML的声明式规范。
  - 其他组件：数据查询引擎（DQE）、数据处理引擎（DPE）、内置转换函数库（BDTR）等至。
- 实现：Python 3.12开发，基于FastAPI、Pandas、DuckDB等，部署于UK STFC云基础设施。
应用案例（6个）
- 图像重建与分类：深自编码器重构相似度0.93，支持多标签数据选择。
- 语音增强：UNet模型将PESQ从1.97提升至2.80，支持噪声增强实验的虚拟数据管理。
- 河流流量预测：双编码器Transformer模型MAE 1.28，RMSE 1.37。
- 风力涡轮机故障检测：集成模型准确率93%，F1=0.91。
- 偏微分方程求解：通过虚拟采样加速模型开发，支持多种采样策略。
- 聚变数据分析：优化MAST反应堆40,000次放电数据的跨信号分析。
结论与展望
- 验证了DVS的有效性，计划扩展至远程服务集成、开源发布软件。

关键问题：

数据虚拟化服务（DVS）的核心组件及其功能是什么？
答：核心组件包括数据虚拟化管理器（DVM，维护所有虚拟和显式数据集信息，是核心组件）、数据来源接口（DSI，与父数据服务交互访问显式数据）、虚拟数据集规范标准（SSVD，基于YAML的声明式规范）、数据查询引擎（DQE，处理查询并导航链接）、数据处理引擎（DPE，调用转换函数）等，各组件协同支持虚拟数据集的创建、查询和处理至。
数据虚拟化在ML工作流中解决了哪些关键痛点？
答：主要解决四大类痛点：一是核心ML操作痛点（如转换不一致、实验难复现），通过系统化版本控制和标准化流程解决；二是资源管理痛点（如存储浪费），通过逻辑访问消除物理副本；三是开发效率痛点（如重复劳动），通过标准化查询和集中维护减少重复；四是运营痛点（如安全合规），通过集中策略和自动化审计解决。
该数据虚拟化服务在具体应用中取得了哪些量化效果？
答：在多个应用中效果显著：语音增强中PSEQ从1.97提升至2.80，获12dB分段SNR增益；风力涡轮机故障检测集成模型准确率93%（F1=0.91）；河流流量预测MAE 1.28、RMSE 1.37；图像重建相似度达0.93，验证了服务在提升模型性能和效率上的价值。

总结：数据虚拟化是ML规模化的关键一步

本文提出的扩展数据虚拟化概念，精准击中了ML工作流中数据管理的痛点。通过构建包含转换逻辑的虚拟数据集和服务架构，DVS实现了存储优化、流程标准化和效率提升。6个实际应用案例（如准确率达93%的风力涡轮机故障检测模型、PESQ指标从1.97提升至2.80的语音增强模型）证明，数据虚拟化能成为ML团队协作和项目落地的“基础设施”。

未来，研究者计划将DVS扩展至远程数据服务，并开源软件，让更多团队受益于这一技术。

查看全文

http://www.lryc.cn/news/602950.html