当前位置: 首页 > news >正文

[论文阅读] 人工智能 | 机器学习工作流的“救星”:数据虚拟化服务如何解决数据管理难题?

机器学习工作流的“救星”:数据虚拟化服务如何解决数据管理难题?

论文:DATA VIRTUALIZATION FOR MACHINE LEARNING

一段话总结:

本文聚焦于机器学习(ML)工作流中的数据虚拟化,提出扩展数据虚拟化概念以支持大量虚拟数据集的创建与管理,这些数据集包含源数据集的路径链接和数据转换函数的调用链接。文中设计并实现了具有服务导向架构的数据虚拟化服务(DVS),包含数据虚拟化管理器(DVM)、数据查询引擎(DQE)等核心组件,并通过六个应用案例(如风力涡轮机故障检测、河流流量预测等)验证其价值,能带来存储节省、数据溯源自动化、实验可重复性提升等收益。

研究背景:机器学习工作流的“数据泥潭”

如果你接触过机器学习项目,可能会遇到这样的场景:团队里每个人都在处理相似的数据,却各自保存着无数份中间文件——比如同一份图像数据,有人裁剪后存了一份,有人归一化后又存了一份,还有人划分训练集和测试集后再存一份。时间一长,存储服务器被塞满,想复现某个实验时,却忘了当初的数据是怎么处理的……

这正是当前机器学习(ML)工作流的普遍痛点。论文中提到,ML工作流往往需要数月甚至数年,涉及大量实验、迭代和协作,数据转换任务(如合并、筛选、归一化、分区等)层出不穷。这些任务通常由开发者各自完成,导致重复劳动、数据存储浪费、数据来源难以追溯(数据溯源)、实验结果无法复现等问题。

传统的数据虚拟化技术虽能实现远程数据访问,但难以应对ML场景中高频、小规模的虚拟操作,也无法整合数据处理功能。因此,研究者们提出了专门针对ML工作流的数据虚拟化方案。

主要作者及单位信息

本文由来自英国的研究团队合作完成:

  • Saiful Khan、Niraj Bhujel 来自卢瑟福·阿普尔顿实验室科学计算部门(STFC)
  • Joyraj Chakraborty、Philip Beaucamp、Min Chen 来自牛津大学工程科学系

创新点:给数据“装上导航和操作指南”

这篇论文的核心创新在于扩展了数据虚拟化的概念,让虚拟数据集不仅能“找到”源数据,还能“记住”如何处理数据。具体来说:

  1. 虚拟数据集的双重链接:虚拟数据集不仅包含指向源数据的路径链接,还包含调用数据转换函数的链接。比如,一份用于训练的虚拟数据集,会记录“从哪份源数据来”以及“经过了哪些筛选、归一化步骤”。

  2. 服务导向的架构设计:构建了一套完整的数据虚拟化服务(DVS),包含多个专用组件,例如:

    • 用YAML格式定义虚拟数据集的规范(SSVD),确保格式统一;
    • 数据查询引擎(DQE)负责追溯数据来源;
    • 数据处理引擎(DPE)负责执行转换操作;
    • 数据虚拟化管理器(DVM)作为核心,统筹所有虚拟数据集和转换逻辑。
  3. 支持自定义与标准化结合:既提供合并、分区等内置转换函数,也允许高级用户添加自定义函数,兼顾灵活性和规范性。

研究方法:从问题到落地的完整路径

研究者通过“定义问题→设计方案→实践验证”的步骤,构建并验证了数据虚拟化服务:

  1. 明确ML工作流的核心痛点:梳理出ML中常见的数据转换类型(如合并多来源数据、筛选特定特征、划分训练/测试集等),指出传统方式在存储、一致性、溯源上的缺陷。

  2. 设计数据虚拟化服务架构:针对痛点设计DVS的组件分工,确保能支持多存储系统(本地磁盘、云存储等)、多数据类型(图像、时间序列等)和主流ML工具(Pandas、PyTorch等)。

  3. 技术实现:用Python 3.12开发,结合FastAPI实现高效接口,基于Pandas、NumPy处理数据转换,通过DuckDB优化缓存和查询。

  4. 实际案例验证:在6个ML应用中测试DVS,包括风力涡轮机故障检测、河流流量预测、语音增强等,验证其在存储节省、溯源管理等方面的效果。

主要贡献:让ML工作流“轻装上阵”

这项研究的价值体现在多个层面:

  • 节省资源:通过虚拟数据集替代物理副本,减少存储浪费。例如,处理风力涡轮机数据时,无需存储多份筛选后的特征数据,仅通过虚拟链接即可复用源数据。

  • 提升效率与规范性:标准化的数据转换流程让不同开发者的实验可对比、可复现;自动记录数据溯源,无需人工维护复杂的记录。

  • 解放开发者精力:开发者无需重复编写数据处理代码,可专注于模型设计。例如,在语音增强任务中,通过虚拟数据集快速测试不同噪声水平的影响,无需手动生成并存储所有版本。

  • 支持复杂场景:在偏微分方程求解、聚变数据分析等复杂场景中,DVS能高效管理海量中间数据,加速模型开发。


思维导图:

在这里插入图片描述


详细总结:

  1. 摘要与引言

    • 现状:机器学习团队存在多个并发工作流,从数据处理到模型部署需数月至数年,存在大量中间数据管理问题。
    • 数据虚拟化的扩展:传统数据虚拟化侧重远程数据访问,本文扩展其概念,支持ML工作流中大量虚拟数据集的创建与管理,虚拟数据集包含源数据集路径链接和数据转换函数调用链接。
    • 研究贡献:提出扩展概念、设计实现服务导向架构的DVS、通过六个应用案例验证优势。
  2. 相关工作

    • 发展历程:从早期企业信息集成(EII)系统到数据联邦系统,现有研究多聚焦数据访问,缺乏对ML中数据处理的支持。
    • 局限:现有系统在可扩展性、性能、适配ML数据处理需求方面不足。
  3. ML工作流中的数据管理问题

    • 数据转换多样:包括合并、集成、变量选择、标签选择、归一化、分区等(如将时间序列重组为N个片段用于分类模型)至。
    • 传统方式缺陷:存储浪费(如多次分区存储多份数据)、操作不一致、数据溯源依赖个人、实验难以复现等。
  4. 数据虚拟化解决方案

    • 核心思想:用虚拟数据集替代物理副本,通过链接指向源数据和转换函数,按需生成数据。
    • 优势对比(表1):
      类别无数据虚拟化有数据虚拟化
      核心ML操作转换实践不一致,实验难复现系统化版本控制,实验可复现
      资源管理存储浪费严重逻辑访问,消除不必要物理副本
      开发效率重复劳动多,质量参差不齐标准化查询,集中维护,质量有保障
      运营卓越安全实践不一致,文档分散集中安全策略,自动化文档生成
  5. 设计与实现

    • 需求:支持多存储系统、数据类型、ML API,管理虚拟与显式数据集关系,提供内置/自定义转换函数等至。
    • 架构组件:
      • 数据虚拟化管理器(DVM):核心组件,维护所有虚拟和显式数据集信息。
      • 数据源接口(DSI):与父数据服务交互,访问显式数据集。
      • 虚拟数据集规范标准(SSVD):基于YAML的声明式规范。
      • 其他组件:数据查询引擎(DQE)、数据处理引擎(DPE)、内置转换函数库(BDTR)等至。
    • 实现:Python 3.12开发,基于FastAPI、Pandas、DuckDB等,部署于UK STFC云基础设施。
  6. 应用案例(6个)

    • 图像重建与分类:深自编码器重构相似度0.93,支持多标签数据选择。
    • 语音增强:UNet模型将PESQ从1.97提升至2.80,支持噪声增强实验的虚拟数据管理。
    • 河流流量预测:双编码器Transformer模型MAE 1.28,RMSE 1.37。
    • 风力涡轮机故障检测:集成模型准确率93%,F1=0.91。
    • 偏微分方程求解:通过虚拟采样加速模型开发,支持多种采样策略。
    • 聚变数据分析:优化MAST反应堆40,000次放电数据的跨信号分析。
  7. 结论与展望

    • 验证了DVS的有效性,计划扩展至远程服务集成、开源发布软件。

关键问题:

  1. 数据虚拟化服务(DVS)的核心组件及其功能是什么?
    答:核心组件包括数据虚拟化管理器(DVM,维护所有虚拟和显式数据集信息,是核心组件)、数据来源接口(DSI,与父数据服务交互访问显式数据)、虚拟数据集规范标准(SSVD,基于YAML的声明式规范)、数据查询引擎(DQE,处理查询并导航链接)、数据处理引擎(DPE,调用转换函数)等,各组件协同支持虚拟数据集的创建、查询和处理至。

  2. 数据虚拟化在ML工作流中解决了哪些关键痛点?
    答:主要解决四大类痛点:一是核心ML操作痛点(如转换不一致、实验难复现),通过系统化版本控制和标准化流程解决;二是资源管理痛点(如存储浪费),通过逻辑访问消除物理副本;三是开发效率痛点(如重复劳动),通过标准化查询和集中维护减少重复;四是运营痛点(如安全合规),通过集中策略和自动化审计解决。

  3. 该数据虚拟化服务在具体应用中取得了哪些量化效果?
    答:在多个应用中效果显著:语音增强中PSEQ从1.97提升至2.80,获12dB分段SNR增益;风力涡轮机故障检测集成模型准确率93%(F1=0.91);河流流量预测MAE 1.28、RMSE 1.37;图像重建相似度达0.93,验证了服务在提升模型性能和效率上的价值。

总结:数据虚拟化是ML规模化的关键一步

本文提出的扩展数据虚拟化概念,精准击中了ML工作流中数据管理的痛点。通过构建包含转换逻辑的虚拟数据集和服务架构,DVS实现了存储优化、流程标准化和效率提升。6个实际应用案例(如准确率达93%的风力涡轮机故障检测模型、PESQ指标从1.97提升至2.80的语音增强模型)证明,数据虚拟化能成为ML团队协作和项目落地的“基础设施”。

未来,研究者计划将DVS扩展至远程数据服务,并开源软件,让更多团队受益于这一技术。

http://www.lryc.cn/news/602950.html

相关文章:

  • [机缘参悟-236]:通过AI人工神经网络理解人的思维特征:惯性思维、路径依赖、适应性、不同场合不同言行、经验、概率、常规与特殊情形(正态分布)、环境适应性
  • 5 分钟上手 Firecrawl
  • Java项目:基于SSM框架实现的社区团购管理系统【ssm+B/S架构+源码+数据库+毕业论文+答辩PPT+远程部署】
  • js的学习1
  • 如何理解有符号数在计算机中用​​补码​​存储
  • 阿里给AI To C战略戴上眼镜
  • 案例开发 - 日程管理 - 第三期
  • Android Handler 完全指南
  • 【QT搭建opencv环境】
  • 商城系统-项目测试
  • redis未授权getshell四种方式
  • Ubuntu24安装MariaDB/MySQL后不知道root密码如何解决
  • 基于STM32设计的智慧果园云监测系统_256
  • 基于Uniapp及Spring Boot的奢侈品二手交易平台的设计与实现/基于微信小程序的二手交易系统
  • linux安装zsh,oh-my-zsh,配置zsh主题及插件的方法
  • 机器学习基础-numpy
  • OpenMP 并行编程核心机制详解:从变量作用域到同步优化
  • SwinTransformer改进(14):集成MLCA注意力机制的Swin Transformer模型
  • Linux DNS解析2 -- 网关DNS代理的作用
  • 如何实现安卓端与苹果端互通的多种方案
  • unisS5800XP-G交换机配置命令之端口篇
  • 【安卓笔记】OOM与内存优化
  • React Router v6 核心组件
  • Linux进程概念(五)进程地址空间
  • 吃透 lambda 表达式(匿名函数)
  • 关闭 UniGetUI 自动 Pip 更新,有效避免 Anaconda 环境冲突教程
  • 3.DRF视图和路由
  • sqlite3学习---基础知识、增删改查和排序和限制、打开执行关闭函数
  • SpringBoot数学实例:高等数学实战
  • (二)Eshop(RabbitMQ手动)