当前位置: 首页 > news >正文

百度网盘企业版数据快速上云,数据流转平台 CloudFlow 加速大模型训练迭代

1 项目从何时开始,又是何时结束

一个项目的周期应该如何计算,将计算开始运行作为起点,计算结束运行作为终点?

大模型训练场景中,从 TB/PB 级数据完成收集准备上云,到这些数据被提交至任务开始运行,有时候中间还隔着好几天的时间,GPU 资源将处于空闲状态。在一些案例中,大模型训练任务运行 2 周,数据上传等待好几天。项目真正的起始时间应该提前至数据开始上传的那一刻。

在某些行业中,比如生命科学基因测序等场景,任务结束后结果数据会保存在对象存储中。这些数据需要分发给云下的众多使用者。在一些案例中,高性能计算任务运行 1 周得到结果,再额外等待好几周,全部用户陆陆续续从云上进行数据提取,项目才算真正结束。

数据流转的效率,正在越来越明显地影响项目周期、资源花费,乃至下游生态和客户的使用体验。

2 传统的百度网盘数据上云以及云上数据分发方式

百度网盘已经成为了很多企业进行收集、存储、分发数据的平台之一。

  • 网盘数据上云

为了将收集至百度网盘的数据同步至云端,企业 IT 工程师通常会将网盘的数据下载至本地,然后借助公共网络上传,或者将数据拷贝至移动硬盘并寄送至云厂商的指定地点。

  • 云上数据分发

为了将云上的结果数据分发至不同的下游合作伙伴,企业 IT 工程师将对象存储中的数据 URL 链接交给合作伙伴,或者手动导出后通过移动硬盘和百度网盘进行分发。以上两种数据流转方式,都不可避免地导致任务周期变长。

3 百度网盘企业版上云和云上数据分发新能力

为了缩短数据流转的时间,减少资源成本,并帮助客户提升对下游合作伙伴的服务体验,百度智能云打通了百度网盘企业版和对象存储 BOS 之间的数据流转链路,数小时就可以完成 10TB 左右规模数据的上传和下载。

借助这个新发布的能力,在大模型业务的数据上云场景里,企业不再需要经过公网传输、快递物流和磁盘对拷等间接方式,网盘中的数据借助数据流转平台 CloudFlow 直接流转至对象存储 BOS。当天就可以开始大模型训练迭代,减少 GPU 算力资源等待时间,缩短了项目的业务周期。

在云上数据分发到云下的场景,可以将对象存储 BOS 中的数据直接分享到百度网盘企业版,并同时交付给多个下游客户,为用户提供符合日常使用习惯的数据获取方式。

用户只需要在数据流转平台 CloudFlow 界面配置几个关键参数,就可以让百度网盘企业版的数据流转立即高速运行。在对象存储 BOS 控制台中选择对应目录,将目录中的文件分享至网盘。

4 全面完整的数据流转方式

不止百度网盘企业版和对象存储 BOS 之间的数据快速流转,百度智能云数据流转平台 CloudFlow 为企业的数据上云迁移提供了完整的方案,包括跨云在线迁移、离线数据迁移等多种方式。

5 典型案例

某 AIGC 公司将部分收集的原始数据存储在百度网盘中。之前会不定期的将数据下载到本地,并借助硬盘寄送的离线迁移方式,将数据上传至对象存储 BOS 中,以便展开大模型训练的迭代升级工作。

在这之前,从百度网盘导出数据至硬盘,再通过快递物流过程需要 1~2 天时间, 4 块 10TB 级别硬盘数据离线上云再需要 1 天左右的时间。现在通过 CloudFlow 将百度网盘企业版数据直接同步至 BOS 中,仅需 10 小时左右的时间。

http://www.lryc.cn/news/442367.html

相关文章:

  • 地面站通过SSH连接无人机
  • 【Pytorch】大语言模型中的CrossEntropyLoss
  • 安全热点问题
  • C++——用选择法对10个数值进行排序。
  • CSP-CCF★★★201909-2小明种苹果(续)★★★
  • 硬件工程师笔试面试——变压器
  • Visual Studio Code( VS Code)倍速提高编程工作效率的免费的源代码编辑器
  • 华为SMU02B1智能通信电源监控单元模块简介
  • 【刷题日记】15. 三数之和
  • 低级编程语言和高级编程语言
  • Spring Boot-API网关问题
  • 三 auto占位符
  • tail: inotify 资源耗尽
  • 什么是损失函数?常见的损失函数有哪些?
  • Python Web 开发中的国际化与本地化处理
  • android API、SDK与android版本
  • OpenHarmony(鸿蒙南向开发)——小型系统内核(LiteOS-A)【内核通信机制】下
  • 如何联系真正的开发者而非公司??
  • OpenCV运动分析和目标跟踪(1)累积操作函数accumulate()的使用
  • source ~/.bash_profile有什么用
  • 【C++笔记】类和对象的深入理解(三)
  • 时代变了,MySQL 早已不是最流行的数据库了
  • K8S容器实例Pod安装curl-vim-telnet工具
  • 代码随想录算法训练营DAY09之动态规划(一)基础题目
  • 线性系统分析
  • Ubuntu 20.04 部署 NET8 Web - Systemd 的方式 达到外网访问的目的
  • 线程池(ThreadPool):使用ExecutorService、ThreadPoolExecutor等线程池管理并发任务以及底层实现原理
  • 人力资源数据集分析(二)_随机森林与逻辑回归
  • 【30天玩转python】数据库操作
  • PTT:Point Tree Transformer for Point Cloud Registration 论文解读