当前位置: 首页 > news >正文

大数据平台

大数据行业应用持续升温,特别是企业级大数据市场正在进入快速发展时期。越来越多的企业期望实现数据孤岛的打通,整合海量的数据资源,挖掘并沉淀有价值的数据,进而驱动更智能的商业。随着公司数据爆发式增长,原有的数据库无法承担海量数据的处理,那么就开始考虑大数据平台了。大数据平台应该支持大数据常用的Hadoop 组件,如HBase、Hive、Flume、Spark,也可以接Greenplum,而Greenplum 正好有它的外部表(也就是Greenplum 创建一张表,表的特性叫作外部表,读取的内容是Hadoop 的Hive 中的),这可以和Hadoop 融合(当然也可以不用外部表)。通过搭建企业级的大数据平台,打通各系统之间的数据,通过多源异构接入多个业务系统的数据,完成对海量数据的整合。大数据采集平台应支持多样数据源,接口丰富,支持文件和关系型数据库等,支持直接跨库跨源的混合计算。
大数据平台实现数据的分层与水平解耦,沉淀公共的数据能力。这可分为三层:数据模型、数据服务与数据开发,通过数据建模实现跨域数据的整合和知识沉淀,通过数据服务实现对于数据的封装和开放,快速、灵活地满足上层应用的要求,通过数据开发工具满足个性化数据和应用的需要。某运营商的数据平台:

 数据平台还涉及三方面内容。第一是数据技术。大家都有自己的数据中心、机房、小数据库。但当数据积累到一定体量后,这方面的成本会非常高,而且数据之间的质量和标准不一样,会导致效率不高等问题。因此,我们需要通过数据技术对海量数据进行采集、计算、存储、加工,同时统一标准和口径。第二是数据资产。把数据统一之后,会形成标准数据,再进行存储,形成大数据资产层,进而保证为各业务提供高效服务。第三是数据服务,包括指数,就是数据平台面向上端提供的数据服务。
数据平台应确保大家在使用数据的过程中,口径、标准、时效性、效率都有保障,能有更高的可靠性和稳定性。

http://www.lryc.cn/news/503309.html

相关文章:

  • 《C++解锁机器学习特征工程:构建智能数据基石》
  • 《机器学习》3.7-4.3end if 启发式 uci数据集klda方法——非线性可分的分类器
  • 【Linux】VMware 安装 Ubuntu18.04.2
  • 人员离岗监测摄像机智能人员睡岗、逃岗监测 Python 语言结合 OpenCV
  • 【Spark】Spark数据倾斜解决方案、大表join小表及大表join大表优化思路
  • 探索 Cesium 的未来:3D Tiles Next 标准解析
  • 每日一站技術架構解析之-cc手機桌布網
  • prometheus监控之黑盒(blackbox)监控
  • 计算机网络之传输层协议TCP
  • 子查询与嵌套查询
  • GPT-SoVITS语音合成模型部署及使用
  • springboot423玩具租赁系统boot(论文+源码)_kaic
  • 【收藏】Cesium 限制相机倾斜角(pitch)滑动范围
  • Jenkins流水线初体验(六)
  • Azure OpenAI 生成式人工智能白皮书
  • Ubuntu22.04安装docker desktop遇到的bug
  • LLMC:大语言模型压缩工具的开发实践
  • 基于阿里云Ubuntu22.04 64位服务器Java及MySql环境配置命令记录
  • 第一课【输入输出】(题解)
  • 查看 Linux 进程运行所在 CPU 内核
  • ESP32外设学习部分--SPI篇
  • Tomcat的下载和使用,配置控制台输出中文日志
  • MySQL不能被其他地址访问,授权问题解决(8.x,,5.x)
  • 四、个人项目系统搭建
  • CV(4)--边缘提取和相机模型
  • SORT算法详解及Python实现
  • 图计算之科普:BSP计算模型、Pregel计算模型、
  • pytest入门一:用例的执行范围
  • 22. 正则表达式
  • Flink Python作业快速入门