当前位置: 首页 > news >正文

数据孤岛的突破口在哪里?

国务院于2021年12月发布的《“十四五”数字经济发展规划》中提到,我国数字经济发展中数字鸿沟问题未得到有效解决,各行业应充分发挥数据要素作用,加强数据治理和监管工作。“数据孤岛”问题虽早已被提出,但至今仍然存在,大量的“数据孤岛”对企业数字化转型产生不利影响,“数据孤岛”问题亟待解决。

如何解决“数据孤岛”问题,实现数据互联互通,从而更好地推进企业数字化转型?小亿想和大家共同探讨企业“数据孤岛”问题的形成原因及其弊端,为实现数据互联互通寻求解决路径。

一、什么是数据孤岛?

在日益庞大和复杂的社会中, 无论是个人的生产生活还是整个社会的协调运作, 所有的决策和判断都要依靠数据来进行, 数据成为个人、组织、社会乃至国家的战略资源。尤其在商业领域,数据逐渐成为企业的重要资产和竞争力来源, 因此数据垄断和数据割据也就成为数据市场的必然。

当前,业界和企业都意识到数据割据问题的存在, 并将其形象地命名为“数据孤岛”——数据被割据和垄断形成一个个彼此隔绝的孤零零的数据岛屿。数据孤岛在早期多被用来形容企业内部因技术壁垒或部门分隔而形成的信息孤立现象, 被称为“IT环境中最基本元素——数据的离散状态”。由此引发了关于数据集成的技术和理念之争。后来“数据孤岛”一词开始应用于不同的行业和领域中, 如图书馆信息系统和城市信息系统建设、政府治理和国家层面的信息化建设中。随着营销传播领域对于数据需求的逐渐强烈,数据获取过程中的种种困难使得数据孤岛概念开始在营销传播行业中盛行开来。

如赵伟在《封建的BAT》中将数据孤岛定义为“因为技术差距和遗留问题等形成的数据分散与无法集中共联的现象”,其主体就是垄断数据的数据方;而秒针系统首席营销官赵洁则从秒针的第三方媒体和用户数据检测角度, 将数据孤岛定义为同一用户的不同终端设备上的数据孤立状态。可见, 数据孤岛是营销传播行业中因利益割据而导致的涉及多方的数据离散状态。

二、数据孤岛是如何产生的?

一般来说,组织内存在数据孤岛的原因有以下几个:

1、部门化

当组织内的不同部门或团队拥有自己的数据库或系统来存储数据时,就会出现数据孤岛。如果每个部门负责管理自己的数据并且没有所有数据的中央存储库,就会发生这种情况。

2、技术壁垒

数据孤岛也可能是由技术壁垒造成的,例如软件或硬件平台的差异,这会导致难以跨部门或跨系统共享数据。

3、缺乏标准化

如果不同的部门或团队使用不同的标准或格式来存储和组织数据,就会出现数据孤岛,从而难以整合来自不同来源的数据。

4、组织文化

数据孤岛也可能是组织文化的结果,因为某些部门或团队可能会因为担心失去对数据的控制或看不到共享的价值而犹豫是否共享数据。

总体而言,数据孤岛可能是由技术、组织和文化因素共同造成的。为了解决数据孤岛并改善数据管理和集成,组织可能需要同时考虑技术和非技术方法,例如实施集中式数据存储库、实施数据治理和数据管理实践,以及培养数据共享和协作的文化。

三、数据孤岛有什么危害?

企业内不同部门数据的“各自为政”,大大制约着企业管理和业务的顺畅开展,具体来说,有以下这些危害。

1、数据重复

由于数据流通不畅,企业各部门在收集数据时会产生重复行为,造成了数据的重复、冗余、无效等情况,降低了数据的质量和准确度。

2、错误决策

数据的不准确、不及时,往往导致企业决策错误或决策迟缓,从而影响企业的口碑和在市场中的竞争地位。

3、协作不良

企业内部数据孤岛现象的显著,会在很大程度上使得企业各个部门、团队之间,因难以获取工作需要的数据,而关系紧张、协作不良。

4、效率低下

由于不同部门对数据的理解和定义不同,企业内部的沟通成本上升。同时,各部门对数据的重复管理,造成了时间和金钱的浪费、工作效率的低下。

5、客户体验差

企业内各部门拥有的数据不一,容易造成客户端到端的体验混杂,总体评价低。

四、如何解决数据孤岛?

对于企业来说,解决数据孤岛问题是一个系统性的工程,因此可以使用多种策略来消除数据孤岛并促进数据的共享和使用。

1、实施集中式数据存储库

一种方法是创建一个单一的、全面的数据源,组织内的所有部门和团队都可以访问该数据源。这可以采用数据仓库或数据湖的形式,后者是结构化和非结构化数据的大型集中式存储库。

正如亿信华辰提出的的仓湖一体大数据中心建设方案涵盖了数据存储、数据集成、数据交换、数据共享等方面,综合数据湖、数据仓库两种技术演进方向,为企业用户提供云原生仓湖一体解决方案。

仓湖一体大数据中心平台是基于大数据技术的全新数据应用平台,它提供云原生特性、支持存算分离架构、继承RDBMS数据库功能和ACID特性、支持工业级SQL标准、混合MPP+DAG计算引擎等一系列关键技术。帮助企业有效应对大规模、多样化、高时效、智能化的数据应用需求,为企业从BI到AI提供全新的数据基础架构。

2、使用数据集成和数据管理实践

实施数据治理和数据管理策略有助于确保以一致和受控的方式正确管理和使用数据。数据治理涉及建立一套用于在组织内管理和使用数据的规则和程序,而数据管理策略概述了存储、组织和使用数据的标准和最佳实践。

通过系统集成的方式将“数据孤岛”连接起来是解决“数据孤岛”问题最直接的方法。最流行的数据集成方式是提取、转换和加载(Extract-Transform-Load,ETL),从源系统中提取数据、整合数据并将其加载到目标系统或 应用程序中,将异构数据转换成同类数据进行使用。采用多源数据融合的方法,实现多源信息的交叉印证,数据信息相互补偿。在整合数据的过程中,将原有的数据信息从传统架构向云端进行数字化转型,并建立多元数据融合终端。这种云架构的数据转型可以缓解专有平台带来的“数据孤岛”问题,多元数据融合亦可实现数据共享互通,从一定程度上消减了数据安全和隐私的风险。

亿信华辰帮助赣州银行城商行建设的数据管理平台就完成包含元数据管理、数据标准管理、数据质量管控三大主体模块的数据管理平台建设,总计梳理8个主题、1244条标准,通过数据标准工具对7000多个关键字段进行落地评估,实现新信贷、新总账、新理财、核算等系统的注释填充率到达100%,基于EAST4.0,梳理了300余条规则,实现监管报送指标自动化,通过数据管理避免了“数据孤岛”的问题。

3、培养数据共享和协作的文化

鼓励数据共享和协作的文化可以帮助克服共享数据的阻力,并可以促进跨部门和团队共享见解和想法。“数据孤岛”最初的成因就是不同部门间存在数据不共通的情况,因此加强培养数据共享和协作的文化是十分有必要的。

4、加强利用数据集成和管理工具

有许多工具和技术可以帮助促进数据集成和管理,例如数据集成平台、数据管理平台和数据治理软件。这些工具可以帮助实现数据集成和管理流程的自动化,从而更轻松地在整个组织内共享和使用数据。

EsDataFactory即亿信数据工厂是一款面向数仓实施的自主研发的软件工具,集数据建模与ETL设计于一体,内置新型的混合计算引擎,支持广泛的数据源,可为政府或企业提供更快捷、更高效、更安全的数据集成解决方案。

亿信数据工厂产品架构

亿信华辰帮助湖南卫健委建设的省卫生计生统计决策分析系统就是一个例子。该系统建立了数据质量控制机制,通过对卫生统计数据的质量控制,提高直报系统数据质量;升级数据交换功能,将全员人口信息、公共卫生服务相关统计分析数据传输到本系统内;升级数据分析应用功能,整合新、旧数据模块,全面升级数据模型;建立移动终端应用。

利用数据工厂工具重新规划并整合卫生资源、医疗服务、医改监测、计生人口、分科及中医特色等主要业务数据,为各级卫生机构提供准确、便捷的信息访问服务,为深化医改与应急救治提供信息支撑,为制定卫生计生政策规划与宏观管理提供科学依据,是数据管理的有效工具。

5、提供培训和资源

提供培训和资源以帮助团队了解共享数据的好处以及如何有效地共享数据,这也是打破数据孤岛和改进数据管理和集成的重要一步。

因此,摆脱数据孤岛需要结合技术和非技术方法,多管齐下,并行解决问题。

四、小结

随着信息社会的来临, 价值日益彰显的数据日渐成为企业核心资产和竞争力的来源。同时,企业内部由于数字化建设尚未完善等问题,导致形成数据孤岛的现象愈加明显,这也成为制约行业发展的瓶颈。因此,如何破解这种数据孤岛困境成为企业当前面临的一大挑战。

企业内部的数据孤岛成因复杂,往往和信息技术、企业 管理、业务特点,以及政府的大数据发展协调机制、信息保护和开发的制度性文件、大数据标准化顶层设计等外部和内 部多方面因素相关联,而解决数据孤岛问题时也需要综合考虑以上各方面的因素,探索适合企业自身的方案。

http://www.lryc.cn/news/160462.html

相关文章:

  • 【送书活动】全网超50万粉丝的Linux大咖良许,出书了!
  • 深入浅出学Verilog--基础语法
  • 基于Spring、SpringMVC、Mybatis的超市管理系统
  • spring中的@Configuration配置类和@Component
  • 企业架构LNMP学习笔记29
  • Ubuntu14.04离线安装gcc-5.3.0
  • axios返回几种数据格式? 其中Blob返回时的size是什么意思?
  • 【GO语言基础】基本数据类型
  • 【Python】OpenCV立体相机配准与三角化代码实现
  • 通过Idea或命令将本地项目上传至git
  • python selenium 爬虫教程
  • Linux基础知识及常见指令
  • 分享一个基于Python和Django的产品销售收入数据分析系统源码
  • UniTask保姆级教程
  • uni-app 可视化创建的项目 移动端安装调试插件vconsole
  • HOperatorSet.GenRandomRegions 有内存泄漏或缓存,释放不掉
  • 一维数组笔试题及其解析
  • 微信小程序源码
  • Browserslist 信息和配置使用整理
  • Matlab 如何选择采样频率和信号长度
  • TPTU: Task Planning and Tool Usage of Large Language Model-based AI Agents
  • 【Spring IoC容器的加载过程】
  • C++多文件类的声明与实现
  • 16 “count(*)“ 和 “count(1)“ 和 “count(field1)“ 的差异
  • 【云原生进阶之PaaS中间件】第一章Redis-1.4过期策略
  • windows弹出交互式服务检测一键取消bat脚本
  • 接口使用的最佳时机
  • freertos之任务运行时间统计实验
  • Js中一些数组常用API总结
  • LlamaIndex:将个人数据添加到LLM