当前位置: 首页 > news >正文

大数据自我进阶(数据仓库)-暂未完全完成

什么时候需要数据仓库?

1.当决策者要进行战略分析或者展示统计的需求

2.并且数据量非常庞大,而且各个都是数据孤岛。

当满足这2个条件后,就需要搭建数据仓库。

数据仓库的第一步(数据清洗)

为了能准确的分析,需要将各个业务系统的数据汇总在一起,进行分析

数据仓库第一步所遇到的3个问题

 注意关键点(面试中和从0-1搭建中会遇到的问题):

         1.数据字段不同,比如字段名称,多个业务系统的叫法不一样,有叫name、user_name、也有nike_name的

        2.数据值有歧义,比如医疗系统中,同一种病的诊断结果,由于人为手写,有叫Hiv、艾滋病、获得性免疫缺陷综合征的

        3.数据非唯一,比如商城,你们想统计每个人消费总额是多少,但是你们有3个系统,淘宝有一套,京东有一套,拼多多有一套,怎么样确定唯一的用户

这是我工作5年来,别人问到的,以及自己遇到的问题,那么遇到这种情况应该怎么办?

所以说,在把数据备份一份到ods层后,核心第一步绝对是先进行【数据清洗】

数据清洗对应的解决方案

http://www.lryc.cn/news/56533.html

相关文章:

  • Springmvc中跨服务器文件上传
  • 常见漏洞扫描工具AWVS、AppScan、Nessus的使用
  • Vue学习——【第二弹】
  • 恐怖的ChatGPT!
  • MIPI D-PHYv2.5笔记(12) -- Clock Lane的ULPS
  • 创建网络数据集
  • 从功能到年薪30W+的测试开发工程师,分享我这10年的职业规划路线
  • ChatGPT中文免登陆-ChatGPT中文版上线
  • 多线程之最大并行数
  • 智慧城市发展的基本原理是什么?
  • 技术宅小伙:利用JAVA开发个常用的编辑接口
  • Image as set points【ICLR 2023 notable top 5%】
  • 10个超级实用的Python技巧
  • 【Java语法糖】泛型与源码角度分析静态问题
  • App 抓包提示网络异常怎么破?
  • 操作系统-文件系统
  • 虚拟机无法访问外网的问题
  • 软件测试【常见】62 道面试题,不背完这些你还想去面试?
  • 聚观早报 | ChatGPT 停止 Plus 付费;李子柒油管广告收益登顶热搜
  • 对接多个 Neuron 实例,实现多网关协同分析与设备联动
  • windows下 Jenkins 主从节点通过SSH连接
  • JAVA练习101-任务调度器
  • 华为OD机试-匿名信-2022Q4 A卷-Py/Java/JS
  • muduo源码剖析--Inetaddress/Socket/Acceptor
  • 域名过户操作流程及常见问题
  • 多国拟发ChatGPT禁令 关“野兽”的笼子要来了?
  • 深度学习中,Params参数量和FLOPs计算量分别指什么
  • 1分钟快速制作思维导图「ChatGPT+XMind」—— 跟上时代的脚步,这辈子就起飞了 - 第5篇
  • 生成与获取token
  • 【人工智能】ChatGTP从入门到精通