大数据开发面试题:美团秋招一面
1. 数据倾斜有哪几种方法?
动态一分为二 —— 解决数据倾斜的通用方法
巧用IF函数优化复杂条件查询与数据倾斜问题
Hive中ROW_NUMBER发生数据倾斜的优化方案2:基于MAX函数替换排序的业务需求及优化
Hive中ROW_NUMBER取Top N的数据倾斜的优化方案:基于赛马定理的优化策略
2. HDFS小文件的危害
Hive 动态分区小文件过多问题优化
Hive 利用Distribute by 解决动态分区小文件过多问题 | 小文件优化
3. 说一下你熟悉的排序算法,时间复杂度分别是多少
4. 说下数仓建模的层数,如果去掉几层或者多几层可以吗?
面试提问:数仓设计不分层可以吗?
5. 缓慢变化维度怎么处理?
6. 拉链表如何更新?
7. HDFS如何保证高可用?
8. MapTask和ReduceTask的个数是由什么决定的?
9. 怎么优化分区的键值 ?
数仓分区时间设计:系统时间与业务时间如何选?| 虾皮数开
10. 介绍一下RDD的五大特性 1
11. RDD的Map-Join知道吗?
12. 二叉树有几种遍历方式?根据前序、中序、后序遍历中的两个遍历顺序可以确定第三个遍历的顺序吗?
往期精彩
字节大数据开发一面面试题(有点意思)
面试灵魂拷问:为什么维度表不能合并成一张大表?
SQL中的短路规则:三值逻辑下的执行优化
面试提问:如何通过指标拆解指导数仓建模?| 懂车帝
读者提问:缓慢变化维能进行维度退化吗?答案可能和你想的不一样
数仓分区时间设计:系统时间与业务时间如何选?| 虾皮数开