当前位置: 首页 > news >正文

大数据开发面试题:美团秋招一面

1. 数据倾斜有哪几种方法?

动态一分为二 —— 解决数据倾斜的通用方法

 巧用IF函数优化复杂条件查询与数据倾斜问题

Hive中ROW_NUMBER发生数据倾斜的优化方案2:基于MAX函数替换排序的业务需求及优化

Hive中ROW_NUMBER取Top N的数据倾斜的优化方案:基于赛马定理的优化策略

2. HDFS小文件的危害 

Hive 动态分区小文件过多问题优化

Hive 利用Distribute by 解决动态分区小文件过多问题 | 小文件优化

3. 说一下你熟悉的排序算法,时间复杂度分别是多少 

4. 说下数仓建模的层数,如果去掉几层或者多几层可以吗? 

面试提问:数仓设计不分层可以吗?

5. 缓慢变化维度怎么处理? 

6. 拉链表如何更新? 

7. HDFS如何保证高可用? 

8. MapTask和ReduceTask的个数是由什么决定的?

 9. 怎么优化分区的键值 ?

数仓分区时间设计:系统时间与业务时间如何选?| 虾皮数开

10. 介绍一下RDD的五大特性 1

11. RDD的Map-Join知道吗?

 12. 二叉树有几种遍历方式?根据前序、中序、后序遍历中的两个遍历顺序可以确定第三个遍历的顺序吗?

往期精彩

字节大数据开发一面面试题(有点意思)

面试灵魂拷问:为什么维度表不能合并成一张大表?

SQL中的短路规则:三值逻辑下的执行优化

面试提问:如何通过指标拆解指导数仓建模?| 懂车帝

读者提问:缓慢变化维能进行维度退化吗?答案可能和你想的不一样

数仓分区时间设计:系统时间与业务时间如何选?| 虾皮数开

http://www.lryc.cn/news/624497.html

相关文章:

  • 数据赋能(401)——大数据——持续学习与优化原则
  • 自建K8s集群无缝集成阿里云RAM完整指南
  • The Open Group 休斯敦峰会:进步之路——以开放标准定义未来
  • [openvela] Hello World :从零开始的完整实践与问题复盘
  • PDF转图片需要用到什么技术?苹果手机怎样将PDF转为jpg?
  • 在Excel启动时直接打开多个Excel文件
  • 2025上半年AI核心成果与趋势报告深度解析:技术突破、应用落地与未来展望
  • SQLsever基本操作
  • 网络间的通用语言TCP/IP-网络中的通用规则1
  • H264: SPS和PPS概念
  • thinkphp8:一、环境准备
  • Java-101 深入浅出 MySQL InnoDB 锁机制全景图:行锁原理、Next-Key Lock、Gap Lock 详解
  • 机器学习——XGBoost算法
  • python-----机器学习中常用的数据预处理
  • 机器学习之数据预处理(一)
  • 英特尔公司Darren Pulsipher 博士:以架构之力推动政府数字化转型
  • STM32使用WS2812灯环
  • 吴恩达 Machine Learning(Class 2)
  • Windows桌面自动化的革命性突破:深度解析Windows-MCP.Net Desktop模块的技术奥秘
  • 从零到一构建企业级GraphRAG系统:GraphRag.Net深度技术解析
  • OpenCV---特征检测算法(ORB,Oriented FAST and Rotated BRIEF)
  • SkyWalking + Elasticsearch8 容器化部署指南:国内镜像加速与生产级调优
  • 深度解析阿里巴巴国际站商品详情 API:从接口调用到数据结构化处理
  • Vision Master的C#脚本与opencv联合编程
  • 【GM3568JHF】FPGA+ARM异构开发板烧录指南
  • [系统架构设计师]软件可靠性基础知识(九)
  • 蔬菜批发小程序:生产商的数字化转型利器——仙盟创梦IDE
  • 【Linux系统】进程间通信:System V IPC——消息队列和信号量
  • VLN视觉与语言导航(1)——数学与人工智能基础理论
  • 云计算-云上实例部署 RocketChat:Mongodb、主从数据库、Node 环境配置指南