当前位置: 首页 > news >正文

大数据面试核心101问【大厂超级喜欢这些题】

之前出过《史上最全的大数据开发八股文》这篇文章,同学们都觉得还不错,但是有些同学觉得那个背起来还是有些吃力,于是我再次回顾了自己之前面试所有大厂的一些面试题以及牛客上面的一些面经,然后总结了频率问的最高的101问,包括了大数据、java、计算机网络、操作系统、数据库、HQL、场景题等内容

注意:以下顺序就是按照科目来进行划分的,重要性不分先后

  1. HDFS的架构 7
  2. HDFS的读写流程 7
  3. 小文件过多有什么危害,你知道的解决办法有哪些 8
  4. join原理 9
  5. yarn 的任务提交流程是怎样的 10
  6. 简述什么是CAP理论,zookeeper满足CAP的哪两个 11
  7. 简述flume基础架构 13
  8. 请说一下你提到的几种source的不同点 14
  9. kafka是如何保证数据不丢失和数据不重复 16
  10. kafka中的数据是有序的吗,如何保证有序的呢 18
  11. HBase和hive的区别 21
  12. HBase在写过程中的region的split时机 22
  13. 说一下HBase 的 rowkey 设计原则 23
  14. hive的join底层实现 25
  15. Order By和Sort By的区别 26
  16. 行转列和列转行函数 26
  17. Hive优化 29
  18. 简述hadoop 和 spark 的不同点(为什么spark更快) 31
  19. 简述spark的shuffle过程 31
  20. spark的作业运行流程是怎么样的 33
  21. 你知道Application、Job、Stage、Task他们之间的关系吗 34
  22. Spark常见的算子介绍一下(10个以上) 34
  23. 简述groupByKey和reduceByKey的区别 35
  24. 宽依赖和窄依赖之间的区别 35
  25. 简单介绍一下Flink 39
  26. Flink和SparkStreaming区别 39
  27. 简述Flink运行流程(基于Yarn) 40
  28. Connect算子和Union算子的区别 40
  29. Flink的时间语义有哪几种 * 40
  30. Flink 是如何保证 Exactly-once 语义的 42
  31. java的深拷贝和浅拷贝的区别 43
  32. java中==和equals的区别 44
  33. String和StringBuffer、StringBuilder的区别 44
  34. 简述面向对象三大特征 45
  35. java中方法重载和重写的区别 46
  36. HashMap底层实现 47
  37. HashMap扩容过程 48
  38. ConcurrentHashMap原理 48
  39. java反射机制 49
  40. 异常体系 49
  41. JVM垃圾收集器 55
  42. java实现多线程有几种方式 59
  43. 线程池相关内容 60
  44. TCP是如何做到可靠传输的 63
  45. TCP和UDP的区别 63
  46. 浏览器输入URL到显示页面的过程 64
  47. 进程和线程的区别 64
  48. 简述事务 66
  49. 数据库事务并发会引发哪些问题 66
  50. 事务的四个隔离级别有哪些 67
  51. MVCC讲一下(怎么实现) 67
  52. 为什么要对数据仓库分层 67
  53. 维度建模中表的类型 68
  54. 事实表的设计过程 69
  55. 留存问题 71
  56. 数据倾斜 72
http://www.lryc.cn/news/30334.html

相关文章:

  • 代码随想录算法训练营第四十八天 | leetcode 121. 买卖股票的最佳时机,122.买卖股票的最佳时机II
  • RAD 11.3 delphi和C++改进后新增、废弃及优化的功能
  • 【C++】引用
  • LPNet for Image Derain
  • 【NLP相关】基于现有的预训练模型使用领域语料二次预训练
  • 使用git进行项目管理--git使用及其常用命令
  • Mybatis_CRUD使用
  • JVM的过程内分析和过程间分析有什么区别?
  • LearnDash测验报告如何帮助改进您的课程
  • 如何通过Java将Word转换为PDF
  • DOM型XSS
  • 04-项目立项:项目方案、可行性分析、产品规划、立项评审
  • 数据分享|NPP VIIRS夜间灯光数据(2012-2020逐月)
  • 网络概论笔记
  • 软工2023个人作业二——软件案例分析
  • python数据分析表格文档Excel数据分析器统计源码
  • Istio Sidecar启动顺序 - 导致的应用容器网络不通
  • 3696. 构造有向无环图
  • RuoYi-Flowable-Plus(代码生成)
  • 训练CV模型常用的方法与技巧
  • [Java·算法·中等]LeetCode22. 括号生成
  • Git项目合并实践
  • C++实战md5、base64算法实现(附源码)
  • P6专题:P6 EPPM和PPM基本概念
  • 【为什么事务@Transactional会失效】
  • NLP中的对话机器人——模型的评估
  • 数据挖掘知识规整与心得体会
  • 修正一些formdesigner的一些bug与操作
  • 前端网络安全
  • docker内存统计