当前位置：首页 > news >正文

大数据复习知识点1

news 2025/7/26 9:42:32

1、HDFS和MapReduce的起源：HDFS起源于Google的GFS论文，它是为了解决大规模数据集的存储问题而设计的。而MapReduce则是Google为了解决大规模数据处理问题而提出的一种并行计算模型。

2、YARN的作用：YARN是Hadoop的资源管理器，它负责管理和调度集群中的计算资源，使得Hadoop能够支持各种计算模型和应用程序。

3、Hive的作用：Hive是一个基于Hadoop的数据仓库工具，它可以将结构化的数据文件映射为数据库表，并提供SQL查询功能，使得大规模数据的查询和分析变得更加简单。

4、Spark的特点：Spark拥有先进的架构，高效的数据处理能力和易用的API，还支持多种机器学习和图计算库，非常适合大规模数据处理和机器学习任务。

5、虚拟机的网络连接方式：虚拟机有三种网络连接方式：桥接模式、NAT模式和仅主机模式。桥接模式让虚拟机和主机处在同一局域网下；NAT模式让虚拟机可以访问外网，但其他主机不能访问虚拟机；仅主机模式则让虚拟机只能访问主机，不能访问外网。

6、查看主机名的命令：可以使用hostname命令来查看主机名。