大数据课程F2——HIve的安装操作
文章作者邮箱:yugongshiye@sina.cn 地址:广东惠州
▲ 本章节目的
⚪ 了解HIve的安装概念;
⚪ 掌握HIve安装步骤和Linux常用命令;
⚪ 掌握HIve安装的连接池jar包冲突和日志打印jar包冲突;
⚪ 掌握HIve安装的Hadoop安装配置;
⚪ 掌握HIve安装的JDK安装配置;
⚪ 掌握HIve安装的MySQL安装配置;
⚪ 掌握HIve安装的Hive的元数据库初始化和启动;
⚪ 掌握HIve安装的指定Hive运行日志生成路径;
⚪ 掌握HIve安装的Hive参数配置原则;
一、安装
1. 概述
1. Hive是基于Hadoop来使用的(基于HDFS来存储,基于Hadoop YARN来执行),所以Hive的版本要受Hadoop版本的影响。
2. 到目前为止,Hadoop2.X支持Hive1.X和Hive2.X版本,Hadoop3.X支持Hive3.X。
3. Hive在安装过程中还需要改变元数据库。
a. 在Hive中,同样需要建库建表,这个时候产生的库名、表名、字段名、分区名、分桶信息、函数、数据类型等信息都属于元数据,这些数据是用于描述Hive中数据的特点,统称为元数据。
b. Hive的元数据是维系在关系型数据库中的(Hive管理的数据存储在HDFS上,Hive的元数据存储在数据库中)。
c. 到目前为止,Hive1.X和Hive2.X的元数据库只支持两种:Derby和MySQL。Hive3.X的元数据库还支持Oracle等数据库。如果不指定,无论是Hive的哪一个版本,都默认使用Derby(微型,单连接)来作为元数据库,就意味着Hive每次都只能允许一个用户连接,因此需要更换Hive的元数据库。
2. 安装步骤
1. 要求云主机或者虚拟机上必须先安装好Hadoop3.1.3+JDK1.8;要求硬件环境内存不少于3G。
2. 进入/home/software,下载或者上传Hive的安装包。
cd /home/software/
#云主机下载地址
wget http://bj-yzjd.ufile.cn-north-02.ucloud.cn/apache-hive-3.1.2-bin.tar.gz
3. 解压安装包。
tar -xvf apache-hive-3.1.2-bin.tar.gz
4. 重命名。
mv apache-hive-3.1.2-bin hive-3.1.2
5. 配置环境变量。
vim /etc/profile
#在文件尾部添加
export HIVE_HOME=/home/software/hive-3.1.2
export PATH=$PATH:$HIVE_HOME/bin
#保存退出,重新生效
source /etc/profile
#测试是否配置正确
hive --version
6. 解决连接池的jar包冲突。
cd /home/software/hive-3.1.2/lib
rm -rf guava-19.0.jar
cp /home/software/hadoop-3.1.3/share/hadoop/common/lib/guava-27.0-jre.jar ./
7. 解决日志打印的jar包冲突。
mv log4j-slf4j-impl-2.10.0.jar log4j-slf4j-impl-2.10.0.bak
8. Centos7中自带了残缺的MySQL发行版mariadb,需要先卸载残缺的mariadb。
rpm -qa | grep -i mariadb | xargs rpm -ev --nodeps
9. 卸载其他的MySQL。
rpm -qa | grep -i mysql | xargs rpm -ev --nodeps
10. 删除MySQL卸载遗留的文件。
find / -name mysql | xargs rm -rf
find / -name my.cnf | xargs rm -rf
cd /var/lib