Hive安装配置

每次需要安装hive,都得到官网找文档一步步的配置。现在又需要配置一套hive环境,正好趁着这个机会,简单梳理一下hive的完整安装与配置,以便于未来之需。

下载hive

一般优先选择最新stable版本,撰写此文时的最新stable是1.0版本hive。

选择hive同时也需要考虑hadoop的版本,比如1.0版本hive只支持1.x和2.x版本hadoop,如果是0.20.x和0.23.x版本的hadoop,只能选择0.13.1版本hive。

stable版本的下载连接如下,使用国内镜像,速度刚刚的。

http://mirrors.cnnic.cn/apache/hive/stable/

数据存储

数据收集之后,自然是存储在lzo压缩的日志文件中,但是此时直接使用这些lzo格式日志文件来进行计算的话,每个hive任务都需要再解压缩每一行数据,效率还是挺低的。

建议定时将lzo压缩的日志文件,按照分区合并至lzo表中。lzo表的存储空间、使用性能都远远高于lzo压缩json格式源数据。

在实际应用中,orc表的存储空间和hive任务执行时间,相对于lzo压缩能够减少大概90%~70%,这个数字是我根据线上数据进行简单的估算结果。

而lzo压缩转换为orc表一般耗时也就是240MB/min,这个也是我根据线上数据进行的估算,具体情况还得具体分析。

数据计算

每日离线统计,每小时离线统计。