Hive起源于Facebook,是一個基于Hadoop的數(shù)據(jù)倉庫工具,同時也是Hadoop的一個主要子項目。Hive提供了一系列的工具,可以用來進行數(shù)據(jù)的提取、轉換和加載(ETL),同時可以實現(xiàn)對Hadoop中大規(guī)模數(shù)據(jù)的存儲、查詢和分析。Hive定義了一種簡單的類似SQL語言——HiveQL。
HiveQL使熟悉SQL的用戶可以很方便地在Hadoop中査詢數(shù)據(jù)。同時Hive還有很強的靈活性,沒有將用戶限制在一個框架中,主要表現(xiàn)在當Hive內建的Mapper和Reducer不能滿足用戶的需求時,用戶可以通過Map/Reduce將自己開發(fā)的Mapper和Reducer加入到Hive,以滿足用戶特殊的需求。
HiveQL使熟悉SQL的用戶可以很方便地在Hadoop中査詢數(shù)據(jù)。同時Hive還有很強的靈活性,沒有將用戶限制在一個框架中,主要表現(xiàn)在當Hive內建的Mapper和Reducer不能滿足用戶的需求時,用戶可以通過Map/Reduce將自己開發(fā)的Mapper和Reducer加入到Hive,以滿足用戶特殊的需求。
Hive云計算系統(tǒng)沒有定義所謂的Hive格式的數(shù)據(jù),可以在Thift上很好地工作,控制分隔符,甚至可以自己定義數(shù)據(jù)格式。
作為Hadoop的主要子項目,Hive秉承開源的精神,在不斷地發(fā)展中,不斷有新的特性加入其中?,F(xiàn)在已經增加和森要增加的一些新特性如下:
(1)增加了用于收集分區(qū)和列的水平統(tǒng)計數(shù)值的命令;
(2)支持在Partition級別去更改Bucket的數(shù)量;
(3)在Hive中實現(xiàn)檢索;.
(4)為班仰增加并發(fā)模型;
(5)支持在兩個或兩個以上列中的差別選擇;
(6)利用bloom過濾器提高連接的效果;
(7)建立Hive的授權結構和認證結構;
(8)在Hive中使用位圖檢索。
Hive正在不斷發(fā)展,哈唐網絡下節(jié)課將從整體構架、數(shù)據(jù)模型、使用語言等幾個方面對Hive云計算系統(tǒng)做一個簡要介紹。
相關推薦:2U服務器托管一般都是怎么收費的?
相關推薦:2U服務器托管一般都是怎么收費的?