大數(shù)據(jù)與Hadoop正一步步給企業(yè)的數(shù)據(jù)管理架構(gòu)帶來(lái)變化。這是一場(chǎng)以專營(yíng)公司、企業(yè)級(jí)軟件供應(yīng)商以及云服務(wù)廠商為主角的淘金熱潮,每一位參與者都希望能在這片處女地上建立起屬于自己的新帝國(guó)。雖然開源Apache Hadoop項(xiàng)目本身已經(jīng)包含各類核心模塊—例如Hadoop Common、Hadoop分布式文件系統(tǒng)(簡(jiǎn)稱HDFS)、Hadoop YARN以及Hadoop MapReduce—不過(guò)由于缺少來(lái)自商業(yè)供應(yīng)商的技術(shù)支持以及打包解決方案,它并不能直接在市場(chǎng)上作為客戶的可選產(chǎn)品。當(dāng)下各大頂尖商業(yè)發(fā)行版都與Apache Hadoop相兼容,那么它們彼此之間如何保持獨(dú)立性?下面我們將跟隨著Forrester的視角,一同探討九大商業(yè)Hadoop發(fā)行版如何走出自己的獨(dú)特道路。
1. Amazon Web Services Elastic MapReduce奪得最大市場(chǎng)份額
在大家說(shuō)起Hadoop時(shí),Amazon也許并不是第一家出現(xiàn)在各位腦海中的方案供應(yīng)商,不過(guò)AWS的Elastic MapReduce(簡(jiǎn)稱EMR)則確實(shí)是最早投放市場(chǎng)的商業(yè)Hadoop產(chǎn)品之一、同時(shí)也在全球市場(chǎng)份額方面占據(jù)領(lǐng)先地位,F(xiàn)orrester首席分析師Mike Gualtieri表示。EMR是一套運(yùn)作在云環(huán)境下的Hadoop,它利用Amazon EC2作為計(jì)算資源、Amazon S3作為存儲(chǔ)資源,同時(shí)也容納其它多項(xiàng)服務(wù)加以配合。
“AWS的解決方案路線圖當(dāng)中包括將Amazon EMR與Amazon Kinesis相集成以實(shí)現(xiàn)流程處理;進(jìn)一步加強(qiáng)其與Amazon Redshift數(shù)據(jù)倉(cāng)庫(kù)以及其它數(shù)據(jù)源的集成程度;以策略為指導(dǎo)自動(dòng)調(diào)整集群規(guī)模;在Hadoop基礎(chǔ)上支持額外的NoSQL數(shù)據(jù)庫(kù);與更多來(lái)自第三方供應(yīng)商的商務(wù)智能方案相對(duì)接,”Gualtieri寫道。
2.Cloudera以企業(yè)客戶需求為基礎(chǔ)專注于Hadoop創(chuàng)新
AWS也許在市場(chǎng)份額方面遙遙領(lǐng)先,但專營(yíng)企業(yè)Cloudera卻也緊隨其后;目前這家公司的客戶數(shù)量已經(jīng)超過(guò)200家,其中一部分的節(jié)點(diǎn)部署數(shù)量超過(guò)一千個(gè)、數(shù)據(jù)總量更是達(dá)到PB級(jí)別。
AWS也許在市場(chǎng)份額方面遙遙領(lǐng)先,但專營(yíng)企業(yè)Cloudera卻也緊隨其后;目前這家公司的客戶數(shù)量已經(jīng)超過(guò)200家,其中一部分的節(jié)點(diǎn)部署數(shù)量超過(guò)一千個(gè)、數(shù)據(jù)總量更是達(dá)到PB級(jí)別。
“企業(yè)客戶希望擁有一套Hadoop管理與監(jiān)控工具,為此Cloudera創(chuàng)建了Cloudera Manager,”Gualtieri寫道。“企業(yè)客戶希望獲得一套速度更快的Hadoop SQL引擎,為此Cloudera利用大規(guī)模并行處理(簡(jiǎn)稱MPP)架構(gòu)創(chuàng)建了Impala—企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)使用的也是這套架構(gòu)。Cloudera的創(chuàng)新思路在于一方面繼續(xù)秉承Hadoop項(xiàng)目核心,同時(shí)又通過(guò)快速創(chuàng)新與積極迎合客戶需求將自身方案與其它供應(yīng)商區(qū)別開來(lái)。”Cloudera的盈利模式主要源自軟件訂購(gòu),不過(guò)他們也提供技術(shù)支持服務(wù)。
3.Hortonworks推動(dòng)開源Hadoop創(chuàng)新
縱觀各大參與廠商,專營(yíng)Hadoop業(yè)務(wù)的Hortonworks憑借自身Hortonworks數(shù)據(jù)平臺(tái)(簡(jiǎn)稱HDP)而與Apache Hadoop開源最為貼合,不過(guò)它同時(shí)也在積極尋求與其它工程技術(shù)合作伙伴的深入?yún)f(xié)作,其中包括微軟、Teradata、SAP以及紅帽等等。
“Hortonworks的策略在于通過(guò)開源社區(qū)推動(dòng)創(chuàng)新活動(dòng),并與合作伙伴建立生態(tài)系統(tǒng)以加快Hadoop在企業(yè)客戶當(dāng)中的普及程度,”Gualtieri寫道。“如果開源社區(qū)在某些方面的發(fā)展速度不夠理想,Hortonworks就會(huì)以此為基礎(chǔ)建立新項(xiàng)目并利用自身資源幫助其獲得強(qiáng)勁的前進(jìn)勢(shì)頭。”
在這方面,旨在提供Hadoop集群管理控制臺(tái)的Apache Ambari項(xiàng)目就是一大典型范例。
4. IBM InfoSphere BigInsights,藍(lán)色巨人支持下的企業(yè)拓展項(xiàng)目
IBM并不像一部分競(jìng)爭(zhēng)對(duì)手那樣擁有傲人的Hadoop社區(qū)合作深度,不過(guò)他們?cè)诜植际接?jì)算與數(shù)據(jù)管理領(lǐng)域的卓越成就幫助其拿出了一套相當(dāng)全面的Hadoop解決方案。IBM目前已經(jīng)完成了一百多項(xiàng)Hadoop部署工作,其中一部分所打理的數(shù)據(jù)規(guī)模更是達(dá)到PB級(jí)別。
“除此之外,IBM也擁有不少先進(jìn)分析工具、全球市場(chǎng)份額以及服務(wù)實(shí)施方案,這使其得以通過(guò)一套完整的綜合性大數(shù)據(jù)解決方案吸引眾多企業(yè)客戶,”Gualtieri寫道。“IBM的路線圖包括不斷將BigInsights Hadoop解決方案與相關(guān)IBM資產(chǎn)相集成,例如SPSS高級(jí)分析、高性能計(jì)算工作負(fù)載管理、商務(wù)智能工具以及數(shù)據(jù)管理與建模工具等。”
5.MapR Technologies為NFS及其它創(chuàng)新成果提供支持
MapR Technologies在本次榜單的專營(yíng)企業(yè)中位列第三,市場(chǎng)份額排名居于Cloudera與Hortonworks之后。早在剛剛起步的階段,MapR就沒有像其它廠商那樣保守地對(duì)Hadoop進(jìn)行概念驗(yàn)證、而是在此期間專注于實(shí)現(xiàn)各項(xiàng)企業(yè)級(jí)功能。
“MapR Technologies為其Hadoop發(fā)行版帶來(lái)眾多獨(dú)一無(wú)二的創(chuàng)新成果,其中包括支持網(wǎng)絡(luò)文件系統(tǒng)(簡(jiǎn)稱NFS)、在集群中運(yùn)行二進(jìn)制代碼、針對(duì)HBase實(shí)現(xiàn)性能強(qiáng)化以及高可用性與災(zāi)難恢復(fù)功能等等,”Gualitieri寫道。Gualtieri同時(shí)指出,目前MapR的競(jìng)爭(zhēng)對(duì)手已經(jīng)開始積極創(chuàng)建與之相似的企業(yè)級(jí)功能,因此MapR必須要在市場(chǎng)推廣方面有所動(dòng)作并建立起屬于自己的合作關(guān)系與發(fā)布渠道。
6.Pivotal Software充分發(fā)揮其Greenplum引擎潛能
作為站在EMC與VMware巨人肩膀上的新興企業(yè),Pivotal由前任VMware公司CEO Paul Maritz負(fù)責(zé)掌舵,同時(shí)也擁有EMC強(qiáng)大的技術(shù)咨詢與數(shù)據(jù)科學(xué)團(tuán)隊(duì)為其提供支持。除了源自EMC的列式數(shù)據(jù)庫(kù)Greenplum Database技術(shù),Pivotal的Hadoop發(fā)行版還憑借名為HAWQ的MPP Hadoop SQL引擎實(shí)現(xiàn)了類似于MPP的SQL性能表現(xiàn)。
“Pivotal是第一家提供全功能企業(yè)級(jí)Hadoop設(shè)備的企業(yè)數(shù)據(jù)倉(cāng)庫(kù)供應(yīng)商;他們也是第一家將自身Hadoop、企業(yè)數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)管理層整合在同一臺(tái)機(jī)架當(dāng)中并作為設(shè)備家族推出的廠商,”Gualtieri寫道。“Pivotal的路線圖將使其Hadoop解決方案在競(jìng)爭(zhēng)優(yōu)勢(shì)方面一馬當(dāng)先;其創(chuàng)新重點(diǎn)集中在改進(jìn)HAWQ SQL引擎并將其與其它Pivotal產(chǎn)品進(jìn)一步結(jié)合方面。”
7.Teradata利用豐富的專業(yè)知識(shí)打造Hadoop設(shè)備
Teradata是一家非常專業(yè)的企業(yè)數(shù)據(jù)倉(cāng)庫(kù)設(shè)備供應(yīng)商,該公司在此基礎(chǔ)上與Hortonworks建立起堅(jiān)實(shí)的技術(shù)合作關(guān)系、將Hadoop以設(shè)備形式投放市場(chǎng)。
“Teradata的Hadoop發(fā)行版當(dāng)中包括了與Teradata管理工具與SQL-H的集成機(jī)制、利用聯(lián)合SQL引擎幫助客戶從其數(shù)據(jù)倉(cāng)庫(kù)與Hadoop當(dāng)中查詢數(shù)據(jù),”Gualtieri寫道。“方案還利用Aster對(duì)Hadoop進(jìn)行分析。”
Teradata的Hadoop設(shè)備目前只擁有不到一百家客戶,不過(guò)Gualtieri指出其雄厚的資金實(shí)力加之豐富的技術(shù)與管理資源足以創(chuàng)建出一套獨(dú)特的高性能設(shè)備,在這方面其它供應(yīng)商很難與之進(jìn)行正面對(duì)抗。
8.英特爾為Hadoop帶來(lái)以硬件為基礎(chǔ)的性能與安全性增強(qiáng)方案
在Hadoop發(fā)行版領(lǐng)域,英特爾的參與時(shí)間相對(duì)較晚,但這并不妨礙其利用其至強(qiáng)芯片的強(qiáng)大性能成為此間的一位有力競(jìng)爭(zhēng)者。
“英特爾是第一家以硬件為基礎(chǔ)向Hadoop交付性能與安全性強(qiáng)化機(jī)制的供應(yīng)商,”Gualtieri寫道。“英特爾未來(lái)幾年的路線圖將進(jìn)一步與Hadoop解決方案市場(chǎng)上的其它參與者建立緊密的合作關(guān)系。除此之外,英特爾還將繼續(xù)專注于利用硬件強(qiáng)化性能與安全性表現(xiàn)、本地任務(wù)優(yōu)化、Lustre與圖形分析,這一切都將推動(dòng)其發(fā)行版在贏得廣泛關(guān)注與贊賞。”
9.微軟Windows Azure HDInsight,在云與Windows之力下茁壯成長(zhǎng)
作為Hortonworks工程技術(shù)合作項(xiàng)目中的組成部分,微軟Windows Azure HDInsight Service的設(shè)計(jì)思路緊緊圍繞著Windows Azure云而展開。HDInsight and Hadoop for Windows(屬于Hortonworks數(shù)據(jù)平臺(tái)的一個(gè)分支版本)也是目前惟一一套運(yùn)行在Windows環(huán)境下的Hadoop發(fā)行版。
“微軟還提供Polybase以幫助SQL Server客戶對(duì)保存在Hadoop當(dāng)中的數(shù)據(jù)進(jìn)行查詢,”Gualtieri寫道。“微軟也在其它開源社區(qū)Hadoop項(xiàng)目當(dāng)中作出了積極貢獻(xiàn),其中就包括下一代Hive。微軟通過(guò)一系列Hadoop堆棧拓展舉措為其客戶在數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)、云、OLAP、商務(wù)智能、電子表格(PowerPivot)、雷德以及開發(fā)工具方面帶來(lái)顯著的改進(jìn)效果。”