有一款數(shù)據(jù)處理軟件,正式版才公開1年的時間,就已經(jīng)被“Uber”、“Airbnb”等備受關(guān)注的新興企業(yè)以及豐田等大型企業(yè)采用,美國IBM將其稱為“今后10年內(nèi)數(shù)據(jù)領(lǐng)域最重要的開源軟件(OSS)”,并開始為相關(guān)項目投入3500名研發(fā)人員。這款軟件就是“Spark”。
2015年6月15~17日(美國時間),用戶大會“2015年Spark峰會 ”在舊金山市舉行,參會用戶達到了2000名(照片1)。

照片1:“2015年Spark峰會”吸引了2000人參加
在本屆大會上,出租車配車服務(wù)商Uber Technologies、將民宅作為賓館出租的Airbnb、豐田的美國法人、百度以及美國中央情報局(CIA)等紛紛介紹了Spark的應(yīng)用實例。IBM也配合該大會的舉辦,宣布為Spark相關(guān)項目投入3500名研發(fā)人員。
Spark是美國加利福尼亞大學(xué)伯克利分校開始開發(fā)的OSS,目前由該校研究人員創(chuàng)辦的初創(chuàng)企業(yè)Databricks主導(dǎo)開發(fā)。其正式版“Spark 1.0”剛剛于1年前,也就是2014年5月公開。
盡管如此,Spark仍開始被視為繼大數(shù)據(jù)處理常用軟件“Hadoop”之后的大數(shù)據(jù)處理新主角。為何Spark會受到如此高的關(guān)注呢?下面就根據(jù)用戶在2015年Spark峰會上公開的相關(guān)內(nèi)容,介紹一下Spark的現(xiàn)狀。
Spark是通過讓數(shù)十~數(shù)百臺PC服務(wù)器聯(lián)動來實現(xiàn)大數(shù)據(jù)高速處理的“分布數(shù)據(jù)處理軟件”。只需增加PC服務(wù)器數(shù)量即可提高處理性能,因此無需使用昂貴的大型服務(wù)器,就能以較低的成本進行大數(shù)據(jù)處理。
豐田利用Spark提高“機器學(xué)習(xí)”速度

照片2:豐田美國的數(shù)據(jù)科學(xué)家Brian Kursar
Spark與Hadoop同為分布數(shù)據(jù)處理軟件。Spark的不同之處在于能夠高速處理Hadoop不擅長的“機器學(xué)習(xí)”。在Spark峰會上發(fā)表演講的豐田美國公司(豐田的美國法人,Toyota USA)數(shù)據(jù)科學(xué)家Brian Kursar表示,“通過使用Spark,可以使以前需要花費36小時的機器學(xué)習(xí)處理時間縮短至9分鐘”(照片2)。

電池網(wǎng)微信












