如何評(píng)價(jià) spark mllib
MLlib是抄Spark的機(jī)器學(xué)習(xí)(ML)庫(kù)。旨在簡(jiǎn)化機(jī)器學(xué)習(xí)的工程實(shí)踐工作,并方便擴(kuò)展到更大規(guī)模。MLlib由一些通用的襲學(xué)習(xí)算法和2113工具組成,包括5261分類、回歸、聚類、協(xié)同過(guò)濾、降維等,同時(shí)還包括底層的優(yōu)化原語(yǔ)和高層的管道API。
MLllib目前分為兩個(gè)代4102碼包:
Spark技術(shù)的核心是什么??jī)?yōu)勢(shì)有哪些?
Spark是基于內(nèi)存,是云計(jì)算領(lǐng)域的繼Hadoop之后的下一代的最熱門的通用的并行計(jì)算框架開源項(xiàng)目,尤其出色的支持Interactive Query、流計(jì)算、圖計(jì)算等。
Spark在機(jī)器學(xué)習(xí)方面有著無(wú)與倫比的優(yōu)勢(shì),特別適合需要多次迭代計(jì)算的算法。同時(shí)Spark的擁有非常出色的容錯(cuò)和調(diào)度機(jī)制,確保系統(tǒng)的穩(wěn)定運(yùn)行,Spark目前的發(fā)展理念是通過(guò)一個(gè)計(jì)算框架集合SQL、Machine Learning、Graph Computing、Streaming Computing等多種功能于一個(gè)項(xiàng)目中,具有非常好的易用性。
目前SPARK已經(jīng)構(gòu)建了自己的整個(gè)大數(shù)據(jù)處理生態(tài)系統(tǒng),如流處理、圖技術(shù)、機(jī)器學(xué)習(xí)、NoSQL查詢等方面都有自己的技術(shù),并且是Apache頂級(jí)Project,可以預(yù)計(jì)的是2014年下半年在社區(qū)和商業(yè)應(yīng)用上會(huì)有爆發(fā)式的增長(zhǎng)。
Spark最大的優(yōu)勢(shì)在于速度,在迭代處理計(jì)算方面比Hadoop快100倍以上;Spark另外一個(gè)無(wú)可取代的優(yōu)勢(shì)是:“One Stack to rule them all”,Spark采用一個(gè)統(tǒng)一的技術(shù)堆棧解決了云計(jì)算大數(shù)據(jù)的所有核心問(wèn)題,這直接奠定了其一統(tǒng)云計(jì)算大數(shù)據(jù)領(lǐng)域的霸主地位;