一、svm什么意思
支持向量機(jī)SVM(Support Vector Machine)作為一種可訓(xùn)練的機(jī)器學(xué)習(xí)方法,依靠小樣本學(xué)習(xí)后的模型參數(shù)進(jìn)行導(dǎo)航星提取,可以得到分布均勻且恒星數(shù)量大為減少的導(dǎo)航星表
二、Support Vector Machine是什么?
Support Vector Machine - 支持向量機(jī),常簡稱為SVM,是一種監(jiān)督式學(xué)習(xí)的方法,可廣泛地應(yīng)用于統(tǒng)計(jì)分類以及回歸分析。
支持向量機(jī)屬于一般化線性分類器,也可以被認(rèn)為是提克洛夫規(guī)范化(Tikhonov Regularization)方法的一個(gè)特例。這族分類器的特點(diǎn)是他們能夠同時(shí)最小化經(jīng)驗(yàn)誤差與最大化幾何邊緣區(qū),因此支持向量機(jī)也被稱為最大邊緣區(qū)分類器。
機(jī)的意思就是算法,機(jī)器學(xué)習(xí)領(lǐng)域里面常常用“機(jī)”這個(gè)字表示算法。支持向量意思就是數(shù)據(jù)集種的某些點(diǎn),位置比較特殊,我們找這條直線的時(shí)候,一般就看聚集在一起的兩類數(shù)據(jù),他們各自的最邊緣位置的點(diǎn),也就是最靠近劃分直線的那幾個(gè)點(diǎn),而其他點(diǎn)對這條直線的最終位置的確定起不了作用,所以我姑且叫這些點(diǎn)叫“支持點(diǎn)”(即有用的點(diǎn)),但是在數(shù)學(xué)上,沒這種說法,數(shù)學(xué)里的點(diǎn),又可以叫向量,比如二維點(diǎn)(x,y)就是二維向量,三維度的就是三維向量(x,y,z)。所以“支持點(diǎn)”改叫“支持向量”。
支持向量機(jī)構(gòu)造一個(gè)超平面或者多個(gè)超平面,這些超平面可能是高維的,甚至可能是無限多維的。在分類任務(wù)中,它的原理是,將決策面(超平面)放置在這樣的一個(gè)位置,兩類中接近這個(gè)位置的點(diǎn)距離的都最遠(yuǎn)。我們來考慮兩類線性可分問題,如果要在兩個(gè)類之間畫一條線,那么按照支持向量機(jī)的原理,我們會(huì)先找兩類之間最大的空白間隔,然后在空白間隔的中點(diǎn)畫一條線,這條線平行于空白間隔。通過核函數(shù),可以使得支持向量機(jī)對非線性可分的任務(wù)進(jìn)行分類。一個(gè)極好的指南是C.J.C Burges的《模式識(shí)別支持向量機(jī)指南》。
三、關(guān)于SVM的基本問題(過學(xué)習(xí),欠學(xué)習(xí),推廣性,學(xué)習(xí)精度)
統(tǒng)計(jì)學(xué)習(xí)原理(STL)通過結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則(SRM)來解釋機(jī)器學(xué)習(xí)
期望風(fēng)險(xiǎn) = 經(jīng)驗(yàn)風(fēng)險(xiǎn) + 置信范圍
經(jīng)驗(yàn)風(fēng)險(xiǎn)也就是對樣本的分類精度,置信范圍由學(xué)習(xí)機(jī)器的復(fù)雜度(VC維)決定。
過學(xué)習(xí)(overfitting),也叫過擬和
由于學(xué)習(xí)機(jī)器過于復(fù)雜,盡管保證了分類精度很高(經(jīng)驗(yàn)風(fēng)險(xiǎn)很小),但由于VC維太大,所以期望風(fēng)險(xiǎn)仍然很高。
典型的過學(xué)習(xí)是多層前向網(wǎng)絡(luò)的BP算法
欠學(xué)習(xí)(underfitting),也叫欠擬和
這類情況很多,由于學(xué)習(xí)機(jī)器過于簡單,分類能力不夠,造成對樣本無法正確分類。此時(shí)經(jīng)驗(yàn)風(fēng)險(xiǎn)較高,而VC維較小
推廣性,準(zhǔn)確的說法叫做學(xué)習(xí)機(jī)器的泛化能力(Generalization)
結(jié)構(gòu)風(fēng)險(xiǎn)較小的學(xué)習(xí)機(jī)器,能適應(yīng)更多類別的樣本分類,泛化性就較高。
學(xué)習(xí)精度,一般沒有這類說法,從字面理解大概是指經(jīng)驗(yàn)風(fēng)險(xiǎn),也就是學(xué)習(xí)機(jī)器對樣本的分類能力。
如還有不懂的可以給我發(fā)信息。
你運(yùn)氣好,今天我恰好上網(wǎng),搞SVM的人少得可憐
四、機(jī)器學(xué)習(xí)和統(tǒng)計(jì)里面的auc怎么理解
很多,主要說下監(jiān)督學(xué)習(xí)這塊的算法哈。歡迎討論。svm,支撐向量機(jī),通過找到樣本空間中的一個(gè)超平面,實(shí)現(xiàn)樣本的分類,也可以作回歸,主要用在文本分類,圖像識(shí)別等領(lǐng)域,詳見:;lr,邏輯回歸,本質(zhì)也是線性回歸,通過擬合擬合樣本的某個(gè)曲線,然后使用邏輯函數(shù)進(jìn)行區(qū)間縮放,但是一般用來分類,主要用在ctr預(yù)估、等;nn,神經(jīng)網(wǎng)絡(luò),通過找到某種非線性模型擬合數(shù)據(jù),主要用在圖像等;nb,樸素貝葉斯,通過找到樣本所屬于的聯(lián)合分步,然后通過貝葉斯公式,計(jì)算樣本的后驗(yàn)概率,從而進(jìn)行分類,主要用來文本分類;dt,決策樹,構(gòu)建一棵樹,在節(jié)點(diǎn)按照某種規(guī)則(一般使用信息熵)來進(jìn)行樣本劃分,實(shí)質(zhì)是在樣本空間進(jìn)行塊狀的劃分,主要用來分類,也有做回歸,但更多的是作為弱分類器,用在model embedding中;rf,隨進(jìn)森林,是由許多決策樹構(gòu)成的森林,每個(gè)森林中訓(xùn)練的樣本是從整體樣本中抽樣得到,每個(gè)節(jié)點(diǎn)需要進(jìn)行劃分的特征也是抽樣得到,這樣子就使得每棵樹都具有獨(dú)特領(lǐng)域的知識(shí),從而有更好的泛化能力;gbdt,梯度提升決策樹,實(shí)際上也是由多棵樹構(gòu)成,和rf不同的是,每棵樹訓(xùn)練樣本是上一棵樹的殘差,這體現(xiàn)了梯度的思想,同時(shí)最后的結(jié)構(gòu)是用這所有的樹進(jìn)行組合或者投票得出,主要用在、相關(guān)性等;knn,k最近鄰,應(yīng)該是最簡單的ml方法了,對于未知標(biāo)簽的樣本,看與它最近的k個(gè)樣本(使用某種距離公式,馬氏距離或者歐式距離)中哪種標(biāo)簽最多,它就屬于這類;
五、機(jī)器學(xué)習(xí)有很多關(guān)于核函數(shù)的說法,什么是核函數(shù)?核函數(shù)的作用是什么
只了解一些SVM中的核函數(shù),歡迎交流
SVM本身是線性分類器,使用了核函數(shù)后,相當(dāng)于把原來的數(shù)據(jù),映射到一個(gè)高維空間(在相對低維度的空間中難分類的樣本,很可能在映射到高維空間后用線性分類器就可以分開)。
而在SVM中使用核函數(shù),我理解是替換了SVM中衡量內(nèi)積的方式 (x * z)為K(x,z),以此來達(dá)到映射的目的的。
六、求概率的一種方法
C右上角的數(shù)字,如3則3*2*1=6,右下角數(shù)字大于等于3,方法同上,如5,則5*4*3=60,然后60/6=10