李宏毅機(jī)器學(xué)習(xí)2016 第十三講 非線(xiàn)性降維:流型學(xué)習(xí)(Mainfold Learning)
流型學(xué)習(xí)是將高維數(shù)據(jù)映射到低維空間,同時(shí)保持?jǐn)?shù)據(jù)本質(zhì)特征的非線(xiàn)性降維方法。以下是關(guān)于流型學(xué)習(xí)中幾種主要方法的詳細(xì)解答:
局部線(xiàn)性嵌入:
核心思想:認(rèn)為每個(gè)數(shù)據(jù)點(diǎn)可以由其近鄰的幾個(gè)點(diǎn)線(xiàn)性重構(gòu)。
目標(biāo):在降低維度的同時(shí)保持這種重構(gòu)關(guān)系和系數(shù)不變。
實(shí)現(xiàn)方法:通過(guò)最小化目標(biāo)函數(shù)來(lái)找到降維后的表達(dá)。
拉普拉斯特征映射:
核心思想:旨在保持?jǐn)?shù)據(jù)點(diǎn)間的相似度距離。
目標(biāo):使得原空間中距離較遠(yuǎn)的點(diǎn),在投影后依然相距較遠(yuǎn);反之,原空間中距離較近的點(diǎn),在投影后也相距較近。
實(shí)現(xiàn)基礎(chǔ):基于平滑性假設(shè)和圖方法設(shè)計(jì)而成。
tSNE:
核心思想:強(qiáng)調(diào)不同點(diǎn)應(yīng)盡可能分開(kāi),而不僅僅是相似點(diǎn)接近。
實(shí)現(xiàn)方法:通過(guò)梯度下降方法求解降維后的數(shù)據(jù)表達(dá)z。
應(yīng)用場(chǎng)景:對(duì)可視化非常有用,通常先使用PCA進(jìn)行初步降維,再應(yīng)用tSNE進(jìn)行進(jìn)一步降維和可視化。
總結(jié):流型學(xué)習(xí)包括LLE、LE、tSNE等非線(xiàn)性降維方法,這些方法通過(guò)不同的策略來(lái)保持?jǐn)?shù)據(jù)的內(nèi)在結(jié)構(gòu),特別適用于復(fù)雜高維數(shù)據(jù)的降維處理,尤其是當(dāng)存在可視化需求時(shí)。
李宏毅2022機(jī)器學(xué)習(xí)HW1——Regression
李宏毅2022機(jī)器學(xué)習(xí)HW1——Regression的解答要點(diǎn)如下:
基本解決方式:
Regression問(wèn)題的基本解決方式是直接運(yùn)行簡(jiǎn)單的代碼,這通常涉及到使用某種回歸模型對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行擬合,并評(píng)估其在測(cè)試數(shù)據(jù)上的表現(xiàn)。
Medium級(jí)別重點(diǎn):
在Medium級(jí)別中,重點(diǎn)在于特征選擇。由于訓(xùn)練數(shù)據(jù)包含大量的特征,合理的特征選擇對(duì)于提高模型性能至關(guān)重要。
訓(xùn)練數(shù)據(jù)有2699個(gè)樣本,測(cè)試數(shù)據(jù)有1078個(gè)樣本。測(cè)試數(shù)據(jù)不含最后一天的positive rate,這是需要預(yù)測(cè)的目標(biāo)。
特征選擇實(shí)踐:
原始特征中,選取了前四天的tested_positive列用于預(yù)測(cè)第五天的positive rate。
修改了select_feat函數(shù),并調(diào)整了config以啟用選擇所有特征的功能。但在實(shí)際操作中,為了優(yōu)化模型性能,選擇了scores_值大于10000的24個(gè)特征。
網(wǎng)絡(luò)結(jié)構(gòu)和優(yōu)化器調(diào)整:
在Medium baseline的基礎(chǔ)上,通過(guò)特征選擇修改了網(wǎng)絡(luò)結(jié)構(gòu)。
選擇Adam作為優(yōu)化器,并將學(xué)習(xí)率擴(kuò)大十倍。這表明對(duì)于該問(wèn)題,較大的學(xué)習(xí)率有助于模型更快地收斂到最優(yōu)解。
學(xué)習(xí)率更新策略:
在訓(xùn)練過(guò)程中添加了scheduler.step以調(diào)整學(xué)習(xí)率。這是一種常見(jiàn)的學(xué)習(xí)率衰減策略,有助于模型在訓(xùn)練后期更精細(xì)地調(diào)整權(quán)重。
綜上所述,李宏毅2022機(jī)器學(xué)習(xí)HW1——Regression的解答要點(diǎn)包括基本解決方式的說(shuō)明、Medium級(jí)別的重點(diǎn)、特征選擇實(shí)踐、網(wǎng)絡(luò)結(jié)構(gòu)和優(yōu)化器的調(diào)整以及學(xué)習(xí)率更新策略的應(yīng)用。這些步驟共同構(gòu)成了解決該Regression問(wèn)題的完整流程。