首先看什么是學習(learning)?一個成語就可概括:舉一反三。此處以高考為例,高考的題目在上考場前我們未必做過,但在高中三年我們做過很多很多題目,懂解題方法,因此考場上面對陌生問題也可以算出答案。機器學習的思路也類似:我們能不能利用一些訓練數據(已經做過的題),使機器能夠利用它們(解題方法)分析未知數據(高考的題目)?
最簡單也最普遍的一類機器學習算法就是分類(classification)。對于分類,輸入的訓練數據有特征(feature),有標簽(label)。所謂的學習,其本質就是找到特征和標簽間的關系(mapping)。這樣當有特征而無標簽的未知數據輸入時,我們就可以通過已有的關系得到未知數據標簽。
在上述的分類過程中,如果所有訓練數據都有標簽,則為有監督學習(supervised learning)。如果數據沒有標簽,顯然就是無監督學習(unsupervised learning)了,也即聚類(clustering)。