一、為何隨機森林的機器學習統計模型預測法官投票準確率勝過專家?
因為隨機森林的機器學習統計模型進行了大量的數據分析,該模型先學習了1816年到2015年最高法院案例特征與裁決結果之間的關聯,然后按年份研究每個案例的特征并預測裁決結果,最后被“投喂”關于該年份裁決結果實際信息的算法升級了預測策略,并繼續進行下一年的預測。
用計算機算法預測法官行為并不稀奇。2011年,西班牙學者在一項研究中,使用1953年到2004年任意8名法官的投票,來預測同一案件中第9名法官的投票,準確率為83%;2004年,美國學者使用1994年以來一直在法院工作的9名法官的判決,來預測2002年案件的判決結果,準確率為75%。
而伊利諾伊大學理工學院法學教授丹尼爾·卡茨的團隊利用最高法院數據庫,為每個投票標注了16個特征,包括法官任期、訴訟發起法庭、口頭辯論是否被聽到等,創建了最先進的算法。對1816年到2015年美國最高法院的判決進行預測,準確率高于70%,較知識淵博的法律專家(預測準確率為66%)更勝一籌。結果顯示,對于28000項判決結果及24萬張法官投票,新模型算法預測的正確率分別為70.2%和71.9%。相關研究文章發表在《公共科學圖書館·綜合》(PLOS ONE)上。
二、機器學習 模型 怎么確定參數的
那個不叫 區分模型 一般要叫判別模型
簡單說判別模型會描述從觀察到的現象會得到怎樣的結論 比如可以是類別等
生成模型會描述觀察到的現象是通過一種怎樣的數學結構產生的
三、在機器學習中,線性模型是很高效的,但是我不明白具體高效在什么地方?
線性模型參數少啊,這是他最大的優點。參數多了就容易過擬合,這是機器學習最大的問題之一。
奧卡姆剃刀原理告訴我們:滿足性能的條件下,模型越簡單越好。
一般調參都是先讓模型得出較好的性能,然后再逐步降低模型復雜度。