如何解決機器學習中數據不平衡問題
首先,數據集不平衡會造成怎樣的問題呢。一般的學習器都有下面的兩個假設:一個是使得學習器的準確率最高,另外一個是學習器應該用在與訓練集有相同分布的測試集上。如果數據不平衡,那么學習器使得它的準確率最高肯定是更偏向于預測結果為比例更大的類別。比如說陽性的比例為1%,陰性的比例為99%,很明顯的是即使不學習,直接預測所有結果為陰性,這樣做的準確率也能夠達到99%,而如果建立學習器也很有可能沒有辦法達到99%。這就是數據比例不平衡所造成的問題。這樣建立的模型即使準確率再高,在實際應用的時候效果肯定不好,而且也不是我們想要的模型。
python機器學習訓練的數據存在mysql可以嗎
當然可以了, mysql是一種很常用的數據存儲的工具, 當你需要使用這些訓練數據時, 只需要通過python的mysql的包連接到數據庫, 執行查詢sql,將數據導入到python的變量就可以拿來用, 十分方便.如果不知道怎么用python讀寫mysql數據庫, 請追問.