強(qiáng)化學(xué)習(xí)與機(jī)器學(xué)習(xí)模型的最大不同在于,強(qiáng)化學(xué)習(xí)是一種通過與環(huán)境交互來學(xué)習(xí)最優(yōu)行為策略的方法,其目標(biāo)是使智能體在不斷嘗試中獲得最大的獎(jiǎng)勵(lì)。
而機(jī)器學(xué)習(xí)模型則是從已有的數(shù)據(jù)中學(xué)習(xí)規(guī)律,根據(jù)輸入數(shù)據(jù)預(yù)測(cè)輸出結(jié)果,沒有與環(huán)境的交互。
強(qiáng)化學(xué)習(xí)需要智能體不斷地與環(huán)境交互,通過試錯(cuò)來學(xué)習(xí)最優(yōu)策略,而機(jī)器學(xué)習(xí)模型則是通過數(shù)據(jù)訓(xùn)練來學(xué)習(xí)規(guī)律,預(yù)測(cè)輸出。