绿色福利精品导航,在线亚洲日韩资源,经典三级全部在线观看

來源:新三板在線

編者按：傳統的AI都是通過正反饋來引導，比如讓AI在游戲中得到更高的分數，再比如讓阿法狗贏下一盤圍棋。加州大學伯克利分校的專家研究出了一種不同的算法，讓好奇心來驅動AI。據稱，這種算法可以加快學習速度并提高算法的效率。New Scientist日前發表了題為“Curious AI learns by exploring game worlds and making mistakes”的文章，介紹了這一算法。

按下這個按鈕會發生什么？人類經常會有這樣的好奇心。而現在，具有好奇心的算法正在教會自己發現和解決他們從未遇到過的問題。

面對超級瑪麗的第一關，好奇心驅動的AI學會了如何探索地圖、避免掉進坑里、躲避和殺死敵人。這可能聽起來不是很令人印象深刻，因為在電子游戲方面，算法已經早就超過人類了。但是，這個AI的與眾不同之處在于，它的技能都是自己學習的，它出于自身的好奇心來更多地了解游戲世界。

常規AI算法通過正反饋來引導。他們獲得了某種外部目標的獎勵，比如在視頻游戲中提高一分。這鼓勵他們執行提高成績的動作（例如用馬里奧踩踏敵人），并阻止他們執行不增加分數的動作（例如陷入陷阱）。

這種稱為增強學習（reinforcement learning）的方法被用來創建AlphaGo。通過數千個真實和模擬的對弈，AlphaGo算法學會了追求勝利的策略。

但是，加州大學伯克利分校研究這個問題的Deepak Pathak說，現實世界并非事事都有回報。“相反，人類有一種天生的好奇心，可以幫助他們學習。”他說。這可能是為什么我們非常擅長掌握廣泛的技能，而不一定要去學習它們。

所以，Pathak開始給自己的增強學習算法一個“好奇心”，看看是否足以讓它學習一系列的技能。當它增加對環境的理解時，Pathak的算法就會獲得獎勵。所以，Pathak的算法并不是在游戲世界中尋找獎勵，而是因為探索世界和掌握技能而獲得獎勵。

Google的AI公司DeepMind的Max Jaderberg表示，這種方法可以加快學習速度并提高算法的效率。該公司去年使用了類似的技術來教AI來探索一個虛擬的迷宮。其算法比傳統的增強學習方法學得快得多。