
編者按:傳統的AI都是通過正反饋來引導,比如讓AI在游戲中得到更高的分數,再比如讓阿法狗贏下一盤圍棋。加州大學伯克利分校的專家研究出了一種不同的算法,讓好奇心來驅動AI。據稱,這種算法可以加快學習速度并提高算法的效率。New Scientist日前發表了題為“Curious AI learns by exploring game worlds and making mistakes”的文章,介紹了這一算法。 按下這個按鈕會發生什么?人類經常會有這樣的好奇心。而現在,具有好奇心的算法正在教會自己發現和解決他們從未遇到過的問題。 面對超級瑪麗的第一關,好奇心驅動的AI學會了如何探索地圖、避免掉進坑里、躲避和殺死敵人。這可能聽起來不是很令人印象深刻,因為在電子游戲方面,算法已經早就超過人類了。但是,這個AI的與眾不同之處在于,它的技能都是自己學習的,它出于自身的好奇心來更多地了解游戲世界。 常規AI算法通過正反饋來引導。他們獲得了某種外部目標的獎勵,比如在視頻游戲中提高一分。這鼓勵他們執行提高成績的動作(例如用馬里奧踩踏敵人),并阻止他們執行不增加分數的動作(例如陷入陷阱)。 這種稱為增強學習(reinforcement learning)的方法被用來創建AlphaGo。通過數千個真實和模擬的對弈,AlphaGo算法學會了追求勝利的策略。 但是,加州大學伯克利分校研究這個問題的Deepak Pathak說,現實世界并非事事都有回報。“相反,人類有一種天生的好奇心,可以幫助他們學習。”他說。這可能是為什么我們非常擅長掌握廣泛的技能,而不一定要去學習它們。 所以,Pathak開始給自己的增強學習算法一個“好奇心”,看看是否足以讓它學習一系列的技能。當它增加對環境的理解時,Pathak的算法就會獲得獎勵。所以,Pathak的算法并不是在游戲世界中尋找獎勵,而是因為探索世界和掌握技能而獲得獎勵。 Google的AI公司DeepMind的Max Jaderberg表示,這種方法可以加快學習速度并提高算法的效率。該公司去年使用了類似的技術來教AI來探索一個虛擬的迷宮。其算法比傳統的增強學習方法學得快得多。 被好奇心所驅動,Pathak自己的AI學會了踩踏敵人、跳過坑,學會了探索遠處的房間,并在另一個與Doom類似的游戲中走迷宮。 但在超級瑪麗中,好奇心能讓 AI 做的也就到此為止了。平均而言,AI 僅探索了第一關的30%,因為它無法通過需要連續按15個按鈕的一系列坑。AI并不想跳坑而死,而是學會了度量自己的能力,適可而止。 Pathak現在正在研究機器人手臂是否可以通過好奇心來學習拿住新物體。他說:“你可以讓機器人進行意義的移動而不是隨機行動。” 他還計劃研究類似于Roomba真空吸塵器的家用機器人是否可以使用類似的算法。 但是,Jaderberg并不確定這種算法是否已準備好投入使用。他說,現在談論現實應用為時過早。快速學習者