跳到主要內容區

第十六期-2020.03出刊-洪章瑋

系友專欄——洪章瑋

(將於2020 Fall前往美國麻省理工學院攻讀Artificial Intelligence Ph.D.)

【採訪及撰文/鄭安傑楊天琪、景璞】

章瑋學長從高中的時候就很喜歡寫程式,並且以資工系為目標。雖然學測時不如意考上了中正資管,但是大二透過轉學考進入清大就讀資工系。進入大三之後,學長參加了Nvidia舉辦的機器人設計競賽,除了獲得佳績之外也因此認識了系上的李濬屹老師。之後因為學長想繼續深入研究,所以就加入了李濬屹老師的實驗室研究機器人相關領域。

學長在大四的時候開始接觸深度強化學習 Reinforcement Learning)。深度強化學習最經典的實驗平台是 Atari 遊戲。在著名的深度Q網路 Deep Q-Networks 論文中,如果將Q學習、神經網路 Neural Network)結合,就可以讓深度 Q 網路在一些 Atari 遊戲中達到相同、甚至超越人類技術的水平。提到深度Q網路,學長眼神發亮的表示,自己深深的被RL中的Atari 遊戲的復古情懷所吸引,連寫paper的時候也感到相當亢奮。

學長在考慮研究所時,面臨了選擇實驗室及領域的問題,中間曾一度覺得台灣的研究環境領域相對單調、整體多元性比較不夠,和自己原本想像中的不同,因此感到有些茫然。學長表示,當時申請上清大的碩士班後,有幸遇到李濬屹老師,濬屹老師對於碩士生的研究發展,給予很大的自由度和發展空間,因此學長毅然決然地加入李濬屹老師實驗室,成為研究生。

學長目前的研究方向,著重於如何將人類心智的發展過程對應到人工智慧的發展上。由於目前大部分的人工智慧,在學長看來比較侷限,通常都需要有預先既有的領域知識 Domain Knowledge),再透過這些領域知識來指引特定情境下的單一應用任務,進而轉化出最後所需要的機器學習模型。學長覺得一個比較全方位的人工智慧,應該像大部分生物一樣,是透過和環境的互動來達到階段性的成長。這也是學長對強化學習有興趣的原因之一,因為強化學習可以看作是從目前的環境來決定最佳的行為,是一種互動式(Interactive)的學習過程。然而目前的強化學習仍然有許多設計和優化的技巧仍然是透過人為的設計產生,例如強化學習中的獎勵(Reward)其實在現實世界中的許多環境,也沒辦法真的將每一步(Step)的獎勵去定義出來。學長不久前的研究方向,是透過模仿人類好奇心(Curiosity)的機制,將對環境的理解程度作為機器人的獎勵,進而驅動機器人去探索環境中不熟悉的部分,達到更有效率的學習。提到強化學習未來的發展,學長表示其實強化學習不是只會玩遊戲,早在20082009年時就被應用在Real Robot上,相信未來也將持續有所突破。

談到錄取MIT,學長笑著說「是一場樂透」,謙虛的認為自己只是運氣好。學長也提及自己的申請案例其實非常勵志,因為自己英文的考試成績都沒有達到外面俗稱的「隱形門檻」-- GRE320, TOEFL100,但是還是順利錄取美國頂尖名校。學長鼓勵也要申請國外博士班的學弟妹,雖然英文考試成績很重要,但考低也不用太氣餒,重點是要對自己的研究有熱忱。學長也建議學弟妹,可以多多訓練自己想題目的能力,對於未來申請也會很有幫助。而在多篇頂尖會議論文成果的背後,往往有許多看不見的壓力。我們向學長詢問壓力的排解方式,學長類似於運動中的力量型選手,每次截稿日一過,就會上遊戲平台Steam把還沒破的遊戲都破一破,到了下一個截稿日要到前再用爆發力,全力以赴衝刺。這個也可以看做是一種時間規劃的方式,不管是放鬆還是工作都全力以赴,不留遺憾。

李濬屹教授與洪章瑋學長

 

 

瀏覽數: