課程編碼 Course Code | 中文課程名稱 Course Name (Chinese) | 英文課程名稱 Course Name (English) | 總學分數 Credits | 總時數 Hours |
---|---|---|---|---|
3604166 | 深度強化學習 | Deep Reinforcement Learning | 3.0 | 3 |
中文概述 Chinese Description | 課程主要為介紹深度強化學習的理論基礎,了解AlphaGo背後的原理,和目前學術界最新的研究成果。並教導學員使用最新的Python深度學習套件來訓練機器自主學習。課程內容包括: 1.強化學習簡介 2.有限馬可夫決策過程 3.蒙地卡羅法 4.時序差分學習 5.Deep Q-Networks (DQN) 6.OpenAI Gym 7.Actor-Critic方法 (A3C & A2C) 8.信賴區域(Trust Regions) – TRPO, PPO與ACKTR | |||
英文概述 English Description | 課程主要為介紹深度強化學習的理論基礎,了解AlphaGo背後的原理,和目前學術界最新的研究成果。並教導學員使用最新的Python深度學習套件來訓練機器自主學習。課程內容包括: 1.強化學習簡介 2.有限馬可夫決策過程 3.蒙地卡羅法 4.時序差分學習 5.Deep Q-Networks (DQN) 6.OpenAI Gym 7.Actor-Critic方法 (A3C & A2C) 8.信賴區域(Trust Regions) – TRPO, PPO與ACKTR |
備註: