深度強化學習
此條目需要擴充。 (2018年6月25日) |
深度強化學習(英語:Deep reinforcement learning,簡稱 Deep RL 或 DRL)是機器學習的一個子領域,結合了強化學習和深度學習。強化學習探討如何在嘗試錯誤的過程中讓智能代理人學習做更好的決策。深度強化學習採用了深度學習的方法,讓智能代理人可以直接基於非結構化資料來做決策,而不需要人為設計的狀態空間。深度強化學習演算法可以讀取非常大的輸入資料(像是電玩畫面上的每個像素),來判斷哪個動作可以達到最好的目標(像是最高的遊戲分數)。深度強化學習已經有了廣泛的應用,包括機械人學、電動遊戲、自然語言處理、電腦視覺、教育、交通運輸、金融、醫療衛生等等。[1]
概述
深度學習
深度學習是機器學習的一種,訓練人工神經網絡來將一組輸入轉換成一組特定的輸出。深度學習常常以監督式學習的形式,用帶有標籤的資料集來做訓練。深度學習的方法可以直接處理高維度、複雜的原始輸入資料,相較於之前的方法更不需要人為的特徵工程從輸入資料中提取特徵。因此,深度學習已經在電腦視覺、自然語言處理等領域上帶來突破性的進展。
強化學習
強化學習是讓智能代理人和環境互動,從中嘗試錯誤以學習做出更好的決策。這類的問題在數學上常常用馬可夫決策過程表示:在每個時間點,代理人處在環境的一個狀態 ,在代理人採取了一個動作 之後,會收到一個獎勵 ,並根據環境的狀態轉移函數 轉移到下一個狀態 。代理人的目標是學習一組策略 (也就是一組從當前的狀態到所要採取的動作之間的對應關係),使得獲得到的總獎勵最大。與最佳控制不同,強化學習的演算法只能透過抽樣的方式來探測狀態轉移函數 。
深度強化學習
在很多現實中的決策問題裏,馬可夫決策過程的狀態 的維度很高(例如:相機拍下的照片、機械人感測器的串流),限制了傳統強化學習方法的可行性。深度強化學習就是利用深度學習的技術來解決強化學習中的決策問題,訓練人工神經網絡來表示策略 ,並針對這樣的訓練場景開發特化的演算法。[2]
演算法
如今已經有不少深度強化學習演算法來訓練決策模型,不同的演算法之間各有優劣。粗略來說,深度強化學習演算法可以依照是否需要建立環境動態模型分為兩類:
- 模型基底深度強化學習演算法:建立類神經網絡模型來預測環境的獎勵函數 和狀態轉移函數 ,而這些類神經網絡模型可以用監督式學習的方法來訓練。在訓練好環境模型之後,可以用模型預測控制的方法來建立策略 。然而,因為環境模型不一定能完美地預測真實環境,代理人和環境互動的過程中常常需要重新規劃動作。另外,也可以用蒙地卡羅樹搜尋或交叉熵方法來依據訓練好的環境模型規劃動作。
- 無模型深度強化學習演算法:直接訓練類神經網絡模型來表示策略 。這裏的「無模型」指的是不建立環境模型,而非不建立任何機器學習模型。這樣的策略模型可以直接用策略梯度(policy gradient)[3]訓練,但是策略梯度的變異性太大,很難有效率地進行訓練。更進階的訓練方法嘗試解決這個穩定性的問題:可信區域策略最佳化(Trust Region Policy Optimization,TRPO)[4]、近端策略最佳化(Proximal Policy Optimization,PPO)[5]。另一系列的無模型深度強化學習演算法則是訓練類神經網絡模型來預測未來的獎勵總和 或 [6],這類演算法包括時序差分學習、深度Q學習、SARSA。如果動作空間是離散的,那麽策略 可以用枚舉所有的動作來找出 函數的最大值。如果動作空間是連續的,這樣的 函數無法直接建立策略 ,因此需要同時訓練一個策略模型[7][8][9],也就變成一種「演員-評論家」演算法。
應用
遊戲
機械人技術
- 機械人規劃
智能城市
- 室內定位[10]
- 智能運輸
參閱
參考文獻
- ^ Francois-Lavet, Vincent; Henderson, Peter; Islam, Riashat; Bellemare, Marc G.; Pineau, Joelle. An Introduction to Deep Reinforcement Learning. Foundations and Trends in Machine Learning. 2018, 11 (3–4): 219–354. Bibcode:2018arXiv181112560F. ISSN 1935-8237. S2CID 54434537. arXiv:1811.12560 . doi:10.1561/2200000071.
- ^ Mnih, Volodymyr; et al. Human-level control through deep reinforcement learning. Nature. 2015, 518 (7540): 529–533. Bibcode:2015Natur.518..529M. PMID 25719670. S2CID 205242740. doi:10.1038/nature14236.
- ^ Williams, Ronald J. Simple Statistical Gradient-Following Algorithms for Connectionist Reinforcement Learning. Machine Learning. 1992, 8 (3–4): 229–256. S2CID 2332513. doi:10.1007/BF00992696 .
- ^ Schulman, John; Levine, Sergey; Moritz, Philipp; Jordan, Michael; Abbeel, Pieter. Trust Region Policy Optimization. International Conference on Machine Learning (ICML). 2015 [2021-12-15]. arXiv:1502.05477 . (原始內容存檔於2022-01-02).
- ^ Schulman, John; Wolski, Filip; Dhariwal, Prafulla; Radford, Alec; Klimov, Oleg. Proximal Policy Optimization Algorithms. 2017 [2021-12-15]. arXiv:1707.06347 . (原始內容存檔於2022-01-02).
- ^ Mnih, Volodymyr; et al. Playing Atari with Deep Reinforcement Learning (PDF). NIPS Deep Learning Workshop 2013. December 2013 [2021-12-15]. (原始內容存檔 (PDF)於2014-09-12).
- ^ Lillicrap, Timothy; Hunt, Jonathan; Pritzel, Alexander; Heess, Nicolas; Erez, Tom; Tassa, Yuval; Silver, David; Wierstra, Daan. Continuous control with deep reinforcement learning. International Conference on Learning Representations (ICLR). 2016 [2021-12-15]. arXiv:1509.02971 . (原始內容存檔於2022-01-02).
- ^ Mnih, Volodymyr; Puigdomenech Badia, Adria; Mirzi, Mehdi; Graves, Alex; Harley, Tim; Lillicrap, Timothy; Silver, David; Kavukcuoglu, Koray. Asynchronous Methods for Deep Reinforcement Learning. International Conference on Machine Learning (ICML). 2016 [2021-12-15]. arXiv:1602.01783 . (原始內容存檔於2022-01-08).
- ^ Haarnoja, Tuomas; Zhou, Aurick; Levine, Sergey; Abbeel, Pieter. Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor. International Conference on Machine Learning (ICML). 2018 [2021-12-15]. arXiv:1801.01290 . (原始內容存檔於2022-01-02).
- ^ Mohammadi, Mehdi; Al-Fuqaha, Ala; Guizani, Mohsen; Oh, Jun-Seok. Semisupervised Deep Reinforcement Learning in Support of IoT and Smart City Services. IEEE Internet of Things Journal. 2018, 5 (2): 624–635 [2018-06-25]. doi:10.1109/JIOT.2017.2712560. (原始內容存檔於2019-06-01).