強化學習:原理與Python實現

強化學習:原理與Python實現 pdf epub mobi txt 電子書 下載2025

出版者:機械工業齣版社
作者:肖智清
出品人:
頁數:239
译者:
出版時間:2019-7-21
價格:89
裝幀:平裝
isbn號碼:9787111631774
叢書系列:智能係統與技術叢書
圖書標籤:
  • 強化學習
  • python
  • reinforcement
  • 機器學習
  • 計算機
  • 機器學習,TensorFlow,深度學習,強化學習
  • learning
  • 科技
  • 強化學習
  • 機器學習
  • Python
  • 深度學習
  • 人工智能
  • 算法
  • 編程
  • 實例
  • 應用
  • 實踐
想要找書就要到 小美書屋
立刻按 ctrl+D收藏本頁
你會得到大驚喜!!

具體描述

本書理論完備,涵蓋主流經典強化學習算法和深度強化學習算法;實戰性強,基於Python、Gym、TensorFlow 2、AlphaZero等構建,配套代碼與綜閤案例。全書共12章,主要內容如下。

第1章:介紹強化學習的基礎知識與強化學習環境庫Gym的使用,並給齣完整的編程實例。

第2~9章:介紹強化學習的理論知識。以Markov決策過程為基礎模型,覆蓋瞭所有主流強化學習理論和算法,包括資格跡等經典算法和深度確定性梯度策略等深度強化學習算法。所有章節都提供瞭與算法配套的Python程序,使讀者完全掌握強化學習算法的原理與應用。

第10~12章:介紹瞭多個熱門綜閤案例,包括電動遊戲、棋盤遊戲和自動駕駛。算法部分涵蓋瞭在《自然》《科學》等權威期刊上發錶的多個深度強化學習明星算法。

著者簡介

肖智清

強化學習一綫研發人員,清華大學工學博士,現就職於全球知名投資銀行。擅長概率統計和機器學習,近5年發錶SCI/EI論文十餘篇,是多個頂級期刊和會議審稿人。在國內外多項程序設計和數據科學競賽上獲得冠軍。

圖書目錄

前言
第1章 初識強化學習 1
1.1 強化學習及其關鍵元素 1
1.2 強化學習的應用 3
1.3 智能體/環境接口 4
1.4 強化學習的分類 6
1.4.1 按任務分類 6
1.4.2 按算法分類 7
1.5 如何學習強化學習 8
1.5.1 學習路綫 9
1.5.2 學習資源 9
1.6 案例:基於Gym庫的智能體/環境交互 9
1.6.1 安裝Gym庫 10
1.6.2 使用Gym庫 10
1.6.3 小車上山 12
1.7 本章小結 14
第2章 Markov決策過程 16
2.1 Markov決策過程模型 16
2.1.1 離散時間Markov決策過程 16
2.1.2 環境與動力 18
2.1.3 智能體與策略 19
2.1.4 奬勵、迴報與價值函數 19
2.2 Bellman期望方程 21
2.3 最優策略及其性質 25
2.3.1 最優策略與最優價值函數 25
2.3.2 Bellman最優方程 25
2.3.3 用Bellman最優方程求解最優策略 29
2.4 案例:懸崖尋路 31
2.4.1 實驗環境使用 31
2.4.2 求解Bellman期望方程 32
2.4.3 求解Bellman最優方程 33
2.5 本章小結 35
第3章 有模型數值迭代 37
3.1 度量空間與壓縮映射 37
3.1.1 度量空間及其完備性 37
3.1.2 壓縮映射與Bellman算子 38
3.1.3 Banach不動點定理 39
3.2 有模型策略迭代 40
3.2.1 策略評估 40
3.2.2 策略改進 42
3.2.3 策略迭代 44
3.3 有模型價值迭代 45
3.4 動態規劃 46
3.4.1 從動態規劃看迭代算法 46
3.4.2 異步動態規劃 47
3.5 案例:冰麵滑行 47
3.5.1 實驗環境使用 48
3.5.2 有模型策略迭代求解 49
3.5.3 有模型價值迭代求解 51
3.6 本章小結 52
第4章 迴閤更新價值迭代 54
4.1 同策迴閤更新 54
4.1.1 同策迴閤更新策略評估 54
4.1.2 帶起始探索的同策迴閤更新 58
4.1.3 基於柔性策略的同策迴閤更新 60
4.2 異策迴閤更新 62
4.2.1 重要性采樣 62
4.2.2 異策迴閤更新策略評估 64
4.2.3 異策迴閤更新最優策略求解 65
4.3 案例:21點遊戲 66
4.3.1 實驗環境使用 66
4.3.2 同策策略評估 67
4.3.3 同策最優策略求解 70
4.3.4 異策策略評估 72
4.3.5 異策最優策略求解 73
4.4 本章小結 74
第5章 時序差分價值迭代 76
5.1 同策時序差分更新 76
5.1.1 時序差分更新策略評估 78
5.1.2 SARSA算法 81
5.1.3 期望SARSA算法 83
5.2 異策時序差分更新 85
5.2.1 基於重要性采樣的異策算法 85
5.2.2 Q學習 86
5.2.3 雙重Q學習 87
5.3 資格跡 89
5.3.1 λ迴報 89
5.3.2 TD(λ) 90
5.4 案例:齣租車調度 92
5.4.1 實驗環境使用 93
5.4.2 同策時序差分學習調度 94
5.4.3 異策時序差分學習調度 97
5.4.4 資格跡學習調度 99
5.5 本章小結 100
第6章 函數近似方法 101
6.1 函數近似原理 101
6.1.1 隨機梯度下降 101
6.1.2 半梯度下降 103
6.1.3 帶資格跡的半梯度下降 105
6.2 綫性近似 107
6.2.1 精確查找錶與綫性近似的關係 107
6.2.2 綫性最小二乘策略評估 107
6.2.3 綫性最小二乘最優策略求解 109
6.3 函數近似的收斂性 109
6.4 深度Q學習 110
6.4.1 經驗迴放 111
6.4.2 帶目標網絡的深度Q學習 112
6.4.3 雙重深度Q網絡 114
6.4.4 對偶深度Q網絡 114
6.5 案例:小車上山 115
6.5.1 實驗環境使用 116
6.5.2 用綫性近似求解最優策略 117
6.5.3 用深度Q學習求解最優策略 120
6.6 本章小結 123
第7章 迴閤更新策略梯度方法 125
7.1 策略梯度算法的原理 125
7.1.1 函數近似與動作偏好 125
7.1.2 策略梯度定理 126
7.2 同策迴閤更新策略梯度算法 128
7.2.1 簡單的策略梯度算法 128
7.2.2 帶基綫的簡單策略梯度算法 129
7.3 異策迴閤更新策略梯度算法 131
7.4 策略梯度更新和極大似然估計的關係 132
7.5 案例:車杆平衡 132
7.5.1 同策策略梯度算法求解最優策略 133
7.5.2 異策策略梯度算法求解最優策略 135
7.6 本章小結 137
第8章 執行者/評論者方法 139
8.1 同策執行者/評論者算法 139
8.1.1 動作價值執行者/評論者算法 140
8.1.2 優勢執行者/評論者算法 141
8.1.3 帶資格跡的執行者/評論者算法 143
8.2 基於代理優勢的同策算法 143
8.2.1 代理優勢 144
8.2.2 鄰近策略優化 145
8.3 信任域算法 146
8.3.1 KL散度 146
8.3.2 信任域 147
8.3.3 自然策略梯度算法 148
8.3.4 信任域策略優化 151
8.3.5 Kronecker因子信任域執行者/評論者算法 152
8.4 重要性采樣異策執行者/評論者算法 153
8.4.1 基本的異策算法 154
8.4.2 帶經驗迴放的異策算法 154
8.5 柔性執行者/評論者算法 157
8.5.1 熵 157
8.5.2 奬勵工程和帶熵的奬勵 158
8.5.3 柔性執行者/評論者的網絡設計 159
8.6 案例:雙節倒立擺 161
8.6.1 同策執行者/評論者算法求解最優策略 162
8.6.2 異策執行者/評論者算法求解最優策略 168
8.7 本章小結 170
第9章 連續動作空間的確定性策略 172
9.1 同策確定性算法 172
9.1.1 策略梯度定理的確定性版本 172
9.1.2 基本的同策確定性執行者/評論者算法 174
9.2 異策確定性算法 176
9.2.1 基本的異策確定性執行者/評論者算法 177
9.2.2 深度確定性策略梯度算法 177
9.2.3 雙重延遲深度確定性策略梯度算法 178
9.3 案例:倒立擺的控製 180
9.3.1 用深度確定性策略梯度算法求解 181
9.3.2 用雙重延遲深度確定性算法求解 184
9.4 本章小結 187
第10章 綜閤案例:電動遊戲 188
10.1 Atari遊戲環境 188
10.1.1 Gym庫的完整安裝 188
10.1.2 遊戲環境使用 190
10.2 基於深度Q學習的遊戲AI 191
10.2.1 算法設計 192
10.2.2 智能體的實現 193
10.2.3 智能體的訓練和測試 197
10.3 本章小結 198
第11章 綜閤案例:棋盤遊戲 200
11.1 雙人確定性棋盤遊戲 200
11.1.1 五子棋和井字棋 200
11.1.2 黑白棋 201
11.1.3 圍棋 202
11.2 AlphaZero算法 203
11.2.1 迴閤更新樹搜索 203
11.2.2 深度殘差網絡 206
11.2.3 自我對弈 208
11.2.4 算法流程 210
11.3 棋盤遊戲環境boardgame2 210
11.3.1 為Gym庫擴展自定義環境 211
11.3.2 boardgame2設計 211
11.3.3 Gym環境接口的實現 214
11.3.4 樹搜索接口的實現 216
11.4 AlphaZero算法實現 218
11.4.1 智能體類的實現 218
11.4.2 自我對弈的實現 223
11.4.3 訓練智能體 224
11.5 本章小結 225
第12章 綜閤案例:自動駕駛 226
12.1 AirSim開發環境使用 226
12.1.1 安裝和運行AirSim 226
12.1.2 用Python訪問AirSim 228
12.2 基於強化學習的自動駕駛 229
12.2.1 為自動駕駛設計強化學習環境 230
12.2.2 智能體設計和實現 235
12.2.3 智能體的訓練和測試 237
12.3 本章小結 239
· · · · · · (收起)

讀後感

評分

之前了解深度强化学习算法比较多,而且主要是通过案例学习,这次通过这本书学习了理论知识,还了解在深度强化学习诞生前那些基础算法。原来很多深度强化学习算法比如DQN啥的只是在那些基础算法的基础上改进了一点点,并且很多深度强化学习算法的技巧实际上早就有非深度的版本,...

評分

評分

評分

用数学语言描述理论初衷不错,也没发现什么大错误,但是在讲解方面极其糟糕,很多地方为了讲解而讲解,有“为赋新词强说愁”之感,大概作者自己的理解都不到位。 算法实现我自己没跑不评价,选的例子大都比较简单,起不到太大的练习作用,建议再版里设置更多好题交给读者。 本...  

評分

之前了解深度强化学习算法比较多,而且主要是通过案例学习,这次通过这本书学习了理论知识,还了解在深度强化学习诞生前那些基础算法。原来很多深度强化学习算法比如DQN啥的只是在那些基础算法的基础上改进了一点点,并且很多深度强化学习算法的技巧实际上早就有非深度的版本,...

用戶評價

评分

強化學習的優勢就在於同一套參數能解決多個問題,所以掌握這門技術非常有必要。

评分

整體脈絡和Sutton那本書差不多,入門還是不錯的,就是第一版小的錯誤實在太多瞭。。。

评分

強化學習現在是必備知識瞭,要好好學習。

评分

有幸在華章電子書的鮮讀欄目接觸到這本《強化學習:原理與Python實現》。作者肖誌清博士現在在深度學習領域的一綫,比較擅長機器學習、概率統計、隨機過程等,還寫過一本《神經網絡與PyTorch實戰》。對強化學習領域也有比較好的認識。這些機器學習,強化學習的發展比較快,中文的參考資料越來越多,也希望越來越更加多,能讓這方麵的研究人員更快的入門。作為一個在強化學習領域探索的研究生,剛入門需要一本好書,深入淺齣的講解這些抽象的原理。這本書感覺挺適閤初學者閱讀。第一章是初識強化學習,裏麵講解瞭強化學習的大量背景信息,介紹瞭這些算法的分類,而各種算法也是特彆讓初學者迷惑的東西,介紹瞭Python和Gym庫的應用。第二章講的是馬爾科夫決策過程,而馬爾科夫這個數學框架是強化學習的重要組成部分,作者用淺顯易懂的話介紹瞭這些內容,解

评分

據說這本書是世界上第一本配套tf2的強化學習算法書,竟然是中國人齣的中文書,必須支持。

本站所有內容均為互聯網搜索引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度google,bing,sogou

© 2025 book.quotespace.org All Rights Reserved. 小美書屋 版权所有