強化學習實戰

強化學習實戰 pdf epub mobi txt 電子書 下載2025

出版者:電子工業齣版社
作者:笪慶
出品人:博文視點
頁數:232
译者:
出版時間:2018-10
價格:89
裝幀:平裝
isbn號碼:9787121338984
叢書系列:阿裏巴巴集團技術叢書
圖書標籤:
  • 強化學習
  • 計算機
  • 實踐
  • 強化學習
  • 機器學習
  • 深度學習
  • 人工智能
  • 算法
  • Python
  • 實戰
  • 智能體
  • 決策
  • 控製
想要找書就要到 小美書屋
立刻按 ctrl+D收藏本頁
你會得到大驚喜!!

具體描述

《強化學習實戰:強化學習在阿裏的技術演進和業務創新》匯集瞭阿裏巴巴一綫算法工程師在強化學習應用方麵的經驗和心得,覆蓋瞭阿裏巴巴集團多個事業部的多條業務綫。《強化學習實戰:強化學習在阿裏的技術演進和業務創新》係統地披露在互聯網級彆的應用上使用強化學習的技術細節,更包含瞭算法工程師對強化學習的深入理解、思考和創新。作為算法工程師,你將瞭解到強化學習在實際應用中的建模方法、常見的問題以及對應的解決思路,提高建模和解決業務問題的能力;對於強化學習方嚮的研究人員,你將瞭解到在遊戲之外更多實際的強化學習問題,以及對應的解決方案,擴寬研究視野;對於機器學習愛好者,你將瞭解到阿裏巴巴的一綫機器學習算法工程師是如何發現問題、定義問題和解決問題的,激發研究興趣以及提升專業素養。

《強化學習實戰:強化學習在阿裏的技術演進和業務創新》適閤算法工程師、強化學習方嚮的專業人員閱讀,也可供機器學習愛好者參考。

著者簡介

圖書目錄


第1 章 強化學習基礎 1
1.1 引言 2
1.2 起源和發展 3
1.3 問題建模 5
1.4 常見強化學習算法 8
1.4.1 基於值函數的方法 9
1.4.2 基於直接策略搜索的方法 12
1.5 總結 14
第2 章 基於強化學習的實時搜索排序策略調控 15
2.1 研究背景 16
2.2 問題建模 17
2.2.1 狀態定義 17
2.2.2 奬賞函數設計 18
2.3 算法設計 19
2.3.1 策略函數 19
2.3.2 策略梯度 20
2.3.3 值函數的學習 21
2.4 奬賞塑形 22
2.5 實驗效果 25
2.6 DDPG 與梯度融閤 27
2.7 總結與展望 28
第3 章 延遲奬賞在搜索排序場景中的作用分析 30
3.1 研究背景 31
3.2 搜索交互建模 31
3.3 數據統計分析 33
3.4 搜索排序問題形式化 36
3.4.1 搜索排序問題建模 36
3.4.2 搜索會話馬爾可夫決策過程 38
3.4.3 奬賞函數 39
3.5 理論分析 40
3.5.1 馬爾可夫性質 40
3.5.2 摺扣率 41
3.6 算法設計 44
3.7 實驗與分析 48
3.7.1 模擬實驗 48
3.7.2 搜索排序應用 51
第4 章 基於多智能體強化學習的多場景聯閤優化 54
4.1 研究背景 55
4.2 問題建模 57
4.2.1 相關背景簡介 57
4.2.2 建模方法 58
4.3 算法應用 65
4.3.1 搜索與電商平颱 65
4.3.2 多排序場景協同優化 66
4.4 實驗與分析 69
4.4.1 實驗設置 69
4.4.2 對比基準 70
4.4.3 實驗結果 70
4.4.4 在綫示例 73
4.5 總結與展望 75
第5 章 虛擬淘寶 76
5.1 研究背景 77
5.2 問題描述 79
5.3 虛擬化淘寶 80
5.3.1 用戶生成策略 81
5.3.2 用戶模仿策略 83
5.4 實驗與分析 85
5.4.1 實驗設置 85
5.4.2 虛擬淘寶與真實淘寶對比 85
5.4.3 虛擬淘寶中的強化學習 87
5.5 總結與展望 90
第6 章 組閤優化視角下基於強化學習的精準定嚮廣告OCPC 業務優化92
6.1 研究背景 93
6.2 問題建模 94
6.2.1 奬賞設計 94
6.2.2 動作定義 94
6.2.3 狀態定義 95
6.3 模型選擇 100
6.4 探索學習 102
6.5 業務實戰 103
6.5.1 係統設計 103
6.5.2 奬賞設計 105
6.5.3 實驗效果 106
6.6 總結與展望 106
第7 章 策略優化方法在搜索廣告排序和競價機製中的應用 108
7.1 研究背景 109
7.2 數學模型和優化方法 110
7.3 排序公式設計 112
7.4 係統簡介 113
7.4.1 離綫仿真模塊 114
7.4.2 離綫訓練初始化 114
7.5 在綫策略優化 117
7.6 實驗與分析 118
7.7 總結與展望 120
第8 章 TaskBot——阿裏小蜜的任務型問答技術 121
8.1 研究背景 122
8.2 模型設計 123
8.2.1 意圖網絡 123
8.2.2 信念跟蹤 124
8.2.3 策略網絡 124
8.3 業務應用 126
8.4 總結與展望 127
第9 章 DRL 導購——阿裏小蜜的多輪標簽推薦技術 128
9.1 研究背景 129
9.2 算法框架 130
9.3 深度強化學習模型 133
9.3.1 強化學習模塊 133
9.3.2 模型融閤 134
9.4 業務應用 135
9.5 總結與展望 136
第10 章 Robust DQN 在淘寶錦囊推薦係統中的應用 137
10.1 研究背景 138
10.2 Robust DQN 算法 140
10.2.1 分層采樣方法 140
10.2.2 基於分層采樣的經驗池 141
10.2.3 近似遺憾奬賞 142
10.2.4 Robust DQN 算法 143
10.3 Robust DQN 算法在淘寶錦囊上的應用 144
10.3.1 係統架構 144
10.3.2 問題建模 145
10.4 實驗與分析 147
10.4.1 實驗設置 148
10.4.2 實驗結果 148
10.5 總結與展望 152
第11 章 基於上下文因子選擇的商業搜索引擎性能優化 153
11.1 研究背景 154
11.2 排序因子和排序函數 156
11.3 相關工作 157
11.4 排序中基於上下文的因子選擇 158
11.5 RankCFS:一種強化學習方法 162
11.5.1 CFS 問題的 MDP 建模 162
11.5.2 狀態與奬賞的設計 163
11.5.3 策略的學習 165
11.6 實驗與分析 166
11.6.1 離綫對比 167
11.6.2 在綫運行環境的評價 170
11.6.3 雙11 評價 171
11.7 總結與展望 172
第12 章 基於深度強化學習求解一類新型三維裝箱問題 173
12.1 研究背景 174
12.2 問題建模 175
12.3 深度強化學習方法 177
12.3.1 網絡結構 178
12.3.2 基於策略的強化學習方法 179
12.3.3 基準值的更新 180
12.3.4 隨機采樣與集束搜索 180
12.4 實驗與分析 181
12.5 小結 182
第13 章 基於強化學習的分層流量調控 183
13.1 研究背景 184
13.2 基於動態動作區間的DDPG 算法 186
13.3 實驗效果 189
13.4 總結與展望 189
第14 章 風險商品流量調控 190
14.1 研究背景 191
14.2 基於強化學習的問題建模 192
14.2.1 狀態空間的定義 192
14.2.2 動作空間的定義 193
14.2.3 奬賞函數的定義 193
14.2.4 模型選擇 194
14.2.5 奬賞函數歸一化 196
14.3 流量調控係統架構 196
14.4 實驗效果 197
14.5 總結與展望 197
參考文獻 199
· · · · · · (收起)

讀後感

評分

評分

評分

評分

評分

用戶評價

评分

寒假讀的,當時的感覺像是阿裏和各傢研究機構閤作寫的項目總結報告,不知道RL到底真的有沒有落地。在一次學術Talk中,拿這本書問瞭廈門大學的紀嶸嶸教授這個問題,也沒有得齣什麼結論。RL是真大坑...

评分

寒假讀的,當時的感覺像是阿裏和各傢研究機構閤作寫的項目總結報告,不知道RL到底真的有沒有落地。在一次學術Talk中,拿這本書問瞭廈門大學的紀嶸嶸教授這個問題,也沒有得齣什麼結論。RL是真大坑...

评分

寒假讀的,當時的感覺像是阿裏和各傢研究機構閤作寫的項目總結報告,不知道RL到底真的有沒有落地。在一次學術Talk中,拿這本書問瞭廈門大學的紀嶸嶸教授這個問題,也沒有得齣什麼結論。RL是真大坑...

评分

寒假讀的,當時的感覺像是阿裏和各傢研究機構閤作寫的項目總結報告,不知道RL到底真的有沒有落地。在一次學術Talk中,拿這本書問瞭廈門大學的紀嶸嶸教授這個問題,也沒有得齣什麼結論。RL是真大坑...

评分

先打三星吧,團隊打算用RL算法優化我們的內容推薦,這本書讓我大概瞭解瞭阿裏的實踐,感謝。還是要說一下,此書不能算是一本係統且嚴謹介紹RL的書,隻能算是分享。

本站所有內容均為互聯網搜索引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度google,bing,sogou

© 2025 book.quotespace.org All Rights Reserved. 小美書屋 版权所有