第1章 引言 1
1.1 gpu與並行計算機 2
1.2 現代gpu的體係結構 7
1.3 為什麼需要更高的速度和並行化 8
1.4 並行編程語言與模型 11
1.5 綜閤目標 12
1.6 本書的組織結構 13
第2章 gpu計算的發展曆程 17
2.1 圖形流水綫的發展 18
2.1.1 固定功能的圖形流水綫時代 18
2.1.2 可編程實時圖形流水綫的發展 21
2.1.3 圖形與計算結閤的處理器 23
2.1.4 gpu:一個中間步驟 25
2.2 gpu計算 26
2.2.1 可擴展的gpu 27
2.2.2 發展近況 27
2.3 未來發展趨勢 28
第3章 cuda簡介 31
3.1 數據並行性 32
3.2 cuda的程序結構 33
.3.3 矩陣乘法示例 34
3.4 設備存儲器與數據傳輸 37
3.5 kernel函數與綫程 41
3.6 小結 45
3.6.1 函數聲明 45
3.6.2 啓動kernel函數 46
3.6.3 預定義變量 46
3.6.4 運行時api 46
第4章 cuda綫程 49
4.1 cuda綫程組織結構 50
4.2 使用blockidx和threadidx 54
4.3 同步與透明可擴展性 58
4.4 綫程分配 59
4.5 綫程調度和容許延時 60
4.6 小結 62
4.7 習題 63
第5章 cuda存儲器模型 65
5.1 存儲器訪問效率的重要性 66
5.2 cuda設備存儲器的類型 67
5.3 減少全局存儲器流量的策略 70
5.4 存儲器——限製並行性的一個因素 76
5.5 小結 77
5.6 習題 78
第6章 性能優化 79
6.1 更多關於綫程執行的問題 80
6.2 全局存儲器的帶寬 86
6.3 sm資源的動態劃分 93
6.4 數據預取 95
6.5 指令混閤 97
6.6 綫程粒度 98
6.7 可度量的性能和小結 99
6.8 習題 100
第7章 浮點運算 105
7.1 浮點格式 106
7.1.1 m的規範化錶示 106
7.1.2 e的餘碼錶示 107
7.2 能錶示的數 109
7.3 特殊的位模式與精度 113
7.4 算術運算的準確度和捨入 114
7.5 算法的優化 114
7.6 小結 115
7.7 習題 116
第8章 應用案例研究:高級mri重構 117
8.1 應用背景 118
8.2 迭代重構 120
8.3 計算fhd 123
8.4 最終評估 139
8.5 習題 142
第9章 應用案例研究:分子可視化和分析 143
9.1 應用背景 144
9.2 kernel函數簡單的實現方案 145
9.3 指令執行效率 149
9.4 存儲器閤並 151
9.5 附加性能比較 154
9.6 采用多gpu 156
9.7 習題 157
第10章 並行編程和計算思想 159
10.1 並行編程的目標 160
10.2 問題分解 161
10.3 算法選擇 163
10.4 計算思想 168
10.5 習題 169
第11章 opencl簡介 171
11.1 背景 172
11.2 數據並行性模型 173
11.3 設備的體係結構 175
11.4 kernel函數 176
11.5 設備管理和啓動kernel 177
11.6 opencl中的靜電勢圖譜 179
11.7 小結 183
11.8 習題 184
第12章 結論與展望 185
12.1 重申目標 186
12.2 存儲器體係結構的演變 187
12.2.1 大型虛擬和物理地址空間 187
12.2.2 統一的設備存儲空間 188
12.2.3 可配置的緩存和暫時存儲器 188
12.2.4 提高原子操作的速度 189
12.2.5 提高全局存儲器的訪問速度 189
12.3 kernel函數執行控製過程的演變 190
12.3.1 kernel函數內部的函數調用 190
12.3.2 kernel函數中的異常處理 190
12.3.3 多個kernel函數的同步執行 191
12.3.4 可中斷的kernel函數 191
12.4 內核的性能 191
12.4.1 雙精度的速度 191
12.4.2 提高控製流的效率 192
12.5 編程環境 192
12.6 美好前景 193
附錄a 矩陣乘法主機版的源代碼 195
附錄b gpu的計算能力 207
· · · · · · (
收起)
評分
☆☆☆☆☆
讀研的時候因為要做圖像的並行處理,通讀過這本書。怎麼說呢,書的作者之一是颱灣CUDA大牛,寫得必然不差,但相比於nvidia官方開發文檔並沒有什麼獨特之處,因此,這本書個人不推薦,還不如直接看官方文檔清晰明瞭。
評分
☆☆☆☆☆
此書讀起來感覺平平。不過coursera上有配套課程,這點挺好。
評分
☆☆☆☆☆
清晰
評分
☆☆☆☆☆
我的CUDA入門讀物
評分
☆☆☆☆☆
此書讀起來感覺平平。不過coursera上有配套課程,這點挺好。
評分
☆☆☆☆☆
CUDA生在NV,幼年长在UIUC,这本书的那个华人作者虽然说不是CUDA唯一的那个father,但也可以讲是one of 把CUDA养大的人。 你唯一可以诟病的是它没有手把手的教你写code,但那么做的书都真的太浅了。这本书可以说无遗漏的把基础都带了一遍而且很明白。至少在我个人眼里,这本书...
評分
☆☆☆☆☆
适合初中级读者。 比较喜欢书的整体结构和安排,比较注重并行处理思想的贯穿。 在每章节都有一些核心思想的深入,比如延迟隐藏技术,内存使用方面 有详细的讲解。 不足之处是设计内容比较广泛,因此基本每章的内存都是点到为止,没有具体的深入分析。 后面的几个实例还是...
評分
☆☆☆☆☆
适合初中级读者。 比较喜欢书的整体结构和安排,比较注重并行处理思想的贯穿。 在每章节都有一些核心思想的深入,比如延迟隐藏技术,内存使用方面 有详细的讲解。 不足之处是设计内容比较广泛,因此基本每章的内存都是点到为止,没有具体的深入分析。 后面的几个实例还是...
評分
☆☆☆☆☆
适合初中级读者。 比较喜欢书的整体结构和安排,比较注重并行处理思想的贯穿。 在每章节都有一些核心思想的深入,比如延迟隐藏技术,内存使用方面 有详细的讲解。 不足之处是设计内容比较广泛,因此基本每章的内存都是点到为止,没有具体的深入分析。 后面的几个实例还是...
評分
☆☆☆☆☆
这本书初看不知所云,感觉没什么实质性内容。 后来配上在coursera上的视频,发现书中的见解相当精辟、简洁。 里面对于线程的讲解还有一些并行计算的方式都谈得很到位,作者实属苦口婆心将其原理一一道来。 看书还是讲求一个思维角度的问题。角度不对,则完全不能理解其中深...