科學計算與企業級應用的並行優化 pdf epub mobi txt 電子書下載2025

簡體網頁||繁體網頁

☆☆☆☆☆

出版者:機械工業齣版社

作者:劉文誌

出品人:

頁數:190页

译者:

出版時間:2015-7-1

價格:0

裝幀:

isbn號碼:9787111506287

叢書系列:高性能計算技術叢書

圖書標籤:

並行編程
CUDA
計算科學
計算機
異構計算
並行
高性能
科學計算
科學計算
並行計算
企業應用
優化算法
高性能計算
分布式係統
數值計算
計算優化
工程應用
雲計算

下載連結在頁面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 複製連結

想要找書就要到小美書屋

book.quotespace.org

立刻按 ctrl+D收藏本頁

你會得到大驚喜!!

具體描述

本書係統、深入講解瞭科學計算及企業級應用的並行優化方法與最佳實踐。第1章介紹瞭常見的並行編程基於的多核/眾核嚮量處理器架構。第2章介紹瞭如何在X86、ARM和GPU上優化常見的綫性代數運算。第3章介紹瞭如何在X86和GPU處理器上優化偏微分方程的求解。第4章介紹瞭如何在X86處理器和GPU上優化常見的分子動力學算法。第5章詳細介紹瞭如何在X86、ARM和GPU上優化常見的機器學習算法。

著者簡介

圖書目錄

目錄
序
前言
第1章多核嚮量處理器架構 1
1.1 眾核係統結構 2
1.2 眾核架構的一緻性 3
1.3 多核嚮量處理器架構 5
1.3.1 Intel Haswell CPU架構 6
1.3.2 ARM A15多核嚮量處理器架構 10
1.3.3 AMD GCN GPU架構 12
1.3.4 NVIDIA Kepler和Maxwell GPU架構 15
1.4 Intel MIC架構 21
1.4.1 整體架構 22
1.4.2 計算單元 22
1.4.3 存儲器單元 24
1.4.4 MIC架構上一些容易成為瓶頸的設計 25
1.5 OpenCL程序在多核嚮量處理器上的映射 26
1.5.1 OpenCL程序在多核嚮量CPU上的映射 26
1.5.2 OpenCL程序在NVIDIA GPU上的映射 28
1.5.3 OpenCL程序在AMD GCN上的映射 34
1.6 OpenCL程序在各眾核硬件上執行的區彆 39
1.7 眾核編程模式 42
1.8 眾核性能優化 42
1.9 MIC和GPU編程比較 43
1.10 本章小結 43
第2章常見綫性代數算法優化 44
2.1 稀疏矩陣與嚮量乘法 44
2.1.1 稀疏矩陣的存儲格式 45
2.1.2 CSR 格式稀疏矩陣與嚮量乘法 46
2.1.3 ELL格式稀疏矩陣與嚮量乘 56
2.2 對稱矩陣與嚮量乘積 58
2.2.1 串行代碼 59
2.2.2 嚮量化對稱矩陣與嚮量乘積 60
2.2.3 OpenMP 並行化 60
2.2.4 CUDA 代碼 60
2.3 三角綫性方程組的解法 63
2.3.1 串行算法 64
2.3.2 串行算法優化 65
2.3.3 AVX 優化實現 65
2.3.4 NEON 優化實現 66
2.3.5 如何提高並行度 67
2.3.6 CUDA 算法實現 68
2.4 矩陣乘法 71
2.4.1 AVX指令計算矩陣乘法 72
2.4.2 NEON指令計算矩陣乘法 75
2.4.3 GPU計算矩陣乘法 77
2.5 本章小結 81
第3章優化偏微分方程的數值解法 82
3.1 熱傳遞問題 83
3.1.1 C代碼及性能 84
3.1.2 OpenMP代碼及性能 85
3.1.3 OpenACC代碼及性能 87
3.1.4 CUDA代碼 88
3.2 簡單三維Stencil 91
3.2.1 串行實現 92
3.2.2 Stencil在X86處理器上實現的睏境 93
3.2.3 CUDA實現 93
3.3 本章小結 96
第4章優化分子動力學算法 97
4.1 簡單搜索的實現 98
4.1.1 串行代碼 99
4.1.2 嚮量化實現分析 100
4.1.3 OpenMP實現 101
4.1.4 CUDA實現 102
4.2 範德華力計算 104
4.2.1 串行實現 104
4.2.2 嚮量化實現分析 105
4.2.3 OpenMP實現 106
4.2.4 CUDA實現 106
4.2.5 如何提高緩存的利用 108
4.3 鍵長伸縮力計算 108
4.3.1 串行實現 109
4.3.2 嚮量化實現 111
4.3.3 OpenMP實現 111
4.3.4 CUDA實現 114
4.4 徑嚮分布函數計算 116
4.4.1 串行實現 117
4.4.2 嚮量化實現 118
4.4.3 OpenMP實現 118
4.4.4 CUDA實現 121
4.5 本章小結 126
第5章機器學習算法 127
5.1 k—means算法 128
5.1.1 計算流程 128
5.1.2 計算元素所屬分類 129
5.1.3 更新分類中心 136
5.1.4 入口函數 140
5.2 KNN算法 142
5.2.1 計算步驟 142
5.2.2 相似度計算 143
5.2.3 求前k個相似度最大元素 144
5.2.4 統計所屬分類 145
5.3 二維捲積 146
5.3.1 X86實現 147
5.3.2 ARM實現 152
5.3.3 CUDA實現 155
5.4 四維捲積 162
5.4.1 X86實現 163
5.4.2 ARM 實現 169
5.4.3 CUDA實現 172
5.5 多GPU並行優化深度學習軟件Caffe 176
5.5.1 為什麼要使用多GPU並行Caffe 177
5.5.2 AlexNet示例 177
5.5.3 Caffe的主要計算流程 180
5.5.4 多GPU並行捲積神經網絡的方式 185
5.5.5 多GPU並行Caffe實踐 187
5.6 本章小結 190
· · · · · · (收起)