科學計算與企業級應用的並行優化

科學計算與企業級應用的並行優化 pdf epub mobi txt 電子書 下載2025

出版者:機械工業齣版社
作者:劉文誌
出品人:
頁數:190页
译者:
出版時間:2015-7-1
價格:0
裝幀:
isbn號碼:9787111506287
叢書系列:高性能計算技術叢書
圖書標籤:
  • 並行編程
  • CUDA
  • 計算科學
  • 計算機
  • 異構計算
  • 並行
  • 高性能
  • 科學計算
  • 科學計算
  • 並行計算
  • 企業應用
  • 優化算法
  • 高性能計算
  • 分布式係統
  • 數值計算
  • 計算優化
  • 工程應用
  • 雲計算
想要找書就要到 小美書屋
立刻按 ctrl+D收藏本頁
你會得到大驚喜!!

具體描述

本書係統、深入講解瞭科學計算及企業級應用的並行優化方法與最佳實踐。第1章介紹瞭常見的並行編程基於的多核/眾核嚮量處理器架構。第2章介紹瞭如何在X86、ARM和GPU上優化常見的綫性代數運算。第3章介紹瞭如何在X86和GPU處理器上優化偏微分方程的求解。第4章介紹瞭如何在X86處理器和GPU上優化常見的分子動力學算法。第5章詳細介紹瞭如何在X86、ARM和GPU上優化常見的機器學習算法。

著者簡介

圖書目錄

目錄

前言
第1章 多核嚮量處理器架構 1
1.1 眾核係統結構 2
1.2 眾核架構的一緻性 3
1.3 多核嚮量處理器架構 5
1.3.1 Intel Haswell CPU架構 6
1.3.2 ARM A15多核嚮量處理器架構 10
1.3.3 AMD GCN GPU架構 12
1.3.4 NVIDIA Kepler和Maxwell GPU架構 15
1.4 Intel MIC架構 21
1.4.1 整體架構 22
1.4.2 計算單元 22
1.4.3 存儲器單元 24
1.4.4 MIC架構上一些容易成為瓶頸的設計 25
1.5 OpenCL程序在多核嚮量處理器上的映射 26
1.5.1 OpenCL程序在多核嚮量CPU上的映射 26
1.5.2 OpenCL程序在NVIDIA GPU上的映射 28
1.5.3 OpenCL程序在AMD GCN上的映射 34
1.6 OpenCL程序在各眾核硬件上執行的區彆 39
1.7 眾核編程模式 42
1.8 眾核性能優化 42
1.9 MIC和GPU編程比較 43
1.10 本章小結 43
第2章 常見綫性代數算法優化 44
2.1 稀疏矩陣與嚮量乘法 44
2.1.1 稀疏矩陣的存儲格式 45
2.1.2 CSR 格式稀疏矩陣與嚮量乘法 46
2.1.3 ELL格式稀疏矩陣與嚮量乘 56
2.2 對稱矩陣與嚮量乘積 58
2.2.1 串行代碼 59
2.2.2 嚮量化對稱矩陣與嚮量乘積 60
2.2.3 OpenMP 並行化 60
2.2.4 CUDA 代碼 60
2.3 三角綫性方程組的解法 63
2.3.1 串行算法 64
2.3.2 串行算法優化 65
2.3.3 AVX 優化實現 65
2.3.4 NEON 優化實現 66
2.3.5 如何提高並行度 67
2.3.6 CUDA 算法實現 68
2.4 矩陣乘法 71
2.4.1 AVX指令計算矩陣乘法 72
2.4.2 NEON指令計算矩陣乘法 75
2.4.3 GPU計算矩陣乘法 77
2.5 本章小結 81
第3章 優化偏微分方程的數值解法 82
3.1 熱傳遞問題 83
3.1.1 C代碼及性能 84
3.1.2 OpenMP代碼及性能 85
3.1.3 OpenACC代碼及性能 87
3.1.4 CUDA代碼 88
3.2 簡單三維Stencil 91
3.2.1 串行實現 92
3.2.2 Stencil在X86處理器上實現的睏境 93
3.2.3 CUDA實現 93
3.3 本章小結 96
第4章 優化分子動力學算法 97
4.1 簡單搜索的實現 98
4.1.1 串行代碼 99
4.1.2 嚮量化實現分析 100
4.1.3 OpenMP實現 101
4.1.4 CUDA實現 102
4.2 範德華力計算 104
4.2.1 串行實現 104
4.2.2 嚮量化實現分析 105
4.2.3 OpenMP實現 106
4.2.4 CUDA實現 106
4.2.5 如何提高緩存的利用 108
4.3 鍵長伸縮力計算 108
4.3.1 串行實現 109
4.3.2 嚮量化實現 111
4.3.3 OpenMP實現 111
4.3.4 CUDA實現 114
4.4 徑嚮分布函數計算 116
4.4.1 串行實現 117
4.4.2 嚮量化實現 118
4.4.3 OpenMP實現 118
4.4.4 CUDA實現 121
4.5 本章小結 126
第5章 機器學習算法 127
5.1 k—means算法 128
5.1.1 計算流程 128
5.1.2 計算元素所屬分類 129
5.1.3 更新分類中心 136
5.1.4 入口函數 140
5.2 KNN算法 142
5.2.1 計算步驟 142
5.2.2 相似度計算 143
5.2.3 求前k個相似度最大元素 144
5.2.4 統計所屬分類 145
5.3 二維捲積 146
5.3.1 X86實現 147
5.3.2 ARM實現 152
5.3.3 CUDA實現 155
5.4 四維捲積 162
5.4.1 X86實現 163
5.4.2 ARM 實現 169
5.4.3 CUDA實現 172
5.5 多GPU並行優化深度學習軟件Caffe 176
5.5.1 為什麼要使用多GPU並行Caffe 177
5.5.2 AlexNet示例 177
5.5.3 Caffe的主要計算流程 180
5.5.4 多GPU並行捲積神經網絡的方式 185
5.5.5 多GPU並行Caffe實踐 187
5.6 本章小結 190
· · · · · · (收起)

讀後感

評分

評分

評分

評分

評分

用戶評價

评分

講解分子動力學的部分需要重點關注!太精彩瞭。適閤優化。

评分

講解分子動力學的部分需要重點關注!太精彩瞭。適閤優化。

评分

講解分子動力學的部分需要重點關注!太精彩瞭。適閤優化。

评分

講解分子動力學的部分需要重點關注!太精彩瞭。適閤優化。

评分

講解分子動力學的部分需要重點關注!太精彩瞭。適閤優化。

本站所有內容均為互聯網搜索引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度google,bing,sogou

© 2025 book.quotespace.org All Rights Reserved. 小美書屋 版权所有