並行編程方法與優化實踐 pdf epub mobi txt 電子書下載2025

簡體網頁||繁體網頁

☆☆☆☆☆

出版者:機械工業齣版社

作者:劉文誌

出品人:

頁數:216

译者:

出版時間:2015-6-8

價格:0

裝幀:平裝

isbn號碼:9787111501947

叢書系列:高性能計算技術叢書

圖書標籤:

並行編程
計算機
編程
HPC
計算科學
2018.4
並行編程
多核處理器
性能優化
並發編程
OpenMP
MPI
CUDA
並行算法
程序優化
高性能計算

下載連結在頁面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 複製連結

想要找書就要到小美書屋

book.quotespace.org

立刻按 ctrl+D收藏本頁

你會得到大驚喜!!

具體描述

本書介紹瞭並行編程的方法和優化實踐，主要結閤X86SSE與AVX、ARMNeon、OpenMP、CUDA和OpenCL等講解瞭並行編程的技術、方法和*實踐。第1章講解X86SSE與AVX的矩陣實現；第2章講解如何利用ARMNeon進行編程；第3章介紹OpenMP並行程序設計；第4章講解基於GPU的CUDA和OpenCL程序設計；第5章講解OpenACC的應用；第6～8章講解綫性代數和圖形學在並行編程中的實踐與應用，並給齣大量示例。

著者簡介

圖書目錄

前言
第1章 X86 SSE/AVX指令集
1.1 SSE內置函數
1.1.1 算術運算
1.1.2 邏輯運算
1.1.3 比較
1.1.4 加載和存儲
1.2 AVX內置函數
1.2.1 算術運算
1.2.2 邏輯運算
1.2.3 比較
1.2.4 加載和存儲
1.3 優化實例及分析
1.3.1 如何測得CPU的浮點峰值性能
1.3.2 積分計算圓周率π
1.3.3 稀疏矩陣嚮量乘法
1.3.4 二維單通道圖像離散捲積
1.4 本章小結
第2章 ARM NEON SIMD 指令優化
2.1 NEON指令集綜述
2.2 ARM A15 處理器性能
2.3 NEON 支持的操作
2.3.1 基本算術運算
2.3.2 基本比較運算
2.3.3 基本數據類型轉換及捨入運算
2.3.4 基本位運算
2.3.5 基本邏輯運算
2.3.6 基本設置加載存儲操作
2.3.7 特殊操作
2.4 應用實例
2.4.1 彩色圖像轉灰度圖像
2.4.2 矩陣轉置
2.4.3 矩陣乘
2.5 本章小結
第3章 OpenMP程序設計
3.1 OpenMP編程模型
3.1.1 OpenMP執行模型
3.1.2 OpenMP存儲器模型
3.2 環境變量
3.3 函數
3.3.1 普通函數
3.3.2 鎖函數
3.4 OpenMP編譯製導語句
3.4.1 常用的OpenMP構造
3.4.2 常用的OpenMP子句
3.5 OpenMP異構並行計算
3.6 OpenMP程序優化
3.6.1 OpenMP程序優化準則
3.6.2 OpenMP並行優化實例
3.7 本章小結
第4章基於GPU的異構並行計算環境：CUDA與OpenCL
4.1 GPU計算概述
4.1.1 GPU計算曆史
4.1.2 CUDA概述
4.1.3 OpenCL概述
4.2 異構並行計算模型
4.2.1 平颱模型
4.2.2 執行模型
4.2.3 存儲器模型
4.2.4 編程模型
4.3 C語言接口
4.3.1 OpenCL C語言
4.3.2 CUDA C語言
4.4 基於GPU的異構並行計算性能優化
4.4.1 總體優化準則
4.4.2 全局存儲器優化
4.4.3 閤並訪問
4.4.4 局部存儲器
4.4.5 存儲體衝突
4.4.6 常量存儲器優化
4.4.7 CUDA紋理存儲器優化
4.4.8 寄存器及私有存儲器優化
4.4.9 工作組數目及大小
4.4.10 占用率
4.4.11 指令優化
4.4.12 分支優化
4.4.13 數據傳輸優化
4.5 GPU與CPU精度差彆
4.6 矩陣轉置
4.6.1 初次實現
4.6.2 滿足閤並訪問的實現
4.6.3 沒有存儲體衝突的實現
4.7 矩陣乘法
4.7.1 初次實現
4.7.2 矩陣分塊實現
4.8 本章小結
第5章 OpenACC
5.1OpenACC 編程模型
5.1.1 執行模型
5.1.2存儲器模型
5.2編譯製導語句
5.2.1kernels構造
5.2.2parallel構造
5.2.3 綫程配置相關子句
5.2.4data構造
5.2.5loop構造
5.2.6 atomic構造
5.2.7 dtype子句
5.2.8reduction子句
5.2.9變量可見性子句
5.2.10if子句
5.2.11async和wait
5.3OpenACC和CUDA協作
5.3.1CUDA使用OpenACC生産的數據
5.3.2 OpenACC使用CUDA生産的數據
5.4兩小時性能提升10倍
5.5本章小結
第6章多核嚮量處理器架構及OpenCL程序映射
6.1多核嚮量處理器架構
6.1.1Intel Haswell CPU 架構
6.1.2ARM A15 多核嚮量處理器架構
6.1.3AMD GCN GPU架構
6.1.4NVIDIA Kepler 和 Maxwell GPU架構
6.2OpenCL 程序在多核嚮量處理器上的映射
6.2.1OpenCL程序在多核嚮量CPU上的映射
6.2.2OpenCL程序在NVIDIA GPU上的映射
6.2.3OpenCL程序在AMD GCN上的映射
6.3本章小結
第7章利用多種技術優化圖像處理中的算法性能
7.1圖像濾波
7.1.1均值濾波
7.1.2中值濾波
7.2圖像直方圖
7.2.1OpenMP 實現
7.2.2CUDA 實現
7.3曼德勃羅集
7.3.1串行算法
7.3.2不適閤進行嚮量化
7.3.3OpenMP實現
7.3.4CUDA 實現
7.4本章小結
第8章利用多種技術優化綫性代數中的算法性能
8.1兩嚮量距離
8.1.1串行代碼
8.1.2循環展開代碼
8.1.3AVX指令加速
8.1.4NEON 實現
8.1.5CUDA實現
8.2稠密矩陣與嚮量乘法
8.2.1串行算法
8.2.2AVX 指令加速
8.2.3NEON 實現
8.2.4CUDA 實現
8.2.5OpenMP 實現
8.3本章小結
· · · · · · (收起)