HMPP开放标准

HMPP用于异构多核并行编程。

OpenHMPP标准基于一组指令，是用于处理硬件加速器的编程模型，但又没有GPU编程的相关复杂性。这种基于指令的方法已经实现，因为他们使应用程序代码和硬件加速器使用之间形成松散关系。

本文涉及组成OpenHMPP标准的HMPP指令, 但并不处理指令的执行链接到指令执行。

简介编辑

OpenHMPP基于指令的编程模型提供了一种语法，有效地减轻硬件加速器上的计算，优化数据向/从硬件存储器移动。
模型基于 CAPS (编译器和超标量体系结构以及嵌入式处理器)（页面存档备份，存于互联网档案馆）的初始化工作, 以及来自INRIA, CNRS, 雷恩第一大学和雷恩INSA的共同项目。

OpenHMPP标准概念编辑

OpenHMPP标准基于codelets的概念, 可以在硬件上远程执行。

OpenHMPP Codelet 概念编辑

codelet具有以下属性:

它是一个纯函数。
- 它不包含静态或不稳定的变量声明，也不涉及任何全局变量，除非这些已经由HMPP “resident”指令所声明
- 它不包含任何具有无形体(不能内联)的函数调用。这包含库和系统函数的使用, 例如 malloc, printf, ...
- 每个函数必须引用静态纯函数(没有函数指针)。
它不返回任何值(C中的void函数或FORTRAN子程序)。
参数的数量应该是固定的(即没有像C中的vararg那样可变数量的参数)。
它不是递归的。
它的参数设定为non-aliased。
它不包含callsite指令(即RPC至另一个codelet)或其他HMPP指令。

这些属性确保codelet RPC可以通过硬件远程执行。此RPC及其相关的数据传输可以是异步的。

Codelet RPCs 编辑

HMPP提供同步和异步的RPC。异步操作的执行依赖于硬件。

Synchronous versus asynchronous RPC

HMPP 存储器模型编辑

HMPP考虑到两个地址空间: 一个主机处理器和硬件存储器。

HMPPP memory Model

指令概念编辑

OpenHMPP指令可能被视为“元信息” 添加到应用程序源代码。它们是安全的元信息，即不会改变原始代码的行为。它们处理函数的远程执行(RPC)，以及数据向/从硬件存储器传输。
下表介绍了OpenHMPP指令。OpenHMPP指令满足不同需求: 其中一些专门用于声明，其他用于执行的管理。

	流程控制指令	数据管理标签
声明	codelet group	resident map mapbyname
操作标签	callsite synchronize region	allocate release advancedload delegatedstore

指令集的概念编辑

HMPP方法的基本点之一是指令的概念及其关联的标签，使它能够在分布于应用程序中的整个指令集上公开一个相干结构。

有两种类型的标签:

一类关联到codelet。携带这种标签的指令一般仅限于管理一个(在文档的其余部分称为stand-alone，以便从一组codelet中区分开)。
一类关联到一组codelets。这些标签说明如下: “<LabelOfGroup>“, 其中“LabelOfGroup” 是由用户指定一个名称。具有这种标签的指令一般涉及到整个组。组的概念是保留给这样一类问题，即要求对整个应用程序的数据做具体管理以获取性能。

OpenHMPP指令语法编辑

为了简化符号, 正则表达式将用于描述HMPP指令的语法。下面的颜色通常用于描述指令的语法:

保留的HMPP关键字是蓝色;
在HMPP关键字中可以被减少的基本语法是红色;
用户变量仍然为黑色。

一般语法编辑

OpenHMPP指令的一般语法如下:

C语言:

#pragma hmpp <grp_label> [codelet_label]? directive_type [,directive_parameters]* [&]

FORTRAN语言:

!$hmpp <grp_label> [codelet_label]? directive_type [,directive_parameters]* [&]

其中:

<grp_label>: 是命名一组 codelets 的唯一标识符。在应用程序中没有组被定义的情况下, 这个标签可以简单地略过。Legal标签必须遵循此语法: [a-z,A-Z,_][a-z,A-Z,0-9,_]*。请注意 “< >” 字符属于语法，且对这类标签是强制性的。
codelet_label: 是命名一个codelet的唯一标识符。Legal 标签必须遵循此语法: [a-z,A-Z,_][a-z,A-Z,0-9,_]*
directive: 是指令的名称;
directive_parameters: 指定一些指令相关联的参数。这些参数可能是不同类型并指定给指令的某些参数或执行的一种模式(例如同步与异步);
[&]: 是用于在下一行继续该指令的字符 (C和FORTRAN都是相同的)。

指令参数编辑

关联到一个指令的参数可能是不同类型。以下是在HMPP中定义的指令参数:

version = major.minor[.micro]: 由预处理器指定HMPP指令的版本。
args[arg_items].size={dimsize[,dimsize]*}: 指定一个非标量参数 (数组)的大小。
args[arg_items].io=[in|out|inout]: 表示指定函数参数是输入, 输出或两者兼而有之。默认情况下, 非限定参数为输入。
cond = "expr": 指定组或codelets开始执行的一个条件C或Fortran布尔表达式的值为是 C或Fortran布尔表达式的值为true。
target=target_name[:target_name]*: 指定是哪个target以尝试使用给定的顺序。
asynchronous: 指定不阻止codelet的执行 (默认是同步的)。
args[<arg_items>].advancedload=true: 表明指定的参数是预加载的。只有in或inout参数可以被预加载。
args[arg_items].noupdate=true: 此属性指定硬件上的数据已经可用，因此不需要转换。当设置了此属性时, 所考虑的参数没有任何传递。
args[<arg_items>].addr="<expr>": <expr>是一个表达式，给出了数据上载的地址。
args[<arg_items>].const=true: 表示参数只要上载一次。

OpenHMPP 指令编辑

声明和执行一个codelet的指令编辑

codelet指令声明在硬件加速器上远程执行计算。
codelet 指令:

codelet标签是强制性的并且在应用程序中是唯一的
如果没有组被定义则不需要组标签。
Codelet指令在函数声明之前插入。

该指令的语法是:

#pragma hmpp <grp_label> codelet_label codelet 
                            [, version = major.minor[.micro]?]?
                            [, args[arg_items].io=[[in|out|inout]]*
                            [, args[arg_items].size={dimsize[,dimsize]*}]*
                            [, args[arg_items].const=true]*
                            [, cond = "expr"]
                            [, target=target_name[:target_name]*]

可以在一个函数中加入多个codelet指令，以便指定不同用途或不同执行文本。但是, 一个给定调用站点标签只能有一个codelet指令。 Callsite指令指定程序内的给定点如何使用一个codelet。
该指令的语法是:

#pragma hmpp <grp_label> codelet_label callsite
                     [, asynchronous]?
                     [, args[arg_items].size={dimsize[,dimsize]*}]*
                     [, args[arg_items].advancedload=[[true|false]]*
                     [, args[arg_items].addr="expr"]*
                     [, args[arg_items].noupdate=true]*

这里有一个例子:

/* declaration of the codelet */

#pragma hmpp simple1 codelet, args[outv].io=inout, target=CUDA
static void matvec(int sn, int sm, loat inv[sm], float inm[sn][sm], float *outv){
    int i, j;
    for (i = 0 ; i < sm ; i++) {
      float temp = outv[i];
      for (j = 0 ; j < sn ; j++) {
        temp += inv[j] * inm[i][ j];
    }
   outv[i] = temp;
 }
 
 int main(int argc, char **argv) {
   int n;
   ........
 
 /* codelet use */
 #pragma hmpp simple1 callsite, args[outv].size={n}
 matvec(n, m, myinc, inm, myoutv);
   ........
 }

某些情况下, 需要具体管理整个应用程序的数据(CPU/GPU 数据移动优化, 共享变量...)。
group指令允许声明一组codelets。指令中定义的参数应用于所有属于该组的 codelets。

该指令的语法是:

#pragma hmpp <grp_label> group 
                          [, version = <major>.<minor>[.<micro>]?]? 
                          [, target = target_name[:target_name]*]]? 
                          [, cond  = “expr”]?

数据传输指令可以优化通信开销编辑

硬件使用时的主要瓶颈通常是硬件和住处理器之间的数据传输。
要限制通信开销,可以通过使用硬件的异步属性，连续执行相同的codelet以重叠数据传输。

allocate指令

allocate指令锁定硬件，并分配所需的内存量。 #pragma hmpp <grp_label> allocate [,args[arg_items].size={dimsize[,dimsize]*}]*

release指令

release指令指定何时为一组或一个独立codelet释放硬件。

#pragma hmpp <grp_label> release

advancedload 指令

advancedload指令在codelet远程执行之前预取数据。 #pragma hmpp <grp_label> [codelet_label]? advancedload

                  ,args[arg_items]
                  [,args[arg_items].size={dimsize[,dimsize]*}]*
                  [,args[arg_items].addr="expr"]*
                  [,args[arg_items].section={[subscript_triplet,]+}]*
                  [,asynchronous]

delegatedstore 指令

delegatedstore指令是一个同步障，以等待一个异步codelet执行完成，然后下载结果。 #pragma hmpp <grp_label> [codelet_label]? delegatedstore

                ,args[arg_items]
                [,args[arg_items].addr="expr"]*
                [,args[arg_items].section={[subscript_triplet,]+}]*

异步计算

同步指令指定等待，直到一个异步callsite执行完成。对于同步指令, codelet 标签始终是强制性的，并且若是codelet属于一个组，需要有组标签。 #pragma hmpp <grp_label> codelet_label synchronize

示例

在下面的例子中，完成设备初始化，内存分配和输入数据的上载在循环外只有一次，而不是每次循环迭代。
同步指令允许在启动另一个迭代之前等待codelet的异步执行的完成。最后在循环外delegatedstore指令将上载sgemm结果。

int main(int argc, char **argv) {

#pragma hmpp sgemm allocate, args[vin1;vin2;vout].siez={size,size}
#pragma hmpp sgemm advancedload, args[vin1;vin2;vout], args[m,n,k,alpha,beta]
  
for ( j = 0 ; j < 2 ; j ++) {
   #pragma hmpp sgemm callsite, asynchronous, args[vin1;vin2;vout].advancedload=true, args[m,n,k,alpha,beta].advancedload=true
   sgemm (size, size, size, alpha, vin1, vin2, beta, vout);
   #pragma hmpp sgemm  synchronize
}

#pragma hmpp sgemm delegatedstore, args[vout]
#pragma hmpp sgemm release

Codelets之间共享数据编辑

这些指令共同映射所有参数共享所有组的给定名称。
所有映射参数的类型和尺寸必须是相同的。 map指令映射设备上的几个参数。 #pragma hmpp <grp_label> map, args[arg_items]

此指令除了参数按其名称直接指定映射之外，与map指令很类似。 mapbyname 指令相当于多映射指令。

#pragma hmpp <grp_label> mapbyname [,variableName]+

全局变量编辑

Resident指令声明某些变量在一个组内为全局变量。然后可以从任何属于组的codelet中直接访问这些变量。此指令应用于源代码中在其之后的声明语句。

此指令的语法是:

#pragma hmpp <grp_label> resident 
               [, args[::var_name].io=[[in|out|inout]]*
               [, args[::var_name].size={dimsize[,dimsize]*}]*
               [, args[::var_name].addr="expr"]*
               [, args[::var_name].const=true]*

符号::var_name 以::为前缀, 表示一个应用程序的变量声明为resident。

加速区编辑

codelet/callsite指令合并为一个区域。目的是避免代码重构中构建codelet。因此，所有codelet或callsite指令可用属性都可以用于regions指令。在C语言中:

#pragma hmpp [<MyGroup>] [label] region         
                           [, args[arg_items].io=[[in|out|inout]]*
                           [, cond = "expr"]<
                           [, args[arg_items].const=true]*
                           [, target=target_name[:target_name]*]
                           [, args[arg_items].size={dimsize[,dimsize]*}]*
                           [, args[arg_items].advancedload=[[true|false]]*
                           [, args[arg_items].addr="expr"]*
                           [, args[arg_items].noupdate=true]*
                           [, asynchronous]?
                           [, private=[arg_items]]*
   {
C BLOCK STATEMENTS
   }

实现编辑

HMPP开放标准基于HMPP 2.3版本(2009年5月, CAPS 公司).

HMPP基于指令的编程模型已经实现如下:

HMPP 工作台, 用于混合计算的CAPS企业编译器
PathScale ENZO 编译器套件(支持NVIDIA GPUs)

此外，HMPP开放标准用于石油和天然气，能源，制造业，金融，教育及研究领域的高性能计算，让开发人员使用大部分多核处理器，同时保留其遗留资源。

参阅编辑

参考编辑

OpenHMPP Website
HMPP: A Hybrid Multi-core Parallel Programming Environment
CAPS Entreprise SAS and PathScale, LLC to Jointly Collaborate on Making HMPP a New Open Standard（页面存档备份，存于互联网档案馆）
How Hardware Will Shape Languages（页面存档备份，存于互联网档案馆） By David Chisnall
Code acceleration with HMPP By ICHEC (Irish Center for High-End Computing)
Expérience de programmation avec HMPP By IRMA (Institut de Recherche Mathématique Avancée) - FORTRAN examples
Directive-based Heterogeneous Programming - A GPU-Accelerated RTM Use Case By TOTAL Technical and Scientific Center and CAPS Entreprise
HMPP Port（页面存档备份，存于互联网档案馆） By CEA (Commissariat à l'Energie Atomique et aux Energies Alternatives) for PRACE (Partnership for Advanced Computing in Europe)

HMPP开放标准

简介 编辑

OpenHMPP标准概念 编辑

OpenHMPP Codelet 概念 编辑

Codelet RPCs 编辑

HMPP 存储器模型 编辑

指令概念 编辑

指令集的概念 编辑

OpenHMPP指令语法 编辑

一般语法 编辑

指令参数 编辑

OpenHMPP 指令 编辑

声明和执行一个codelet的指令 编辑

数据传输指令可以优化通信开销 编辑

Codelets之间共享数据 编辑

全局变量 编辑

加速区 编辑

实现 编辑

参阅 编辑

参考 编辑