Xeon Phi 《协处理器高性能编程指南》随书代码整理 part 3

▶ 第二章，几个简单的程序

● 代码，单线程

 #include <stdio.h>

 #include <stdlib.h>

 #include <string.h>

 #include <sys/time.h>

 #define SIZE            (1024*1024)

 #define MAXFLOP_ITER    100000000

 #define LOOP_COUNT      128

 #define FLOP_PER_CALC   2

 float fa[SIZE] __attribute__((align()));

 float fb[SIZE] __attribute__((align()));

 double dtime()

 {

     struct timeval mytime;

     gettimeofday(&mytime, (struct timezone*));

     return (double)(mytime.tv_sec + mytime.tv_usec*1.0e-6);

 }

 int main(int argc, char *argv[])

 {

     const float a = 1.1;

     printf("Initializing\r\n");

     for (int i = ; i < SIZE; i++)

     {

         fa[i] = (float)i + 0.1;

         fb[i] = (float)i + 0.2;

     }

     printf("Starting Compute\r\n");

     double time_b, time_e;

     time_b = dtime();

     for (int j = ; j < MAXFLOP_ITER; j++)

     {

         for (int k = ; k < LOOP_COUNT; k++)

             fa[k] = a * fa[k] + fb[k];

     }

     time_e = dtime();

     double gflops = 1.0e-9 * LOOP_COUNT * MAXFLOP_ITER * FLOP_PER_CALC;

     printf("GFlops = %10.3lf, Secs = %10.3lf, GFlops per sec = %10.3lf\r\n", gflops, time_e - time_b, gflops / (time_e - time_b));

     return ;

 }

■ 输出结果

GFlops =     25.600, Secs =      1.464, GFlops per sec =     17.484

● 单核心两线程的 OpenMP（注意总计算量提升了，而不是固定计算量看运行时间减少）

 int main(int argc, char *argv[])

 {

     const float a = 1.1;

     int i, j, k, numthreads;                    // 循环变量放到外边来

     omp_set_num_threads();                     // 运行时设置 OpenMP 参数

     kmp_set_defaults("KMP_AFFINITY=compact");

 #pragma omp parallel

 #pragma omp master

     numthreads = omp_get_num_threads();

     printf("Initializing\r\n");

 #pragma omp parallel for

     for (i = ; i < SIZE; i++)

     {

         fa[i] = (float)i + 0.1;

         fb[i] = (float)i + 0.2;

     }

     printf("Starting Compute on %d threads\r\n", numthreads);

     double time_b, time_e;

     time_b = dtime();

 #pragma omp parallel for private(j, k)

     for (i = ; i < numthreads; i++)

     {

         int offset = i * LOOP_COUNT;

         for (j = ; j < MAXFLOP_ITER; j++)

         {

             for (k = ; k < LOOP_COUNT; k++)

                 fa[k + offset] = a * fa[k + offset] + fb[k + offset];

         }

     }

     time_e = dtime();

     double gflops = 1.0e-9 * numthreads * LOOP_COUNT * MAXFLOP_ITER * FLOP_PER_CALC;

     printf("GFlops = %10.3lf, Secs = %10.3lf, GFlops per sec = %10.3lf\r\n", gflops, time_e - time_b, gflops / (time_e - time_b));

     return ;

 }

■ 输出结果

 GFlops =     51.200, Secs =      1.464, GFlops per sec =     34.968

● 线程数、线程亲缘性调整

 // 替换

     omp_set_num_threads();

     kmp_set_defaults("KMP_AFFINITY=compact");

 // 替换为

     omp_set_num_threads();

     kmp_set_defaults("KMP_AFFINITY=scatter");

■ 输出结果

GFlops =   2867.200, Secs =      1.619, GFlops per sec =   1771.298

● 代码，带宽测试

 #include <stdio.h>

 #include <stdlib.h>

 #include <string.h>

 #include <sys/time.h>

 #include <omp.h>

 #define REAL            double

 #define SIZE            (1000*1000*64)

 #define MAXFLOP_ITER    1000

 #define FLOP_PER_CALC   2    

 REAL fa[SIZE] __attribute__((align()));

 REAL fb[SIZE] __attribute__((align()));

 REAL fc[SIZE] __attribute__((align()));

 double dtime()

 {

     struct timeval mytime;

     gettimeofday(&mytime, (struct timezone*));

     return (double)(mytime.tv_sec + mytime.tv_usec*1.0e-6);

 }

 int main(int argc, char *argv[])

 {

     const REAL a = 1.1;

     int i, j;           

     omp_set_num_threads();

     kmp_set_defaults("KMP_AFFINITY=scatter");

     printf("Initializing\r\n");

 #pragma omp parallel for

     for (i = ; i < SIZE; i++)

     {

         fa[i] = (REAL)i + 0.1;

         fb[i] = (REAL)i + 0.2;

     }

 #pragma omp parallel

 #pragma omp master

     printf("Starting BW Test on %d threads\r\n", omp_get_num_threads());

     double time_b, time_e;

     time_b = dtime();

     for (i = ; i < MAXFLOP_ITER; i++)

     {

 #pragma omp parallel for

         for (j = ; j < SIZE; j++)

             fa[j] = fb[j];

     }

     time_e = dtime();

     double gbytes = 1.0e-9 * MAXFLOP_ITER * SIZE * FLOP_PER_CALC * sizeof(REAL);

     printf("Gbytes = %10.3lf, Secs = %10.3lf, GBytes per sec = %10.3lf\r\n", gbytes, time_e - time_b, gbytes / (time_e - time_b));

     return ;

 }

■ 输出结果

Starting BW Test on  threads

Gbytes =   1024.000, Secs =     10.293, GBytes per sec =     99.488

● 代码，offload 模式（注意全局变量和编译选项的调整）

 #include <stdio.h>

 #include <stdlib.h>

 #include <string.h>

 #include <sys/time.h>

 #include <omp.h>

 #define SIZE            (1024*512)

 #define MAXFLOP_ITER    100000000

 #define LOOP_COUNT      128

 #define FLOP_PER_CALC   2     

 __declspec (target(mic)) float fa[SIZE] __attribute__((align()));  // 声明 mic 上的存储类型

 __declspec (target(mic)) float fb[SIZE] __attribute__((align()));

 double dtime()

 {

     struct timeval mytime;

     gettimeofday(&mytime, (struct timezone*));

     return (double)(mytime.tv_sec + mytime.tv_usec*1.0e-6);

 }

 int main(int argc, char *argv[])

 {

     const float a = 1.1;

     int i, j, k, numthreads;

     omp_set_num_threads();

     kmp_set_defaults("KMP_AFFINITY=scatter");

 #pragma offload target (mic)// 声明需要使用 mic 的 offload 模式

 #pragma omp parallel

 #pragma omp master

     numthreads = omp_get_num_threads();

     printf("Initializing\r\n");

 #pragma omp parallel for

     for (i = ; i<SIZE; i++)

     {

         fa[i] = (float)i + 0.1;

         fb[i] = (float)i + 0.2;

     }

     printf("Starting Compute on %d threads\r\n", numthreads);

     double time_b, time_e;

     time_b = dtime();

 #pragma offload target (mic)// 声明需要使用 mic 的 offload 模式

 #pragma omp parallel for private(j, k)

     for (i = ; i<numthreads; i++)

     {

         int offset = i * LOOP_COUNT;

         for (j = ; j < MAXFLOP_ITER; j++)

         {

 #pragma vector aligned// 强制向量对齐

             for (k = ; k < LOOP_COUNT; k++)

                 fa[k + offset] = a * fa[k + offset] + fb[k + offset];

         }

     }

     time_e = dtime();

     double gflops = 1.0e-9 * numthreads * LOOP_COUNT * MAXFLOP_ITER * FLOP_PER_CALC;

     printf("GFlops = %10.3lf, Secs = %10.3lf, GFlops per sec = %10.3lf\r\n", gflops, time_e - time_b, gflops / (time_e - time_b));

     return ;

 }

■ 输出结果

Starting Compute on  threads

GFlops =   5734.400, Secs =      2.976, GFlops per sec =   1927.124

Xeon Phi 《协处理器高性能编程指南》随书代码整理 part 3的更多相关文章

Xeon Phi 《协处理器高性能编程指南》随书代码整理 part 1
▶ 第三章,逐步优化了一个二维卷积计算的过程 ● 基准代码 #include <stdio.h> #include <stdlib.h> #include <string ...
Xeon Phi 《协处理器高性能编程指南》随书代码整理 part 4
▶ 第五章,几个优化 ● 代码 #include <stdio.h> #include <stdlib.h> #include <math.h> #define S ...
Xeon Phi 《协处理器高性能编程指南》随书代码整理 part 2
▶ 第四章,逐步优化了一个三维卷积计算的过程 ● 基准代码 #include <stdio.h> #include <stdlib.h> #include <string ...
Xeon Phi 编程备忘
▶ 闲鱼的 Xeon Phi 3120A 配办公室的新 Xeon 服务器,记录一下环境安装过程. ● 原本尝试搭 Ubuntu 服务器,参考[https://software.intel.com/en ...
Python猫荐书系列之五：Python高性能编程
稍微关心编程语言的使用趋势的人都知道,最近几年,国内最火的两种语言非 Python 与 Go 莫属,于是,隔三差五就会有人问:这两种语言谁更厉害/好找工作/高工资…… 对于编程语言的争论,就是猿界的生 ...
《高性能javascript》一书要点和延伸（上）
前些天收到了HTML5中国送来的<高性能javascript>一书,便打算将其做为假期消遣,顺便也写篇文章记录下书中一些要点. 个人觉得本书很值得中低级别的前端朋友阅读,会有很多意想不到的 ...
高质量C++/C编程指南（林锐）
推荐-高质量C++/C编程指南(林锐) 版本/状态作者参与者起止日期备注 V 0.9 草稿文件林锐 2001-7-1至 2001-7-18 林锐起草 V 1.0 正式文件林锐 20 ...
物联网操作系统HelloX应用编程指南
HelloX操作系统应用编程指南 HelloX应用开发概述可以通过三种方式,在HelloX操作系统基础上开发应用: 1．以内部命令方式实现应用,直接编译链接到HelloX的内核she ...
JDK 高性能编程之容器
高性能编程在对不同场景下对于容器的选择有着非常苛刻的条件,这里记录下前人总结的经验,并对源码进行调试 JDK高性能编程之容器读书笔记内容部分来源书籍深入理解JVM.互联网等先放一个类图util,点 ...

随机推荐

xenserver挂载新硬盘
注意:新加硬盘请不要加入raid,否则不认盘一: 1.1:查看磁盘列表 fdisk -l [root@xenserver zz]# fdisk -l Disk /dev/sdb: 7999.4 GB ...
SONObjetc和String Map Bean互转，JSONArray和String List互转
import java.util.ArrayList; import java.util.HashMap; import java.util.List; import java.util.Map; i ...
mysql 基本函数以及初学语句
创建数据库create database 数据库名: 查看数据库列表show databases; 选择数据库use 数据库名: 删除数据库drop database 数据库名: 创建表CREATE ...
Pyhon全栈之路----数据类型
1.定义时不需要像C语言一样加 ' int ' , 'char ' 等,直接写即可,解释器会直接自动识别数据类型.例: age = 22 (默认为数字类型) name = 'Alex ...
软件工程 week 05
关于石墨文档客户端的案例分析作业地址:https://edu.cnblogs.com/campus/nenu/2016CS/homework/2505 一.调研测评测试平台:Windows 1 ...
yii2 获取模块名、控制器名、方法名
在视图中: 模块名 $this->context->module->id控制器名 $this->context->id方法名 $this->context-> ...
PythonStudy——算术运算符 Arithmetic operator
# 减法 # 加法 print(10 + 20) print('abc' + 'def') print([1, 2, 3] + [4, 5, 6]) Output: 30 abcdef [1, 2 ...
Windows下struct和union字节对齐设置以及大小的确定（一简介和结构体大小的确定）
在windows下设置字节对齐大小的方式,目前我了解有三种: 1. 在编译程序时候的编译选项 /Zp[n],如 cl /Zp4 表示对齐大小是4字节: 2. 预处理命令 #pragma pack ...
Mongo数据库基本操作
从这两个类的继承来看,connection是继承了MongoClient的,建议使用MongoClient而不是使用Connection.(也就是说,MongoClient可以使用方法Connecti ...
浅谈JS的数组遍历方法
用过Underscore的朋友都知道,它对数组(集合)的遍历有着非常完善的API可以调用的,_.each()就是其中一个.下面就是一个简单的例子: var arr = [1, 2, 3, 4, 5]; ...

Xeon Phi 《协处理器高性能编程指南》随书代码整理 part 3

Xeon Phi 《协处理器高性能编程指南》随书代码整理 part 3的更多相关文章

随机推荐

热门专题