intel compiler的表现

好久没弄这个东西，今天突然想试下，代码没写完，以后补。

 #include <stdio.h>

 #include <stdlib.h>

 #include <time.h>

 #include <math.h>

 #include <Windows.h>

 #define M      1024

 float matA[M][M];

 float matB[M][M];

 float matC[M][M];

 void InitMatrix( float* matrixX )

 {

     register int i;

     for ( i = ; i < M * M; i ++ )

     {

         *matrixX ++ = ( float )( rand() %  ) / ;

     }

 }

 void MulMatrix( float* matrixA, float* matrixB, float* matrixC )

 {

     register int i, j, k;

     register float* p, *q, f;

     for ( j = ; j < M; j ++ )

     {

         for ( i = ; i < M; i ++ )

         {

             p = matrixA + j * M;

             q = matrixB + i;

             f = ;

             for ( k = ; k < M; k ++ )

             {

                 f += *p * *q;

                 p ++;

                 q += M;

             }

             matrixC[j * M + i] = f;

         }

     }

 }

 int main()

 {

     DWORD t;

     //register int i, j;

     srand( ( unsigned int )time( NULL ) );

     InitMatrix( ( float* )matA );

     InitMatrix( ( float* )matB );

     t = ::GetTickCount();

     MulMatrix( ( float* )matA, ( float* )matA, ( float* )matC );

     t = ::GetTickCount() - t;

     /*for ( j = 0; j < M; j ++ )

     {

         for ( i = 0; i < M; i ++ )

         {

             printf( "%.2f ", matC[j][i] );

         }

         printf( "\n" );

     }*/

     printf( "TIME:%d\n", t );

     return ;

 }

机器配置E3 1231V3 MEM:16G VS2010SP1 ICC 2015XE GTX660 将来把CUDA带来一起测下

1. CPU单线程仅一个O2

4750ms 大体如此

多线程原来测过，这次代码没加上。按物理核计算 4核应该6秒左右超线程估计会好些。应该能到5秒左右。

2. 单文件转为ICC编译额外添加优化项/Qipo /Qparallel

2600ms左右

多线程依然没测，以后补

3. CUDA也没测

4.MKL没测。。有点对不住这个CPU了。。呵呵，心血来潮，以后一定补上。

5. 比较搞笑的是，我在收工的时候突发奇想，要把MatrixC相关代码改为本地，试下有没有效果，这个还真有，平均少100ms

看来，高手们教的CACHE命中还是很有道理的。

上面代码是改后的，改之前为

void MulMatrix( float* matrixA, float* matrixB, float* matrixC )

{

    register int i, j, k, t;

    register float* p, *q;

    for ( j = ; j < M; j ++ )

    {

        for ( i = ; i < M; i ++ )

        {

            p = matrixA + j * M;

            q = matrixB + i;

            t = j * M + i;

            matrixC[t] = ;

            for ( k = ; k < M; k ++ )

            {

                matrixC[t] += *p * *q;

                p ++;

                q += M;

            }

        }

    }

}

6. 更搞笑的是，把q += M; 中的M改为100.。。。。竟然变为了原来的1/10

难道也是CACHE。。

intel compiler的表现的更多相关文章

[boost] build boost with intel compiler 16.0.XXX
Introduction There are few information about how to compile boost with Intel compiler. This article ...
[Boost] 1.57.0 with VS2013 + Intel compiler
The compiled version can be found below. Do not foget to give me a star. :) http://pan.baidu.com/s/1 ...
使用Intel编译器获得一致的浮点数值计算结果
使用Intel编译器获得一致的浮点数值计算结果大多数十进制的浮点数, 用二进制表示时不是完全一致的; 与此同时, 大多数与浮点数值相关的计算结果, 存在着固有的不确定性.通常, 编写浮点计算应用软件希 ...
记intel杯比赛中各种bug与debug【其一】：安装intel caffe
因为intel杯创新软件比赛过程中,并没有任何记录.现在用一点时间把全过程重演一次用作记录. 学习 pytorch 一段时间后,intel比赛突然不让用 pytoch 了,于是打算转战intel ca ...
[转帖]双剑合璧：CPU+GPU异构计算完全解析
引用自:http://tech.sina.com.cn/mobile/n/2011-06-20/18371792199.shtml 这篇文章写的深入浅出,把异构计算的思想和行业趋势描述的非常清楚,难得 ...
mysql 5.7.17发布
Mysql 5.7.17发布了,主要修复: Changes in MySQL 5.7.17 (2016-12-12, General Availability) Compilation Notes M ...
Ceph性能优化总结(v0.94)
优化方法论做任何事情还是要有个方法论的,“授人以鱼不如授人以渔”的道理吧,方法通了,所有的问题就有了解决的途径.通过对公开资料的分析进行总结,对分布式存储系统的优化离不开以下几点: 1. 硬件层面 ...
x265编译
x265 HEVC Encoder Mission Statement Online documentation Mailing list x265-devel@videolan.org HOWTO ...
openMP的一点使用经验【非原创】
按照百科上说的,针对于openmp的编程,最简单的就是在开头加个#include<omp.h>,然后在后面的for上加一行#pragma omp parallel for即可,下面的是较为 ...

随机推荐

C++中虚析构函数的作用（转载）
转自:http://blog.csdn.net/starlee/article/details/619827 我们知道,用C++开发的时候,用来做基类的类的析构函数一般都是虚函数.可是,为什么要这样做 ...
bzoj 4756: [Usaco2017 Jan]Promotion Counting【dfs+树状数组】
思路还是挺好玩的首先简单粗暴的想法是dfs然后用离散化权值树状数组维护,但是这样有个问题就是这个全局的权值树状数组里并不一定都是当前点子树里的第一反应是改树状数组,但是显然不太现实,但是可以这样想 ...
bzoj 3396: [Usaco2009 Jan]Total flow 水流【最大流】
最大流生动形象的板子,注意数组开大点 #include<iostream> #include<cstdio> #include<queue> #include< ...
用 python 写一个模拟玩家移动的示例
实例:二维矢量模拟玩家移动在游戏中,一般使用二维矢量保存玩家的位置,使用矢量计算可以计算出玩家移动的位置,下面的 demo 中,首先实现二维矢量对象,接着构造玩家对象,最后使用矢量对象和玩家对象共同 ...
hexo简易脚本
!/bin/bash 检查是否为master分支.目录是否正确 function git-branch-name { git symbolic-ref --short -q HEAD } functi ...
nginx 多进程 + io多路复用实现高并发
一.nginx 高并发原理简单介绍:nginx 采用的是多进程(单线程) + io多路复用(epoll)模型实现高并发二.nginx 多进程启动nginx 解析初始化配置文件后会创建(for ...
c++ isdigit函数
函数名:isdigit 函数所需头文件:#include<cstdio> 函数格式:isdigit(字符) 函数作用:判断括号内是否为1~9的数字. 例:isdigit(4) 就是true ...
思维题 URAL 1409 Two Gangsters
题目传送门 /* 思维题:注意题目一句话:At some moment it happened so that they shot one and the same can. 如果两个人都有射中的话, ...
spring的依赖注入如何降低了耦合
依赖注入:程序运行过程中,如需另一个对象协作(调用它的方法.访问他的属性时),无须在代码中创建被调用者,而是依赖于外部容器的注入看过一些比较好的回答 1.一个人(Java实例,调用者)需要一把斧子( ...
[转]iOS WebKit browsers and auto-zooming form controls
问题描述:https://github.com/jquery/jquery-mobile/issues/2581 本文转自:http://www.456bereastreet.com/archive/ ...

intel compiler的表现

intel compiler的表现的更多相关文章

随机推荐

热门专题