最近打PKU的HPCGAME留下的代码,速度不是很快

const int BLOCK_SIZE = 1024;
const int BLOCK_SIZE2 = 256; inline static void block_avx256_16x2( // 电脑不支持AVX512捏
int n,int K, //方阵大小
double* A, double* B, double* C)
{
__m256d c0000_0300, c0400_0700, c0800_1100, c1200_1500,
c0001_0301, c0401_0701, c0801_1101, c1201_1501; __m256d a0x_3x, a4x_7x, a8x_11x, a12x_15x,
bx0, bx1; double* c0001_0301_ptr = C + n; c0000_0300 = _mm256_load_pd(C);
c0400_0700 = _mm256_load_pd(C + 4);
c0800_1100 = _mm256_load_pd(C + 8);
c1200_1500 = _mm256_load_pd(C + 12); c0001_0301 = _mm256_load_pd(c0001_0301_ptr);
c0401_0701 = _mm256_load_pd(c0001_0301_ptr + 4);
c0801_1101 = _mm256_load_pd(c0001_0301_ptr + 8);
c1201_1501 = _mm256_load_pd(c0001_0301_ptr + 12); for (int x = 0; x < K; ++x)
{
a0x_3x = _mm256_load_pd(A);
a4x_7x = _mm256_load_pd(A + 4);
a8x_11x = _mm256_load_pd(A + 8);
a12x_15x = _mm256_load_pd(A + 12);
A+= 16; bx0 = _mm256_broadcast_sd(B++);
bx1 = _mm256_broadcast_sd(B++); c0000_0300 = _mm256_add_pd(_mm256_mul_pd(a0x_3x, bx0), c0000_0300);
c0400_0700 = _mm256_add_pd(_mm256_mul_pd(a4x_7x, bx0), c0400_0700);
c0800_1100 = _mm256_add_pd(_mm256_mul_pd(a8x_11x, bx0), c0800_1100);
c1200_1500 = _mm256_add_pd(_mm256_mul_pd(a12x_15x, bx0), c1200_1500); c0001_0301 = _mm256_add_pd(_mm256_mul_pd(a0x_3x, bx1), c0001_0301);
c0401_0701 = _mm256_add_pd(_mm256_mul_pd(a4x_7x, bx1), c0401_0701);
c0801_1101 = _mm256_add_pd(_mm256_mul_pd(a8x_11x, bx1), c0801_1101);
c1201_1501 = _mm256_add_pd(_mm256_mul_pd(a12x_15x, bx1), c1201_1501);
} _mm256_storeu_pd(C, c0000_0300);
_mm256_storeu_pd(C + 4, c0400_0700);
_mm256_storeu_pd(C + 8, c0800_1100);
_mm256_storeu_pd(C + 12, c1200_1500); _mm256_storeu_pd(c0001_0301_ptr, c0001_0301);
_mm256_storeu_pd(c0001_0301_ptr + 4, c0401_0701);
_mm256_storeu_pd(c0001_0301_ptr + 8, c0801_1101);
_mm256_storeu_pd(c0001_0301_ptr + 12, c1201_1501);
} static inline void copy_b(int lda, const int K, double* b_src, double* b_dest) {
double* b_ptr0, * b_ptr1;
b_ptr0 = b_src;
b_ptr1 = b_ptr0 + lda;
for (int i = 0; i < K; ++i)
{
*b_dest++ = *b_ptr0++;
*b_dest++ = *b_ptr1++;
}
} static inline void copy_a(int lda, const int K, double* a_src, double* a_dest) {
for (int i = 0; i < K; ++i)
{
*a_dest++ = *a_src;
*a_dest++ = *(a_src + 1);
*a_dest++ = *(a_src + 2);
*a_dest++ = *(a_src + 3);
*a_dest++ = *(a_src + 4);
*a_dest++ = *(a_src + 5);
*a_dest++ = *(a_src + 6);
*a_dest++ = *(a_src + 7);
*a_dest++ = *(a_src + 8);
*a_dest++ = *(a_src + 9);
*a_dest++ = *(a_src + 10);
*a_dest++ = *(a_src + 11);
*a_dest++ = *(a_src + 12);
*a_dest++ = *(a_src + 13);
*a_dest++ = *(a_src + 14);
*a_dest++ = *(a_src + 15);
a_src += lda;
}
} static inline void do_block(int lda, int M, int N, int K, double* A, double* B, double* C)
{
double *A_block, *B_block;
A_block = (double*)_mm_malloc(M * K * sizeof(double), 64);
B_block = (double*)_mm_malloc(K * N * sizeof(double), 64); double* a_ptr, * b_ptr, * c; const int Nmax = N - 1;
int Mmax = M - 15; int i = 0, j = 0, p = 0; for (j = 0; j < Nmax; j += 2)
{
b_ptr = &B_block[j * K];
copy_b(lda, K, B + j * lda, b_ptr); // 将 B 展开
for (i = 0; i < Mmax; i += 16) {
a_ptr = &A_block[i * K];
if (j == 0) copy_a(lda, K, A + i, a_ptr); // 将 A 展开
c = C + i + j * lda;
block_avx256_16x2(lda, K, a_ptr, b_ptr, c);
}
}
_mm_free(A_block);
_mm_free(B_block);
} void gemm(int lda, double* A, double* B, double* C)
{
#pragma omp parallel for
for (int j = 0; j < lda; j += BLOCK_SIZE) { // j i k 序 内存读写更快
for (int i = 0; i < lda; i += BLOCK_SIZE) {
for (int k = 0; k < lda; k += BLOCK_SIZE) {
// 大分块里小分块
for (int jj = j; jj < j + BLOCK_SIZE; jj += BLOCK_SIZE2)
for (int ii = i; ii < i + BLOCK_SIZE; ii += BLOCK_SIZE2)
for (int kk = k; kk < k + BLOCK_SIZE; kk += BLOCK_SIZE2)
do_block(lda, BLOCK_SIZE2, BLOCK_SIZE2, BLOCK_SIZE2, A + ii + kk * lda, B + kk + jj * lda, C + ii + jj * lda);
}
}
}
}

AVX256加速矩阵乘法的更多相关文章

  1. 【POJ3613】Cow Relays 离散化+倍增+矩阵乘法

    题目大意:给定一个 N 个顶点,M 条边的无向图,求从起点到终点恰好经过 K 个点的最短路. 题解:设 \(d[1][i][j]\) 表示恰好经过一条边 i,j 两点的最短路,那么有 \(d[r+m] ...

  2. 如何使用矩阵乘法加速动态规划——以[SDOI2009]HH去散步为例

    对这个题目的最初理解 开始看到这个题,觉得很水,直接写了一个最简单地动态规划,就是定义 f[i][j]为到了i节点路径长度为j的路径总数, 转移的话使用Floyd算法的思想去转移,借助这个题目也理解了 ...

  3. [模板][题解][Luogu1939]矩阵乘法加速递推(详解)

    题目传送门 题目大意:计算数列a的第n项,其中: \[a[1] = a[2] = a[3] = 1\] \[a[i] = a[i-3] + a[i - 1]\] \[(n ≤ 2 \times 10^ ...

  4. BZOJ 1009 GT考试 (AC自动机 + 矩阵乘法加速dp)

    题目链接: https://www.lydsy.com/JudgeOnline/problem.php?id=1009 题意: 准考证号为\(n\)位数\(X_1X_2....X_n(0<=X_ ...

  5. 『公交线路 状压dp 矩阵乘法加速』

    公交线路 Description 小Z所在的城市有N个公交车站,排列在一条长(N-1)km的直线上,从左到右依次编号为1到N,相邻公交车站间的距离均为1km. 作为公交车线路的规划者,小Z调查了市民的 ...

  6. c++的矩阵乘法加速trick

    最近读RNNLM的源代码,发现其实现矩阵乘法时使用了一个trick,这里描述一下这个trick. 首先是正常版的矩阵乘法(其实是矩阵乘向量) void matrixXvector(float* des ...

  7. HDU 5607 graph(DP+矩阵乘法)

    [题目链接] http://bestcoder.hdu.edu.cn/contests/contest_showproblem.php?cid=663&pid=1002 [题意] 给定一个有向 ...

  8. BZOJ_1009_[HNOI2008]GT考试_KMP+矩阵乘法

    BZOJ_1009_[HNOI2008]GT考试_KMP+矩阵乘法 Description 阿申准备报名参加GT考试,准考证号为N位数X1X2....Xn(0<=Xi<=9),他不希望准考 ...

  9. Codeforces 1106F Lunar New Year and a Recursive Sequence | BSGS/exgcd/矩阵乘法

    我诈尸啦! 高三退役选手好不容易抛弃天利和金考卷打场CF,结果打得和shi一样--还因为queue太长而unrated了!一个学期不敲代码实在是忘干净了-- 没分该没分,考题还是要订正的 =v= 欢迎 ...

  10. [转]OpenBLAS项目与矩阵乘法优化

    课程内容 OpenBLAS项目介绍 矩阵乘法优化算法 一步步调优实现 以下为公开课完整视频,共64分钟: 以下为公开课内容的文字及 PPT 整理. 雷锋网的朋友们大家好,我是张先轶,今天主要介绍一下我 ...

随机推荐

  1. django学习第十四天--Forms和ModelForm

    Forms和ModelForm 进行数据校验,先看数据校验的过程 注册页面图解: 前端为了用户体验会做一些校验,不满足校验要求会报错 服务端也会对数据进行一些校验,不满足校验要求会报错 数据库也会对数 ...

  2. 我的第一个项目(十五) :完成数据保存功能(后端,改update)

    好家伙,   代码已开源(Gitee) PH-planewar: 个人开发的全栈小游戏 前端:vue2 + element-ui 后端: Springboot + mybatis-plus 数据库: ...

  3. 如何实现十亿级离线 CSV 导入 Nebula Graph

    本文首发于 Nebula Graph Community 公众号 本次实践是基于业务需求及后续扩展,通过技术选型确定了 Nebula Graph 图数据库,首先需要验证 Nebula Graph 数据 ...

  4. 【容斥、状压dp】主旋律 题解

    [清华集训2014]主旋律 题解 神秘题. 题目简述 给你一个有向图 \(G=(V,E)\).求有多少 \(E\) 的子集 \(E'\) 使得新图 \(G'=(V,E')\) 是强连通图. 强连通图的 ...

  5. iview table 左侧固定列 右侧固定列 滚动的时候 表格错位 解决方案

    iview table 左侧固定列 右侧固定列 滚动的时候 表格错位 解决方案 iview table 滚动条位置重置 https://www.jianshu.com/p/32fcd50489ff

  6. C++标准库字符串流sstream

    sstream与strstream 在C++有两种字符串流,一种在<strstream>中定义,另一种在<sstream>中定义,两者的区别如下: strstream里包含st ...

  7. ble无线智能工牌解决方案技术解析

    场景需求  在无线智能工牌领域,团队做了几个实际场景的解决方案之后,积累了一些行业需求经验和技术经验.这里做一个总结,算是一种沉淀吧.场景一:居家养老,医护和护工人员定期上门服务,根据工作时长来发工资 ...

  8. 回声消除(Acoustic Echo Cancellation)中遇到的几个常见问题思考

    什么才是好的回声消除效果   个人的理解:好的回声消除算法,要满足两个条件:一个是回声确实被消除了,另外一个是麦克风采集到音频信号不能被消除,常见的就是人的声音信号.这个算法只是提供了一种方法,具体的 ...

  9. 初识uds之abstract socket

    PS:要转载请注明出处,本人版权所有. PS: 这个只是基于<我自己>的理解, 如果和你的原则及想法相冲突,请谅解,勿喷. 环境说明   无 前言   在<记一次有趣的hwclock ...

  10. [noip2015]运输计划(LCA,二分)

    运输计划[做题笔记] 挺难绷的... 题意 概括:给定 \(n\) 个节点的树和 \(n-1\) 条边的权值,现在可以将一条边的权值改为 \(0\) .找出一条边,使得将这条边权值赋为 \(0\) 时 ...