cpu性能探究：cache line 原理

參考:

一个解说Direct Mapped Cache很深入浅出的文章:

http://www.cs.umd.edu/class/sum2003/cmsc311/Notes/Memory/direct.html

CPU cache

http://en.wikipedia.org/wiki/CPU_cache

http://blog.csdn.net/zqy2000zqy/article/details/1137895

=============================================

整体认识,

cpu的cache通常较大, 比方 128KB, 被划分为多个有固定大小的cache line, cache line一般是32Byte或64Byte.

CPU内部的cache种类, 至少有三种

1) 指令cache

2) 数据cache 通常有多级 multi-level

3) TLB 加速虚拟地址2物理地址转换

cache entry (cache条目)

包括例如以下部分

1) cache line : 从主存一次copy的数据大小)

2) tag : 标记cache line相应的主存的地址

3) falg : 标记当前cache line是否invalid, 假设是数据cache, 还有是否dirty

cpu訪问主存的规律

1) cpu从来都不直接訪问主存, 都是通过cache间接訪问主存

2) 每次须要訪问主存时, 遍历一遍所有cache line, 查找主存的地址是否在某个cache line中.

3) 假设cache中没有找到, 则分配一个新的cache entry, 把主存的内存copy到cache line中, 再从cache line中读取.

cache中包括的cache entry条目有限, 所以, 必须有合适的cache淘汰策略

一般使用的是LRU策略.

将一些主存区域标记为non-cacheble, 能够提高cache命中率, 减少无用的cache

回写策略

cache中的数据更新后,须要回写到主存, 回写的时机有多种

1) 每次更新都回写. write-through cache

2) 更新后不回写,标记为dirty, 仅当cache entry被evict时才回写

3) 更新后, 把cache entry送如回写队列, 待队列收集到多个entry时批量回写.

cache一致性问题

有两种情况可能导致cache中的数据过期

1) DMA, 有其它设备直接更新主存的数据

2) SMP, 同一个cache line存在多个CPU各自的cache中. 当中一个CPU对其进行了更新.

cpu stall cpu失速

指的是当cache miss时(特别是read cache miss), cpu在等待数据从内存读进去cache中期间, 没事可做.

解决此问题的方法有

1) 超线程技术. CPU在硬件层面, 把一个CPU模拟成两个CPU, 在上层看来是两个CPU. 并发的运行两个线程. 这样当一个线程因cache miss在等待时, 还有一个线程能够运行.

主存的一个地址, 须要被映射进哪个cache line? (术语:Associativity)

依据映射策略的不同而不同

1) 最笨的, 一个地址可被映射进随意cache line (fully associative)

带来的问题是, 当寻找一个地址是否已经被cache时, 须要遍历每个cache line来寻找, 这个代价不可接受.

就像停车位能够大家随便停一样, 停的时候简单的, 找车的时候须要一个一个停车位的找了.

你想下, cpu想知道一个地址是否已经在cache中了, 须要把所有cache line找一边, 那该有多慢?

2) Direct Mapped Cache (相当于1-way associative)

这个就是相当于hash了, 每一个地址能被映射到的cache line是固定的.

每一个人的停车位是固定分配好的. 能够直接找到.

缺点是, 由于人多车少, 非常可能几个人争用同一个车位, 导致cache 淘汰频繁. 须要频繁的从主存读取数据到cache, 这个代价也较高.

因为cache中cache line的个数都是2的指数个. 那么, hash算法就非常easy了, 不用取模, 直接把内存地址的某几个bit位拿出来就可以. 比方cache line有128(2^7)个, cache line的大小是32(2^5)字节,

那么一个32位地址的 0~4位作为cache line内部偏移, 5~11位作为cache line的索引就可以. 剩下的bit12~31作为当前cache line的tag. tag的作用时, 当有另外一个地址也映射到同一个cache line时, tag用来比較两个地址是不是同一个地址. 毕竟同一个cache-line能够相应的内存的位置许多个的.

3) 2-way associative

是fully associative和Direct Mapped Cache的折中.

2-way, 每个人能够有两个停车位, 这样当一个停车位被占了的时候, 还有机会寻找另外一个. 尽管人数众多, 但同一时候来找停车位的人并不多. (相当于非常多人的车在外面,没有开回来)

所以, 2-way associative近似的相当于有了2倍大小的cache, 使用Direct Mapped Cache策略.

注意, 这图仅仅统计了cache miss率, 非常显然full-associative是做好的. 可是full-associative导致的推断一个地址是否在cache中的代价是非常昂贵的.所以, 生产环境一般都是2-way associative

======================================================

多线程变成中避免以及识别错误的共享变量方式主要解决在SMP环境下cache line被频繁刷新的的问题

Avoiding and Identifying False Sharing Among Threads

http://software.intel.com/en-us/articles/avoiding-and-identifying-false-sharing-among-threads/

举例:

// 例如以下代码在SMP环境下存在cache频繁刷新问题

double sum=0.0, sum_local[NUM_THREADS];

#pragma omp parallel num_threads(NUM_THREADS)

{

 int me = omp_get_thread_num();

 sum_local[me] = 0.0;

 #pragma omp for

 for (i = 0; i < N; i++)

 sum_local[me] += x[i] * y[i];

 #pragma omp atomic

 sum += sum_local[me];

}

由于sum_local数组是个全局变量, 多个线程都会訪问, 而且, 各个线程訪问的地方非常接近, 会导致一个线程更新, 其它CPU的cache line失效.

解决该问题的方法是

1) 不同线程之间尽量少的訪问全局变量, 尽量使用线程局部变量.

2) 假设一定要訪问, 尽量让各个线程自己訪问的区域cacheline对齐.

3) 频繁更新的存储和不频繁更新的存储分开.

cpu性能探究：cache line 原理的更多相关文章

程序与CPU，内核，寄存器，缓存，RAM，ROM、总线、Cache line缓存行的作用和他们之间的联系？
目录缓存什么是缓存 L1.L2.L3 为什么要设置那么多缓存.缓存在cup内还是cup外 MESI协议----主流的处理缓存和主存数据不一样问题 Cache line是什么已经对编程中数组的影响 ...
cache line 伪共享
https://blog.csdn.net/qq_27680317/article/details/78486220认识CPU Cache CPU Cache概述随着CPU的频率不断提升,而内存的访 ...
CPU中的cache结构以及cache一致性
一. 引子在多线程环境中,经常会有一些计数操作,用来统计线上服务的一些qps.平均延时.error等.为了完成这些统计,可以实现一个多线程环境下的计数器类库,方便记录和查看用户程序中的各类数值.在实 ...
<转>科普CPU Cache line
转载于http://coolshell.cn/articles/10249.html CPU cache一直是理解计算机体系架构的重要知识点,也是并发编程设计中的技术难点,而且相关参考资料如同过江之鲫 ...
小师妹学JVM之:cache line对代码性能的影响
目录简介一个奇怪的现象两个问题的答案 CPU cache line inc 和 add 总结简介读万卷书不如行万里路,讲了这么多assembly和JVM的原理与优化,今天我们来点不一样的实战 ...
CPU性能分析工具原理
转载请保留以下声明作者:赵宗晟出处:https://www.cnblogs.com/zhao-zongsheng/p/13067733.html 很多软件都要做性能分析和性能优化.很多语言都会有他 ...
聊聊高并发（三十四）Java内存模型那些事（二）理解CPU快速缓存的工作原理
在上一篇聊聊高并发(三十三)从一致性(Consistency)的角度理解Java内存模型我们说了Java内存模型是一个语言级别的内存模型抽象.它屏蔽了底层硬件实现内存一致性需求的差异,提供了对上层的 ...
深入理解Cache工作原理
内容来源:https://zhuanlan.zhihu.com/p/435031232 内容来源:https://zhuanlan.zhihu.com/p/102293437 本文主要内容如下,基本涉 ...
Cache的原理、设计及实现
Cache的原理.设计及实现前言虽然CPU主频的提升会带动系统性能的改善,但系统性能的提高不仅仅取决于CPU,还与系统架构.指令结构.信息在各个部件之间的传送速度及存储部件的存取速度等因素有关,特 ...

随机推荐

PHP脚本实现凯撒加（解）密
原文:PHP脚本实现凯撒加(解)密今天在看某ctf时候遇到一题凯撒加密的题,然后看到write up里有这样一句顿时感觉这题目有点坑啊,这要不写个脚本来跑要推到啥时候啊,于是又了本文: <? ...
php __autoload使用
官方介绍: void __autoload ( string $class ) 你可以通过定义这个函数来启用类的自动加载. 转载一篇文章: PHP autoload机制详解 (1) autoload机 ...
基于visual Studio2013解决C语言竞赛题之0518回文数
题目
kingso_sort - Taocode
kingso_sort - Taocode 如何编写新sort 由于排序逻辑多种多样,kingso的排序设计成是由一个个排序对象串起的排序链条组成.排序对象之间可以任意组合(只需要改配置文件),就可以 ...
word2vec 中的数学原理具体解释（五）基于 Negative Sampling 的模型
word2vec 是 Google 于 2013 年开源推出的一个用于获取 word vector 的工具包,它简单.高效,因此引起了非常多人的关注. 因为 word2vec 的作者 Tomas ...
Android大放送干：书籍、过程、工具等各种全
完全干燥分享,本文收集Android制定必要的书籍.过程.具.新闻和杂志各种资源.它们能让你在Android开发之旅的各个阶段都受益. 入门 <Learning Android(中文版)> ...
PrintDocument组件打印
运行效果: 代码: using System; using System.Collections.Generic; using System.ComponentModel; using System. ...
javascript笔记整理（正则）
RegExp 对象表示正则表达式,它是对字符串执行模式匹配的强大工具 var re=/e/; var re=new RegExp('e'); 正则表达式的 String 对象的方法 1.search- ...
android handler looper thread
在线程中调用包含创建handler方法的时候,会报错,提示: “need call Looper.prepare()” -- 在创建之前,调用Looper.prepare()方法来创建一个looper ...
C++学习笔记（十二）：重载函数
1. 什么是重载函数假设同一作用域内的几个函数名字同样但形參列表不同.那么这些函数就称之为--重载函数. 比如: void print( const char *cp); void print(co ...

cpu性能探究 ：cache line 原理

cpu性能探究 ：cache line 原理的更多相关文章

随机推荐

热门专题

cpu性能探究：cache line 原理

cpu性能探究：cache line 原理的更多相关文章