之前很长一段时间,潜心修炼汇编,专门装了一个dos7,慢慢玩到win32汇编,再到linux的AT&A汇编,尝试写mbr的时候期间好几次把centos弄的开不了机,又莫名其妙的修好了,如今最大的感触就是:球莫名堂,还不如写JAVA。

对于比较高层的语言来说,都不会太在意底层是如何运作的,这是个好事,也是个坏事,好事是不用关心底层的繁琐的事情,只需聚焦到业务实现,坏处就是出现比较严重的问题难以排错,很容易出现看起来很漂亮但就是性能很渣的代码。

有如下两段代码:

for (int i = 0; i < longs.length; i++) {
for (int j = 0; j < longs[i].length; j++) {
Long k = longs[i][j];
}
}
for (int i = 0; i < longs.length; i++) {
for (int j = 0; j < longs[i].length; j++) {
Long k1 = longs[j][i];
}
}

看起来长的一样是不是?两段代码看起来都没啥问题是吧,相信很多人都或多或少的撸过这样的两段代码,但是这两段代码的运行效率比较是:

第二段代码执行效率比第一段代码低300倍

完整的测试代码:

public class RepeatIterator {

    private static final int ARRAY_SIZE = 10240;
private Long[][] longs = new Long[ARRAY_SIZE][ARRAY_SIZE]; public static void main(String[] args) {
new RepeatIterator().iteratorByRow();
new RepeatIterator().iteratorByColumn();
} private void iteratorByRow() {long start = System.currentTimeMillis();
for (int i = 0; i < longs.length; i++) {
for (int j = 0; j < longs[i].length; j++) {
Long k = longs[i][j];
}
}
System.out.println("iterator by row:" + (System.currentTimeMillis() - start));
} private void iteratorByColumn() {long start = System.currentTimeMillis();
for (int i = 0; i < longs.length; i++) {
for (int j = 0; j < longs[i].length; j++) {
Long k1 = longs[j][i];
}
}
System.out.println("iterator by column:" + (System.currentTimeMillis() - start));
}
}

执行结果:

iterator by row:6
iterator by column:1737 Process finished with exit code 0

代码为何执行缓慢,机器为何频繁卡死,服务器为何屡屡宕机,看似美丽的代码背后又隐藏着什么,这一切的背后,是程序员人性的扭曲还是道德的沦丧,是码农愤怒的爆发还是饥渴的无奈,让我们跟随镜头走进计算机的内心世界,解刨那一段小巧的for循环。

当我们撸了如下一行代码的时候:

private static final int ARRAY_SIZE = 10240;
private Long[][] longs = new Long[ARRAY_SIZE][ARRAY_SIZE];

在计算机的内存里面是如下分布(至少在我的计算机里面是这样分布的):

可以明确的看到在内存中的数组大小为10240,也就是我们定义的大小,以及他的的地址(这并不是实际的物理地址,8086里面是段的偏移地址,i386里面是分页地址),但是当遍历该数组的时候,并不是直接从内存地址中取出这些数据,因为内存对于cpu来说:太慢了。为了充分利用cpu的效率,于是人们设计出了cpu缓存,目前已经存在三级cpu缓存,而不同的缓存意义并不一样,特别是写多核编程的时候,如果对cpu缓存的理解不到位,很容易死在伪共享里面。

一个具有三级缓存的图示如下:

其中1级缓存并不是一块缓存,而是2个部分,分别为代码缓存和数据缓存,1级和2级缓存为单个cpu独享,其他cpu不能修改到里面的数据,而3级缓存,则为多个cpu共享,而cpu伪共享,也是发生在这个位置,程序定义的数据,大多时候缓存在3级缓存,缓存也是行导向存储,通过如下方式可以查看一行缓存能够存储多少数据:

cat /sys/devices/system/cpu/cpu0/cache/index0/coherency_line_size
64

64代表64个字节,一个Long对象的长度是8个字节,那么64个字节可以缓存8个Long,数组在内存中是一片连续的地址空间(物理也许不一定,但逻辑地址一定连续),这就意味着如果定义个一个8个长度的Long数组,当访问第一个数组元素被添加到缓存的时候,那么其他7个顺带的0消耗的就加载到了缓存中,这时候如果访问数组,那么速度是最高效的。也就是意味着,要充分利用缓存的特性,数据已定要按照行访问,否则会造成cache miss,这时候会从内存中获取数据,并且计算是否需要将其缓存,会极大的降低速度。

在上面的例子中,定义的二维数组,当使用第一种方式访问的时候,会发生如下情况:

1.访问第一行第一个元素,如果缓存中不存在(cache miss),从内存中获取,并且将其相邻的元素同时缓存。

2.访问第一行第二个元素,直接缓存取出(cache命中)

举个例子:

public class CacheLoad {

    private static final int ARRAY_SIZE = 10240;
private Long[][] longs = null;
public static void main(String[] args) {
new CacheLoad().iterator();
new CacheLoad().iterator();
} private void iterator() {
if (longs == null) {
longs = new Long[ARRAY_SIZE][ARRAY_SIZE];
for (int i = 0; i < longs.length; i++) {
for (int j = 0; j < longs[i].length; j++) {
longs[i][j] = new Random().nextLong();
}
}
}
long start = System.currentTimeMillis();
for (int i = 0; i < longs.length; i++) {
for (int j = 0; j < longs[i].length; j++) {
Long k = longs[i][j];
}
}
System.out.println("iterator:" + (System.currentTimeMillis() - start));
}
}
iterator:5
iterator:1 Process finished with exit code 0

第二次的查询速度理论(实际可能会大于,因为cpu线程切换,访问过程中可能被系统其他资源抢占cpu)是小于等于第一次,因为会减少将第一个元素缓存的时间,另外并不是全部的数据都会尽缓存,这不是程序所能控制。

当我们采取第二种方式访问的时候,会发生如下情况:

1.访问第一行第一个元素,如果缓存中不存在(cache miss),从内存中获取,并且将其相邻的元素同时缓存。

2.访问第二行第一个元素,如果缓存中不存在(cache miss),从内存中获取,并且将其相邻的元素同时缓存。

。。。。。。。

由此可以看到,采用第二种方式访问数组的时候,很大的概率会造成cache miss,第二条cache冲掉第一条cache,极端情况是每次都miss,并且无论执行多少次,始终会miss,例如:

public class CacheLoad {

    private static final int ARRAY_SIZE = 10240;
private Long[][] longs = new Long[ARRAY_SIZE][ARRAY_SIZE];;
public static void main(String[] args) {
new CacheLoad().iterator();
new CacheLoad().iterator();
new CacheLoad().iterator();
new CacheLoad().iterator();
} private void iterator() {
long start = System.currentTimeMillis();
for (int i = 0; i < longs.length; i++) {
for (int j = 0; j < longs[i].length; j++) {
Long k = longs[j][i];
}
}
System.out.println("iterator:" + (System.currentTimeMillis() - start));
}
}
iterator:1658
iterator:1697
iterator:1915
iterator:1728 Process finished with exit code 0

可以看到无论执行多少次,速度并不会因此变快,可以看见几本cache 全部失效,由此带来的性能是极低的。

撸代码的时候,且撸且小心。。。

(原)一段看似美丽的for循环,背后又隐藏着什么的更多相关文章

  1. 美丽的for循环语句

    美丽的for循环语句 题目:用for循环语句实现四个三角形不同的形状.   图案:    ---------------第一个三角形图形形状----------------**********第二个三 ...

  2. 浅谈《剑指offer》原题:不使用条件、循环语句求1+2+……+n

    转载自:浅谈<剑指offer>原题:求1+2+--+n 如侵犯您的版权,请联系:windeal12@qq.com <剑指offer>上的一道原题,求1+2+--+n,要求不能使 ...

  3. 统计无符号整数二进制中1的个数(Hamming weight)

    1.问题来源 之所以来记录这个问题的解法,是因为在在线编程中经常遇到,比如编程之美和京东的校招笔试以及很多其他公司都累此不疲的出这个考题.看似简单的问题,背后却隐藏着很多精妙的解法.查找网上资料,才知 ...

  4. opengl入门学习

    OpenGL入门学习 说起编程作图,大概还有很多人想起TC的#include <graphics.h>吧? 但是各位是否想过,那些画面绚丽的PC游戏是如何编写出来的?就靠TC那可怜的640 ...

  5. OpenGL入门学习(转)

    OpenGL入门学习 http://www.cppblog.com/doing5552/archive/2009/01/08/71532.html 说起编程作图,大概还有很多人想起TC的#includ ...

  6. OpenGL理解

    说起编程作图,大概还有很多人想起TC的#include <graphics.h>吧? 但是各位是否想过,那些画面绚丽的PC游戏是如何编写出来的?就靠TC那可怜的640*480分辨率.16色 ...

  7. OpenGL入门学习(转载)

    说起编程作图,大概还有很多人想起TC的#include <graphics.h>吧? 但是各位是否想过,那些画面绚丽的PC游戏是如何编写出来的?就靠TC那可怜的640*480分辨率.16色 ...

  8. OpenGL------在Windows系统中显示文字

    增加了两个文件,showline.c, showtext.c.分别为第二个和第三个示例程序的main函数相关部分.在ctbuf.h和textarea.h最开头部分增加了一句#include <s ...

  9. .CN根域名被攻击至瘫痪,谁之过?【转】

    2013年8月25日凌晨,.CN域名凌晨出现大范围解析故障,经分析.CN的根域授权DNS全线故障,导致大面积.CN域名无法解析.事故造成大量以.cn和.com.cn结尾的域名无法访问.直到当日凌晨4点 ...

随机推荐

  1. BZOJ4415:[SHOI2013]发牌(线段树)

    Description 假设一开始,荷官拿出了一副新牌,这副牌有N张不同的牌,编号依次为1到N.由于是新牌,所以牌是按照顺序排好的,从牌库顶开始,依次为1, 2,……直到N,N号牌在牌库底.为了发完所 ...

  2. 整个ssd的网络和multibox_loss_layer

    总结说来prior_box层只完成了一个提取anchor的过程,其他与gt的match,筛选正负样本比例都是在multibox_loss_layer完成的 http://www.360doc.com/ ...

  3. maven 项目运行找不到类

    其实maven 仓库有jar包,可能未编译或破损, 在本地仓删除它,然后maven install

  4. Android学习笔记_79_ Android 使用 搜索框

    1.在资源文件夹下创建xml文件夹,并创建一个searchable.xml: android:searchSuggestAuthorityshux属性的值跟实现SearchRecentSuggesti ...

  5. (转)超级实用且不花哨的js代码大全

    事件源对象 event.srcElement.tagName event.srcElement.type 捕获释放 event.srcElement.setCapture();  event.srcE ...

  6. react(三):容器组件和傻瓜组件

    让一个组件只专注于一件事,如果发现让一个组件做的事情太多,就可以把这个组件拆分成多个组件让每一个组件只专注于一件事 <深入浅出react和redux> ---程墨 一个react组件最基本 ...

  7. 设置Oracle数据库开机自启动

    1.oracle 用户下 修改$ORACLE_HOME/bin/dbstart   vim /home/oracle/database/product/12c/db_1/bin/dbstart 将OR ...

  8. jquery mobile 移动web(6)

    jquery mobile 针对移动端设备的事件类型. 1.touch 事件. tap 快速触摸屏幕并且离开,类似一种完整的点击操作. taphold 触摸屏幕并保持一段时间. swipe 在1秒内水 ...

  9. leetcode笔记(七)529. Minesweeper

    题目描述 Let's play the minesweeper game (Wikipedia, online game)! You are given a 2D char matrix repres ...

  10. 大学C++程序设计教程期末复习重点

    第一章 1.cin与count的应用<iostream> 例: cin>>a; cout<<"hello"<<endl; cout& ...