一、单指令周期

      由前可知,一条CPU指令的执行有三个步骤:指令读取、指令译码、指令执行。由于这个过程受CPU时钟的控制,如果我们将这个过程安排在一个CPU时钟周期内执行,这种设计思路就叫单指令周期处理器。这样的设计需要将指令周期时间设为与耗时最长的那条指令执行时间相当,这样显然会使得CPU频率比较,会造成一些简单执行时大量CPU时间被浪费,如图示:

基于这种情况,现代的CPU都不是单指令周期处理器,而是采用了一种指令流水线的技术。

二、现代处理器流水线设计

      由于指令的执行一般都可以拆分为多个小步骤,因此我们可以将一个指令的执行分解为诸如“取指令”、“译码”、“执行”这样的散步也可以拆分成更加细的步骤,那么在一个指令的取指令结束之后,可以马上进行下一个指令的取指令操作,如此整个执行效率就可以提高,只要是不存在前后依赖的子指令,理论上都可以并行提高效率。这样一来我们可以把CPU周期时钟周期时间设为一个个小步骤执行的时间即可。这样的协作模式就称为指令流水线,里面每一个独立的步骤就称为流水线阶段流水线级这样我们只需保证一个最复杂的流水线操作在一个CPU时钟周期之内完成就好了。

一个指令可以拆分为几个流水线级就称为几级流水线

      理想情况下,将CPU指令拆分成耗时差不多的流水线级是浪费时间最少的方案。在CPU内部也就像一个工厂一样,不同分工的组建不断的处理上游传递下来的内容,而无需等待上一个产品生产完成后再启动下一个商品的生产。      

三、超长流水线的性能瓶颈

      理论上,流水线级数拆分越深,CPU吞吐率会越高,但增加流水线深度也是有成本的,多增加一级流水线就要多一次写入流水线寄存器的操作,如图:

      当流水线级数多到一定程度,额外的消耗甚至会大于执行指令的耗时。因此,设计合理的指令流水线级数在现代CPU中是非常重要的。

四、主频战争带来的超长流水线

      流水线技术并不能减少单条指令的执行时间,只是能够提高运行很多条指令时的吞吐率。举例如下:

  1. 一条整数加法需要200ps;
  2. 一条整数乘法需要300ps;
  3. 一条浮点数乘法需要600ps;

那么在单指令周期情况下,CPU时钟周期应该设为600ps,结果是在1800ps内执行了3条指令。而如果使用六级流水线,每一级流水线都只需要100ps,那么当第一条指令的第一个stage结束之后,第二个指令的第一个stage就开始执行,第二个指令的第一个stage执行完成后,第三个指令就开始执行,这样三条指令的执行总共耗时800ps,吞吐量上升一倍多。

五、新挑战:冒险和分支预测

     超长流水线技术至少包含以下几个方面的问题:

  1. 功耗问题:由于流水线的加深,电路增加、所需要的晶体管增加了很多,使得功耗和散热问题都极为严重。
  2. 流水线带来的性能提升是理论上的,实际程序执行中,受限于前后步骤的依赖关系,并不一定能够做到;

第二个依赖问题,就是计算机组成里所说的冒险问题,有数据冒险结构冒险控制冒险等依赖问题,总体上流水线越长,要解决的依赖问题越严重。应对这些问题的方案有乱序执行分支预测等,在后面将逐步展开。

(十八)面向流水线的设计:CPU的一心多用的更多相关文章

  1. HBase总结(十八)Hbase rowkey设计一

    hbase所谓的三维有序存储的三维是指:rowkey(行主键),column key(columnFamily+qualifier),timestamp(时间戳)三部分组成的三维有序存储. 1.row ...

  2. Java进阶专题(十八) 系统缓存架构设计 (下)

    前言 上章节介绍了Redis相关知识,了解了Redis的高可用,高性能的原因.很多人认为提到缓存,就局限于Redis,其实缓存的应用不仅仅在于Redis的使用,比如还有Nginx缓存,缓存队列等等.这 ...

  3. 【转载】COM 组件设计与应用(十八)——属性包

    原文:http://vckbase.com/index.php/wv/1265.html 一.前言 书接上回,本回着落在介绍属性包 IPersistPropertyBag 接口的实现方法和调用方式.属 ...

  4. 菜鸟玩云计算之十八:Hadoop 2.5.0 HA 集群安装第1章

    菜鸟玩云计算之十八:Hadoop 2.5.0 HA 集群安装第1章 cheungmine, 2014-10-25 0 引言 在生产环境上安装Hadoop高可用集群一直是一个需要极度耐心和体力的细致工作 ...

  5. COS访谈第十八期:陈天奇

    COS访谈第十八期:陈天奇 [COS编辑部按] 受访者:陈天奇      采访者:何通   编辑:王小宁 简介:陈天奇,华盛顿大学计算机系博士生,研究方向为大规模机器学习.他曾获得KDD CUP 20 ...

  6. 任务三十八:UI组件之排序表格

    任务三十八:UI组件之排序表格 面向人群: 有一定JavaScript基础 难度: 低 重要说明 百度前端技术学院的课程任务是由百度前端工程师专为对前端不同掌握程度的同学设计.我们尽力保证课程内容的质 ...

  7. 【CUDA开发】CUDA编程接口(一)------一十八般武器

    子曰:工欲善其事,必先利其器.我们要把显卡作为通用并行处理器来做并行算法处理,就得知道CUDA给我提供了什么样的接口,就得了解CUDA作为通用高性能计算平台上的一十八般武器.(如果你想自己开发驱动,自 ...

  8. 最全的MySQL基础【燕十八传世】

    1.课前准备! 开启mysql服务:1).配置环境变量;2).net start mysql 将该sql文件导入到你的数据库中,以下所有操作都是基于该数据库表操作的!!! [此笔记是本人看着视频加上自 ...

  9. Web 前端开发人员和设计师必读文章推荐【系列二十八】

    <Web 前端开发精华文章推荐>2014年第7期(总第28期)和大家见面了.梦想天空博客关注 前端开发 技术,分享各类能够提升网站用户体验的优秀 jQuery 插件,展示前沿的 HTML5 ...

随机推荐

  1. System.Net邮件发送功能踩过的坑

    System.Net邮件发送功能踩过的坑 目录 System.Net邮件发送功能踩过的坑 1.EazyEmail邮件发送类库 2.邮件发送授权码与邮件密码 3.通过邮件密码来发送邮件 4.Wiresh ...

  2. 虚拟机中安装Centos 7

    VMware中安装centos7系统 一.首先需要准备必要文件 1.VMware软件的安装包,建议使用12以上版本 VMwareWorkstation14版本下载链接 链接:https://pan.b ...

  3. 痞子衡嵌入式:超级下载算法(RT-UFL)开发笔记(2) - 识别当前i.MXRT型号

    大家好,我是痞子衡,是正经搞技术的痞子.今天痞子衡给大家介绍的是超级下载算法开发笔记(2)之识别当前i.MXRT型号. 文接上篇 <超级下载算法(RT-UFL)开发笔记(1) - 执行在不同CM ...

  4. 经典c程序100例==61--70

    [程序61] 题目:打印出杨辉三角形(要求打印出10行如下图) 1.程序分析: 1 1 1 1 2 1 1 3 3 1 1 4 6 4 1 1 5 10 10 5 1 2.程序源代码: main() ...

  5. exec 家族库函数以及系统调用(execl,execle,execlp and execv,execvp,execve)

    (1)exec函数说明 fork函数是用于创建一个子进程,该子进程几乎是父进程的副本,而有时我们希望子进程去执行另外的程序,exec函数族就提供了一个在进程中启动另一个程序执行的方法.它可以根据指定的 ...

  6. Spring Boot 创建 Docker 镜像

    随着越来越多的组织转向容器和虚拟服务器,Docker正成为软件开发工作流程中一个更重要的部分.为此,Spring Boot 2.3中最新的功能之中,提供了为Spring Boot应用程序创建 Dock ...

  7. new与malloc的10点区别(转)

    1. 申请的内存所在位置 new操作符从自由存储区(free store)上为对象动态分配内存空间,而malloc函数从堆上动态分配内存.自由存储区是C++基于new操作符的一个抽象概念,凡是通过ne ...

  8. umask及文件默认和原始权限说明

    umask作用:设置了用户创建文件的默认权限.是权限的补码,一般在/etc/profile.$ [HOME]/.bash_profile或$[HOME]/.profile中设置umask值. 查看um ...

  9. Proftp最简匿名访问配置

    前言 每一次做ftp的配置都要弄半天,找文档,各种权限控制的坑,折腾半天,这次还是准备记录下来,以备不时之需,这里不配置什么高级的功能,就去实现一个最简单的配置 匿名用户的上传和下载 配置proftp ...

  10. Redis分布式锁的正确使用与实现原理

    模拟一个电商里面下单减库存的场景. 1.首先在redis里加入商品库存数量. 2.新建一个Spring Boot项目,在pom里面引入相关的依赖. <dependency> <gro ...