【计算机】CPU工作方式、多核心、超线程技术详解
CPU架构
要谈超线程和多核,就不得不谈CPU的架构和逻辑。无关的技术细节太多,这里略去。我们重点谈一下CPU中两个相关的模块:
1)Processing Unit(运算处理单元),简称PU
2)Architectual State(架构状态单元),简称AS
PU一般就是执行运算,比如算数运算加减乘除。AS执行一些逻辑和调度方面的操作,比如控制内存访问等。
单核CPU(先从简单的谈起)
一般一块传统意义的CPU上会有一个PU、一个AS。
比喻:一个小饭馆(单核CPU),夫妻老婆店,老板兼大厨厨房炒菜,老板娘兼服务员点单。这不,来了一个客人,首先,走到老板娘的收银台前,看菜单准备点单。差不多5分钟后,客人点完了一份盖浇饭。老板娘抄好了单,递给了在后厨的老公。老公开始炒菜。在这个例子中,老板娘可以理解成AS,老板/大厨可以理解称PU(干实事的)。
多核CPU
这里说的多核,是多个物理核,比如i3的双核,i5的4核。这中架构下,每一个物理核都有一个PU和一个AS。所以。对于i3来说,就有总共两个PU,两个AS。对于i5来说,就有总过4个PU,4个AS。
比喻:上面小饭馆的列子,对于5、6个客人可能还能忙的过来。但设想一下子来他个16个客人,这队估计要排到街上了。如果再告诉你,每10分种就有16个新客人过来点单。。。完了。生意估计是做不下去了 - 老板、老板娘忙到死。
这时,我们就需要一个更大的单位食堂(多核CPU
)。有4个服务生、4个大厨。4个服务生同时点单,4个大厨同时开炒(1号服务生专给一号大厨下单,二号服务神生专给二号大厨下单。。。以此类推)。这样相比小饭馆一个老板娘、一个客人队列,这里成了4个队列,效率顿时比小饭馆提高4倍。16个客人,平均分配成4个队列,每个队列就只有4个客人了,情况是不是好了很多?
这个应该还是比较容易理解的。
超线程技术(HT)
超线程一般指的是硬件架构方面的:通过增加逻辑处理器5%的裸晶面积,模拟出两个AS ,以此换来cpu15%~30%的性能提升。
简单的说吧,在原来一个core包含一个AS和PU的基础上多模拟出一个AS
比喻:刚刚那个单位食堂,4个服务生,4个大厨,4个队列。会不会效率问题?
有!
设想每个客人都有看单选单的时候,你能保证每个客人都看两眼就下单?有的客人难免会磨磨蹭蹭,问东问西,一个菜点它个15分钟。而设想大厨平均炒一个菜只要10分种。那剩下的那5分钟呢?大厨在厨房闲着没事干,喝茶看报纸。时间全被客人-服务生点菜这个环节给浪费掉了。
那有没有解决方法?我想大家应该都能猜出来了
--- 增加服务生!
这时候,我们给每个大厨多增加一个服务生,从一个服务生变成了两个服务生(AS),服务生1A和服务生1B开两个队列,同时给一个大厨(PU)下单。这样,当出现服务生1A的客人15分钟单子都没有下完的情况下,1B的客人单子很有可能3分钟下好送给大厨开炒了(PU),这样大厨就不会站在厨房傻等1A客人的订单。这样,最大限度地榨干大厨的劳动力
(大厨估计要骂娘了),而对于CPU来说,最大限度的提高了CPU的使用率,减少了CPU的(IDLE)空闲时间。有的时候,真不能怪大厨(PU)不卖力,而是你服务生(AS)叫单太墨迹。
在下图中,橙色和蓝色表明大厨(PU/CPU)是在工作的,白色格子表明大厨(PU)是空闲的。A图是单核没有没有用超线程,B图双核没有超线程,图C是单核启用了超线程。可以清晰地看到,从单核增加到双核(在没有超线程的情况下),CPU使用率并没有增加。而用了超线程后,整体CPU使用率提高了,虽然只是一个核。
左边的图是单核超线程
,右边的图是双核,不带超线程。看出区别了吧?
现在来看实际中多核和超线程的相关问题:
1)i3 双核4线程,和i5 4核4线程,是一回事吗?
首先先说一下i3,i3是双核,开了HT以后,变成4个逻辑核(4线程)。最新的Win10我不知道,但在Win7里面逻辑核是被显示成物理核的,和i5一样。那i3和i5一回事吗?如果你觉得是一回事,那我上面的东东全都是白写了。
i3是4个服务生两个厨子,i5是4个服务生4个厨子,你觉得一样吗????
2)那i5 4核4线程,相比较开了HT的i7(4核8线程)一样吗?
i5是4个服务生4个厨子。i7如果开了HT,是8个服务生4个厨子。当然从CPU利用率尤其是运行多进程/线程程序上面来看,是开了HT的i7好。
3)那i5 4核4线程,相比较关了HT的i7(4核4线程)一样吗?
i5是4个服务生4个厨子。i7如果关了HT,也是4个服务生4个厨子。乍一看差不多,至少在大厨(PU)、服务生(AS)的数量上打成平手。但是i7的单核处理能力要稍强于i5,也就是说i7的厨子是特级厨子,i5的厨子的一级厨子。所以其实i5和i7还是有差距,但是从理论上来说,差距并不是特别大。
总结:理论上来说,i3和i5的差距是相当的大。而i5和i7差距主要是厨子(PU)质量的好坏和多出的那4个服务生。其实差距并不是像i5-i3之间的差距那么大。
4)那对与同一个CPU,比如i7,开了HT有什么优点:
- 并行能力增强:处理多进程/线程的能力加强,对于支持多线程的游戏提供比较明显。
- CPU利用率增高:一般理论上,总体性能提高差不多20%-30%。从这个角度上看,i3开启了超线程,提高了20%-30%整体水平。但是,这就意味着能和i5打成平手了???
如果这是真的话,i5也不要卖了。两个大厨(i3),不是我等拿个鞭子抽抽就能顶的上4个大厨(i5)的。。。。
5) 开HT有什么缺点
- 单核性能下降:
一般在5%-15%之间,主要表现在运行单线程程序。两个AS的额外开销比一个AS的开销要大
比喻:只有一个客人来点餐,指定一号大厨,但你两个服务生站在那儿,而这个客人可能就会过一下脑子,想想,我是找服务生1A呢,还是服务生1B呢?? 这么一想,半分钟过去了。。。是不是还不如只有一个服务生来的简单。
所以现实中我们超算系统测试跑分的时候一般都是要HT关掉的,因为追求极限性能。现在最新的CPU可以做到5%-15%的性能损耗,而老的超线程CPU,比如10几年前的老奔腾4/志强,我见过单核性能超过50%的性能损耗的,启动HT的额外开销极大。
- 电费增加,一般功耗平均上升30%。你多请的4个服务生,不用给工钱???
- 在核特别多的情况下,比如双槽服务器
的情况下,容易发生拥塞。
比喻:试想一个超大的食堂,有56个服务员(双CPU,28核,56线程至强E5系列CPU),来了几百个人过来,是不是会乱了套?大家刚进食堂一开始都不知道该排哪个队了(一般决定排哪个队,是操作系统定下的)。(在操作系统的安排下)一个客人,把56个队列一条一条地查一遍,看看哪条队客人最少就排哪条。。。。
我想问的是,现实中你去食堂打饭,假设有56个队,你会一条一条的检查,找出人最少的队,然后再做决定吗?估计你56条队查完,15分钟过去了,你的小伙伴饭都吃完了。这时候,是不是我将队伍减少到28个队,对你来说会相对容易一些?(当然28队也还还是够累的)
- 老系统支持的差
比如老的Win2008,Win2000,对超线程支持比较差。
比喻:如果食堂比较空,没人。这时候来了两个客人A和B来订餐,结果两个人分别跑到同一个大厨的两个服务生1A和1B上排队(一般这都是操作系统干的好事),你能发现哪儿不对劲吗?
正确的做法应该是A去一号大厨(1号物理核),B去二号大厨(2号物理核)。你让A,B都挤到一号大厨那里,二号、三号、四号大厨啥事没有,闲到死,有意义吗?
其实问题就在于,操作系统不能分辨物理核和逻辑核。看那里有两个服务生,两个队列,就以为有两个大厨,所以把客人A和B分别打发到1A和1B去排队,完全不知道后厨的实际情况 - 究竟有几个大厨。
【计算机】CPU工作方式、多核心、超线程技术详解的更多相关文章
- Lucene系列六:Lucene搜索详解(Lucene搜索流程详解、搜索核心API详解、基本查询详解、QueryParser详解)
一.搜索流程详解 1. 先看一下Lucene的架构图 由图可知搜索的过程如下: 用户输入搜索的关键字.对关键字进行分词.根据分词结果去索引库里面找到对应的文章id.根据文章id找到对应的文章 2. L ...
- 全网最全的Windows下Anaconda2 / Anaconda3里正确下载安装爬虫框架Scrapy(离线方式和在线方式)(图文详解)
不多说,直接上干货! 参考博客 全网最全的Windows下Anaconda2 / Anaconda3里正确下载安装OpenCV(离线方式和在线方式)(图文详解) 第一步:首先,提示升级下pip 第二步 ...
- PHP的核心配置详解
1.PHP核心配置详解 代码在不同的环境下执行的结果也会大有不同,可能就因为一个配置问题,导致一个非常高危的漏洞能够利用:也可能你已经找到的一个漏洞就因为你的配置问题,导致你鼓捣很久都无法构造成功的漏 ...
- MyBatis核心配置文件详解
------------------------siwuxie095 MyBatis 核心配置文件详解 1.核心 ...
- Swing中弹出对话框的几种方式_JOptionPane.showMessageDialog等详解
Swing中弹出对话框的几种方式_JOptionPane.showMessageDialog等详解 在swing中,基于业务的考量,会有对话框来限制用户的行为及对用户的动作进行提示. Swing中 ...
- Nginx 反向代理工作原理简介与配置详解
Nginx反向代理工作原理简介与配置详解 by:授客 QQ:1033553122 测试环境 CentOS 6.5-x86_64 nginx-1.10.0 下载地址:http://nginx. ...
- Nginx 核心配置详解
目录 Nginx 核心配置详解 Nginx 四层访问控制: Nginx账户认证功能: 自定义错误页面: 自定义访问日志: 检测文件是否存在: 长连接配置: 作为下载服务器配置: 作为上传服务器: 其他 ...
- 写给大忙人的nginx核心配置详解
由于当前很多应该都是前后端分离了,同时大量的基于http的分布式和微服务架构,使得很多时候应用和不同项目组之间的系统相互来回调用,关系复杂.如果使用传统的做法,都在应用中进行各种处理和判断,不仅维护复 ...
- StreamSets学习系列之StreamSets的Core Tarball方式安装(图文详解)
不多说,直接上干货! 前期博客 StreamSets学习系列之StreamSets支持多种安装方式[Core Tarball.Cloudera Parcel .Full Tarball .Full R ...
- 计算机网路中CDP,LLDP,STP的详解
CDP,LLDP,STP知识详解 (1) CDP CDP(Cisco Discovery Protoco:Cisco发现协议)是Cisco专有的用来发现邻接点的协议 ,所有的Cisco产品都支持CDP ...
随机推荐
- CMake语法—普通变量与包含、宏(Normal Variable And Include、Macro)
目录 CMake语法-普通变量与包含.宏(Normal Variable And Include.Macro) 1 CMake普通变量与包含.宏示例 1.1 代码目录结构 1.2 根目录CMakeLi ...
- migrate 和makemigrations 命令
在你改动了app下 models.py的内容之后执行下面的命令: Python manger.py makemigrations 相当于 在该app下建立 migrations目录,并记录下你所有的关 ...
- log4j学习记录以及相关配置(精简版)
使用log4j时关键配置 log4j的maven依赖 <dependency> <groupId>log4j</groupId> <artifactId> ...
- py调用shell
py调用shell
- 3D建模服务提供更高效、专业的3D制作能力,“筑”力开发者
3D建模服务(3D Modeling Kit)是HMS Core在图形图像领域又一技术开放.3D建模产品的定位就是要做快速.简洁.低成本的3D制作能力,并陆续开放给有3D模型.动画游戏制作等能力诉求的 ...
- JavaScripts之柯里化与偏函数
参考资料:https://github.com/mqyqingfeng/Blog/issues/42 柯里化(Currying): 定义:柯里化是表示将某个多参数的函数转换为一系列只有一个参数的函数的 ...
- 解读WPF中的Binding
1.Overview 基于MVVM实现一段绑定大伙都不陌生,Binding是wpf整个体系中最核心的对象之一这里就来解读一下我花了纯两周时间有哪些秘密.这里我先提出几个问题应该是大家感兴趣的,如下: ...
- IDE中集成widfly
第一步:添加JBOss服务器,Tomcat同理添加 第二步:选择刚刚部署好的服务器 第三步:启动服务: 注意:与Tomcat略有不同的是,启动的根目录可能不相同,导致一直404 查看启动的根目录: 注 ...
- 基于java处理.docx格式的word合并
如下实例是将 2.docx和3.docx合并,写到empty.docx中,不适用于.doc格式,public static void main(String[] args) { File file1 ...
- Redis 源码简洁剖析 10 - aeEventLoop 及事件
aeEventLoop IO 事件处理 IO 事件创建 读事件处理 写事件处理 时间事件处理 时间事件定义 时间事件创建 时间事件回调函数 时间事件的触发处理 参考链接 Redis 源码简洁剖析系列 ...