【IT168 评测】记得2007年中旬,当奔腾双核的到来让国内主流用户开始体验到酷睿架构强大之时,Intel就放出了酷睿的下一代架构Nehalem的相关消息,当时其集成内存控制器的消息就已经令我们兴奋不已。时至2008年十月,当Intel的全线处理器产品几乎全部转入45nm工艺之后,新架构Nehalem的首款产品终于来到了我们的面前,和之前新架构总是先亮相于服务器或是移动平台不同的是,这次Nehalem架构的全新产品首先出现在了桌面平台上,对应于Core 2 Duo或是Core 2 Quad,Intel将这个全新的产品系列命名为Core i7。
![]() |
| Nehalem将在未来一年中不断给人惊喜 |
Nehalem除了带来全新的架构之外,更会从产品内部设计上区分高中低端产品,这也是其从消息放出之日起一直备受关注的原因,例如将于2009年下半年推出的Nehalem低端产品Havendale就将完全整合现在主板上的北桥芯片,甚至包括显示芯片,它的出现将意味着我们的PC将会拥有更低的功耗和价格。当然,由于涉及周边设备的更新也更为广泛,因此Intel也选择了逐步退出产品以供用户过渡的推广方式,首先在2008年第三季度如约亮相的便是眼下的Core i7系列。究竟Nehalem的架构相对强大的酷睿2还能有哪些进步,全新的Core i7相对前作性能表现如何,这些问题我们今天都将为大家做出详细的解答。
点击查看相关文章:
Core i7很能超 Bloomfield直上4G无问题
首批Core i7 900处理器详细规格曝光
八核心Nehalem处理器明年下半年面世
[IDF08]基辛格演讲:Nehalem集群演示
![]() |
大家现在应该已经非常熟悉Intel的Tick-Tock战略了,这个战略简而言之就是Intel处理器在奇数年进行制程转换(Tick),例如2005年的65nm和2007年的45nm,而在偶数年进行处理器的架构更新(Tock),今年2008年理所当然的轮换到了Tock,也就是处理器的架构更新。在今年四月的上海IDF和九月的旧金山IDF上,Intel都向外界详细讲述了Nehalem的详细架构和设计,从我们参与的情况来看,两次的讲述并没有什么不同,只是个别技术在近期作出了名称更改而已。
![]() |
Nehalem作为Intel用以取代Penryn微架构的新一代处理器架构,和Penryn相比,Nehalem的微架构是崭新的,,但是除此之外,Nehalem加入了许多令人更为兴奋的设计,其中最大的特点便是采用了可扩展的模块化设计,它将处理器划分为两个部分:Core核心和Uncore非核心,所有产品线的Nehalem处理器,其Core核心部分都是一样的,只是Uncore部分可能不同,以满足Intel对其提出的动态可扩展的要求。Nehalem满足了这个要求,它的内核具有可扩展的高可伸缩架构。
![]() |
由于共处在一个Tick-Tock上,因此Nehalem和Penryn都同样属于45nm工艺,从65nm工艺转变到45nm工艺带来的巨大能耗降低已经无法再次重新,因此Nehalem就不再注重于能耗的降低,而是注重于性能的提升,这样的设计理念,带来了处理器架构的巨大变化,这些变化均面向性能的提高,也即是说,我们可以期望Nehalem具有着强大的性能。
![]() |

在核心之内这一部分,事实上和Penryn一样,由于成功取代NetBurst架构的Core微架构是一个强大的架构,因此Nehalem的大部分微架构设计仍然源自于Conroe(也就是我们常说的Core)。从大架构上看,Nehalem的内核架构逻辑图变化不大,基本执行顺序和Core和很相似的,只是在内核外面明显多了一层L3缓存,但是事实上在这其中的各个阶段,Nehalem和Core相比都有了改进。

首先,在负责计算引擎供给的前端(Front End)部分,酷睿2的特性包括了4位解码、宏融合、环流检测器(循环检测器)的特别设计。相对而言,Nehalem的宏融合性能更加强大,而且,可以支持Core不支持的64位宏融合模式,这对于提高处理器在64位系统的性能表现是大有裨益的。

Loop Stream Detector,我们称之为环流检测器,Loop循环是在编程中极为常见的设计,在执行中也是极频繁,Core架构通过加入专门的逻辑来检测循环语句,关闭不需要的重复分支预测,达到提升性能的目的,Nehalem将其更近一步,将重复的预取和重复的解码都省去了,循环性能更强大。
![]() |
第二、在分支预测部分,分支预测是现下处理器提升性能的重要架构,通过预先判断语句的执行方向,从而能先发制人,尽早得到计算结果。Nehalem继续提升了自Pentium Pro一直延续到Core的分支预测,提供了更高的分支预测准确率。针对目前例如数据库应用这样的大量执行代码的软件不能适应现存的分支预测器地情况,Nehalem搭载了多级分支预测机制,提供了更高的性能表现。
RSB(Rename Stack Buffer重命名的返回堆栈缓冲器),编程人员应该对堆栈很熟悉了,包含中断/多进程的操作系统必然存在着堆栈结构,通过新增的RSB特性,函数返回在Nehalem中可以具有相对独立的返回堆栈,没有RET错误,没有溢出问题。
![]() |
第三、在执行单元部分,Nehalem的新执行单元可以在每一个周期内同时执行6个操作,作为对比,Pentium 4 HT是3个(就是3个,就让超线程的出现成为可能),这6个操作中包含了3个内存操作,3个计算操作,并且共享着统一的保留站点,可以被所有整数、浮点使用,方便于安排统一的执行进度表,可以预见,Nehalem的多线程性能会比当前的Core更强,除了增强的并行执行单元之外,Nehalem还通过增加其他结构来提升并行处理性能,例如载入缓冲器和存储缓冲器。
![]() |
第四,在内存子系统部分(这个内存子系统主要是指处理器内部的缓存架构),对比与Core2的SmartCache技术,Nehalem又作了三个改进:新的TLB层级、快速的16-Byte无排列通道、更快速的同步原语。其中,除了传统的Instruction TLB和Data TLB之外,Nehalem还多出了一个L2 Unified TLB架构,所有的指令和数据都可以共享这个TLB架构,便于提升多线程运行的性能;原语指的是一种在编程中使用到的指令格式,新加入的同步原语LOCK prefix,XCHG将会提升多线程应用的性能,Intel表示Nehalem的同步延迟比Pentium 4快300%以上,比Core 2快33%以上。
![]() |
![]() |
最后,在Pentium 4时代被大家所熟知的HyperThreading超线程技术回归到了Nehalem架构当中,现在它被称之为SMT同步多线程技术,从执行上而言它和HT技术是完全一样的,只是借助Nehalem增强的RSB和ITLB架构,Nehalem的超线程性能比起老前辈来要更为强大。
![]() |
| SMT技术如同HT超线程技术一样可以在主板BIOS中选择开启或关闭 |
![]() |
首先,在企业级运算上,数据处理任务非常繁重,这需求着更大缓存的,在以往的架构中,通常是为不同的型号制作不同容量的L2缓存,这提高了设计的复杂性。而Nehalem通过新的三级高级缓存架构解决了这个问题,Nehalem将第三级缓存放入Uncore非核心部分,从而可以方便地设计出不同容量的L3缓存版本,同时,通过将L3放入Uncore部分,保持了Core部分的完整性和独立性,设计上也跟方便了。将L2与Core划分开来,也有助于实现所有核心共享L3 Cache。
![]() |

通常缓存具有两种设计:非独占和独占,Nehalem处理器的L3采用了非独占高速缓存设计,并采用了“内核有效”数据位的额外设计,避免了非独占缓存的短处。
![]() |
![]() |
![]() |
第二,QPI总线取代FSB总线,为了解决多核心以及多路处理器系统通过FSB总线与北桥通信的瓶颈,QPI总线被应用在了Nehalem架构中,QPI总线以前叫做CSI总线,它的出现大大增加了Nehalem的可扩展性。在处理器增加的情况下,每个处理器都可以继续通过QuickPath和其他处理器互相、直接连接,在处理器数量持续提升的情况下,系统拥有的处理器带宽乃至内存带宽都会持续提升。每个QuickPath链路可以提供25.6GB/s的双向带宽。


第三,整合的内存控制器,整合内存控制器可以说是Nehalem架构最突出的改变,这个内存控制器处于内核之外,因此并不是所有的Nehalem处理器都具有这个内存控制器,这样的灵活设计可以满足从笔记本到服务器的要求。Nehalem集成的内存控制器支持DDR3-1333内存,并能支持3个通道,支持RDIMM和UDIMM(Registered DIMM是服务器上常用的设计)。
![]() |
![]() |
![]() |
集成内存控制器在多处理器系统中存在的问题就是:会形成一个和传统UMA(一致内存架构)不同的NUMA(不一致内存架构),或者理解为不均匀内存存取。这是由于不同处理器连接的内存之间的通信问题引起的。通过快速的DDR3三通道内存,Nehalem成功地将这些不均匀的影响降到了最低,在上图中表示,在最慢的远端读取中,Nehalem的存取延迟也要比Penryn要快,更别提快速的本地内存读取了。
|
![]() |
最后,SSE4指令集是自SSE以来最大的一次指令集扩展,它实际上分成了三个阶段来更新:提前发布的SSSE3、Penryn中出现的SSE4.1和Nehalem中出现的SSE4.2,其中成熟的Penryn中集成的SSE4.1占据了大部分的指令,因此Nehalem中的SSE4指令集更新很少,只有7条指令。
![]() |
为了发挥新指令集的功能,自然需要在程序设计方面的支持,Intel在这方面的支持向来不遗余力,Intel C++ Compiler 10.x版本中已经实现了对SSSE3、SSE4.1、SSE4.2的支持,流行的Microsoft Visual Studio 2008发行版本也提供了内在的SSE4支持。
![]() |
| 由于加入了更多核心外的复杂设计,因此Core i7的背面也更加复杂 |
![]() |
| Core i7 940的缓存信息 |
Core i7 965 Extreme、940及920处理器,核心代号Bloomfield,均采用原生四核心设计,基于45nm工艺生产,拥有7.31个晶体管,每个核心拥有256KB的独立二级缓存,四个核心共享8M容量的三级缓存,TDP为130W。由于缓存总容量较之Penryn四核还有所下降,所以其晶体管数量实际上还略低于Penryn四核心。但由于三级缓存及内存控制器等复杂设计的加入,Intel为Bloomfield设计了一个LGA 1366接口,这也直接使得最终产品看上去比起LGA 775接口的产品大了不少,处理器基板上的金属触点是为了Debug而设计。
![]() |
| 扩展插槽 |
主板具备两条PCI-E 2.0 16X插槽,支持双16X的全速Crossfire,并未变态到划分成四通道的设计,由于NVIDIA要到十月才能开放对X58的SLI授权,所以这块主板目前暂时无法支持SLI。主板只有一个PCI插槽,是比较激进的做法,玩声卡或玩视频的用户可能会比较痛苦。PCI-E 4X插槽采用后开槽的设计,以方便16X接口的扩展卡插入。
![]() |
| I/O部分 |
I/O部分Intel再次非常激进,我们已经见过很多主板取消了鼠标的PS2接口,只留了个键盘的PS/2口,这块DX58SO则是全部去掉,只留了八个USB 2.0,常见的鼠标键盘接口位置变成了两个E-SATA。
首先,Core i7 940的主频为2.93GHz(133×22),而在45nm的Intel酷睿2四核产品中,并没有一款主频为2.93GHz的产品,因此我们在测试Core i7 940之余,重点放在了主频为2.66GHz的新老产品的对比上。由于Intel自家的DX58SO主板支持对CPU倍频的调整,因此我们将这颗Core i7 940同时降低倍频至20(133×20),这样它就与一颗正式版的Core i7 920处理器没有任何区别,在性能表现上自然也是完全一致的,对比对象选择主频同为2.66GHz的Core 2 Quad Q9450。
在内存系统上,由于Core i7支持的是三通道而Core 2 Quad支持的是双通道,因此两套平台在容量上已经无法统一,Core i7使用三条1GB DDR2 1333内存组建三通道,而Core 2 Quad使用X58配合两条1GB DDR2 1333组建双通道,时序统一设置在7-7-7-20。
![]() |
Sysmark 2007以模拟主流应用软件的方式来进行测试,因此测试结果也倍受多方青睐,甚至是作为Intel向PC厂商作为CPU性能水平区分的参考基准。从结果来看,Core i7 940自然是拥有最高的总分,920略高于同样频率的Q9450。在子项中,Core i7在3D项目上表现最好。
pcmark vantage是用以替代pcmark05的全面测试,测试成绩来看,在总分和多个子项测试中,同频率的920与Q9450成绩都差不多,频率较高的940成绩会稍好一些。在游戏子项测试中,920和940都获得了非常高的分数,远胜Q9450,Communication通信子项测试可能存在误差,数据结果供参考。
内存性能一直是Intel平台的软肋,这当然是由于其内存控制器一直存在于北桥芯片中,直到酷睿2的出现,内存性能都是竞争对手AMD勇于称道之处。但这种情况在Core i7上不复存在,从多个测试项目来看,内存设置在同样的速度下,内置三通道内存控制器的Core i7要比双通道的Core 2快一倍以上,内存延迟也要低40%左右。
由于QPI总线的加入,Core i7的内存传输速度和延迟也有了非常大的改善,相对前作Core 2 Quad均有一倍以上的改进表现。
![]() |
![]() |
无论是在一般环境还是在.NET环境下,Core i7相对Core 2 Quad的运算速度提升都非常多
CPU Queen是著名的关于10皇后问题的数学计算Photoworxx是对图片进行旋转裁剪填充等处理的测试
CPU Zlib是打包压缩测试
Julia与SinJulia分形几何计算
Mandel分形几何计算测试
CPU AES是一种加密计算测试
得益于更快的内存性能,Core i7在Everest内置的各项数学测试程序中也表现不错,920相对同频的Q9450有15%至30%左右的性能提升。
Excel 2007运算测试是使用Excel 2007软件导入两个较大的表格文件,按照其中的宏命令进行运算得出结果,一般来说这个和实际应用较为贴近的测试比较依赖CPU的核心数量和二级缓存容量。
在这项测试中,拥有SMT技术的Core i7处理器是以八线程的模式进行运算的,因此即便是在同频率下也比Core2 Quad快不少。
Cinebench R10光线追踪渲染测试中,Core i7同样是以八线程来运算,速度自然要比Core 2 Quad快很多,视频压缩这种主流应用结果同样如此。
Core i7有着非常好的3DMark理论测试成绩,当然这只限于CPU测试子项,3DMark测试总分的权重还是偏重于显卡部分。
《HL2》在低画质下能够检验出CPU对游戏速度的影响,不过三款产品成绩相差不大。
DX10类的三项游戏测试可能多少有些令人失望,同频率的Core i7 920和Core 2 Quad Q9450的差距并不很大,唯一的亮点是在《失落星球》的第二个场景中,这个场景比较考验CPU的多线程运算能力,Core i7在打开八线程之后成绩远胜Core 2 Quad Q9450。
![]() |
| 我们推荐Core i7用户使用三根同样的DDR3内存 |
关于三通道内存
记得双通道内存刚刚推出之时,Intel就建议用户使用同样品牌、规格的内存来组建双通道,以避免兼容性或是无法组建双通道的问题。现在看来这种问题又出现在了三通道系统上,我们在测试之前尝试用两对不同品牌、规格也并不相同的内存来组建双通道,结果是任意2+1的组合都无法亮点系统,即便是设置一个两种内存都可以达到的频率和参数也不行。
![]() |
关于性能
对于酷睿2架构,用户在性能上唯一不满的可能就是内存性能了,这也是到目前为止AMD一直占绝对优势的所在,但是Core i7的出现完全改变了这一点,凭借着整合了高效的三通道内存控制器及QPI总线,Core i7有着一倍以上于上代产品的内存速度,延迟也降低了近一半,这种性能表现当扩展到服务器平台后显然将产生更强的效应。而综观实际应用测试来看,对于Intel宣称同频率Nehalem比Penryn快约10%的说法,我们认为也是可信的。但对于游戏性能而言,Core i7表现并不算出色,不过这也很好理解,对于目前主流的DX9或是DX10游戏,无论什么频率或是什么分辨率来运行,瓶颈都往往出现在显卡而非处理器上。

关于定位及竞争对手
Core i7目前尚未正式发布,从其出货之日起,它将逐步替代Intel现有的高端及发烧级Core 2 Quad处理器,从上表的规格及报价我们可以看出,Core i7 920将是最吸引人的一款产品。但即便是其284美元的报价,在国内的售价也将肯定高于2000元,我们知道在这个价位上竞争对手AMD是没有产品的,倘若在Core i7正式出货之时,AMD还拿不出Phenom FX的话,Core i7将没有竞争对手。
![]() |
Nehalem带来什么
和现有的酷睿2多核系列产品相比,集成了内存控制器的Nehalem大幅提升了内存性能,这意味着AMD在性能上最后一个领先的领域也将失守。此外,Nehalem系列产品在保持了当前酷睿2的高性能的同时,凭借着SMT技术和新加入的7条SSE指令集,更加强化多线程运算以及多媒体处理的性能。携目前所向披靡的性能,Nehalem将在接下来一段时间里,不断强化和拓展处理器的核心之外设计,为服务器、桌面及移动平台同事提供更低功耗、更强性能及更低价格的解决方案。