Pentium4的新架构 朱云 2000年 第41期   6月28日,英特尔把原来代号为Willamette的下一代32位处理器正式命名为Pentium 4,并表示这款CPU在第四季度正式上市。之前业内一直试图揭开Willamette架构的神秘面纱,事实上也有多种预测架构和性能表现文章在网上流传。当它以Pentium 4的新名称面世的时候,人们终于有机会能够比较确切地了解这款x86兼容、采用NetBurst体系架构的CPU。   在Pentium 4面世前,英特尔的各种主流CPU全部是基于P6体系架构,这个架构从1995年首次在Pentium Pro中亮相以来,已经历了5种生产工艺(最新的是0.18微米、Coppermine内核的Pentium Ⅲ和新赛扬)、两种指令扩展集(MMX和SSE)。英特尔原来打算在1998年推出IA-64体系的64位Merced来替代P6体系,并且引导市场迅速转向64位的CPU平台,可惜至今也没能如愿,而且代号为Merced的Itanium(安腾)上市时间还未正式确定,真正完善的64位CPU只怕还要等待代号为McKinley的新一代产品了。为了改变体系架构无法突破的局面,英特尔一方面尽力延长P6体系的寿命,另一方面在1998年正式开始了P67计划,最终产物就是Pentium 4,而介于P6与IA-64之间全新的NetBurst体系架构也正式浮出水面。   Pentium 4的NetBurst体系架构具有不少明显的优点:20段的超级流水线、高效的乱序执行功能、2倍速的ALU、新型的片上缓存、SSE2指令扩展集和400MHz的前端总线等等。相对于传统的P6架构,它带来了很大的变化。 #1 20段超级流水线   Pentium 4具有20级的流水线结构,相比之下P6结构只有10级。英特尔似乎是参照了NVIDIA的HyperTexel Pipelines(超级图素流水线)的命名风格,把这种20段超级流水线称作Hyper Pipelined Technology(超级流水线化技术)。   那么更多级数的流水线到底能带来什么好处呢?简单地说,最明显的作用就是能够大幅度提高CPU的工作主频。当初Pentium系列使用的5级流水线P5架构体系,主频从60MHz提高到233MHz,大约是4倍;现在10级流水线的P6架构体系,从233MHz提高到1.13GHz,有近5倍之多;NetBurst增加了一倍流水线级数,从1.4GHz主频起步,估计最终至少也能达到10GHz甚至更高。 #1 高效乱序执行   自从Pentium开始,乱序执行和分支预测就成了x86兼容CPU提升执行速度的杀手锏。NetBurst结构具有一个深度的乱序执行引擎,被称作Advanced Dynamic Execution(先进动态执行),能够同时保留和处理多达126条指令,是P6体系的3倍。而且相关的分支预测算法也得到了发展,使Pentium 4的逻辑单元能得到更充足的工作任务,据英特尔的测算能比P6结构减少约30%的预测错误。乱序执行和分支预测两方面的进步相结合将明显提高NetBurst的工作效率。 #1 2倍速ALU   听起来好像未来的ALU(Arithmatic Logic Units,算术逻辑单元)也打算像光驱一样以“倍速”分档次,这其实是不可能的,因为让ALU比CPU的其他部分工作频率高一倍已经很不容易了,何况更高的倍速。Pentium 4首创的这种ALU整数运算单元,以双倍主频的速度工作,称为Rapid Execution Engine(高速执行引擎)。例如1.4GHz的Pentium 4就集成了2.8GHz的整数单元,当然超频时它的速度也成倍提高。 #1 新型片上缓存   Coppermine的Pentium Ⅲ让我们看到,大部分情况下缓存的速度比容量更重要。Pentium 4继承了这一发展方向,不但继续使用256位、256KB的ATC型L2-Cache(在1.4GHz时就能达到约40GB/秒的带宽),还集成了另一种全新的缓存——Trace Cache(可以理解为“跟踪缓存”),能存储x86指令解码后生成的“微操作”指令,比过去直接存储x86指令效率更高(不然还得多次解码),而且能同时存储多达12000个微指令,还可以按照不同的程序分支各自存储以便于读取。因此Trace Cache容量虽小(几KB以内),作用却不容忽视。 #1 SSE2指令扩展   从Pentium Ⅲ开始,CPU就内建了MMX和SSE的扩展集SSE2。SSE2包括144条新的SIMD(单指令多数据)指令,能处理128位、SIMD的整数和浮点双精度数据,还有一些缓存和内存控制指令。   SSE2的问题是需要重新用新的指令编写软件,一旦厂商在开发软件时能够像应用MMX和SSE指令那样迅速推广SSE2指令,必然会带来更好的执行效果:SSE2指令的整数部分将使视频编解码、语音处理、加密解密、图形处理等应用得益,SSE2指令的浮点部分将提高3D游戏、数字媒体创作、金融分析、工程设计、科学计算等的执行效率提高。 #1 400MHz前端总线   英特尔近来在前端系统总线(FSB)方面一直不敌AMD:Pentium Ⅲ最高为133MHz的FSB和内存频率(外频);而AMD的速龙、雷鸟、钻龙用的都是100MHz的内存频率(外频)和200MHz的FSB(类似于CPU倍频的方式来连接这两个频率)。Pentium 4终于有了突破:使用100MHz的内存频率(外频)和400MHz的FSB,利用4倍频的方式实现高速CPU和低速内存的配合,当然Pentium 4也支持DDR SDRAM双倍速内存和双通道的Rambus DRAM。在64位400MHz的FSB下,Pentium 4的外部带宽达到了前所未有的3.2GB/秒,是Pentium Ⅲ的3倍,同代号为Tehama的i850芯片组十分相配。 #1 结 语   Pentium 4的市场定位是在Itanium之前,守住高端CPU的冠军宝座,但目前Pentium 4的高性能仅仅来源于更高的工作频率,价格却很不便宜。我们只能等待软硬件环境的逐步改善,充分发挥出Pentium 4的潜力,届时NetBurst将同IA-64一起为英特尔共同瓜分从高端到低端的CPU市场,形成首尾相顾之势。