深入探秘Athlon XP Hardsky 2001年 47期 编者按:11月6日,AMD(Advanced Micro Devices)公司在北京发布了全新的AMD Athlon XP 1900+处理器。这是目前以Athlon XP命名的最快的AMD处理器,目标锁定Pentium4 2GHz。我们曾经在41期C1版简单介绍过有关Athlon XP的情况,现在一起来深入了解这个系列的处理器究竟为我们带来了什么新东西。   #1什么是TPI   TPI是AMD计划推动发展的一个真实性能标准(True Performance Initiative,简称TPI)。TPI还将定义一个全新的、更加准确的处理器性能评测手段。根据TPI的定义,AMD认为处理器的性能应该以“处理器单位时钟周期的工作能力×时钟速度”值来衡量。我们通常用IPC(每周期执行指令数)来表示处理器单位时间周期的工作能力,比如一个周期内能完成多少个浮点乘法指令。用这个能力值再乘以工作频率(相当于相同时间下能进行多少个时钟周期),才能完整地表现处理器的整体性能,而不单单是频率或每秒所能执行的指令数就等于性能。那为什么我们以前没有认识到这个问题呢?   该公式显示了性能可以通过增加频率、IPC或优化两者来改进。虽然同时增加频率和IPC通常不是切实可行的, 但增加一项而保持另一项为常量一样能够获得非常重要的高水平的性能。在286、386、和486 处理器时代,AMD与英特尔的产品内部结构是相同的,也就是说两者的IPC基本上是一致的,速度(直接以MHz衡量)自然而然地成为性能的代表。但从第五代x86处理器开始,AMD和英特尔的产品内部结构开始出现分化。从笔者得到有关的技术资料(如^47030101a^)可以看出,英特尔处理器从486DX到PentiumⅢ,跟上一代处理器相比,其每时钟周期的工作量和频率都在逐步提高。而到了Pentium4,却出人意料了,因为它的IPC值变小了,也就是说,虽然Pentium4的时钟频率提高了不少,目前已经达到了2GHz,但是每一时钟周期完成的工作却减少了,因此其整体性能也就大打折扣。   #1QuantiSpeed新架构   Athlon和Athlon XP的一个重要区别就是新处理器采用了AMD的QuantiSpeed新架构。那这个新的架构到底有些什么优点呢?   #21.超标量完全管道化微体系结构   QuantiSpeed体系结构的核心是同时发出9条指令的超标量完全管道化微体系结构。这种体系结构能提供更多的路径,并应用指令传送到核心的执行机制,因而处理器能够在给定的时钟周期内完成更多的任务(高IPC)。路径(管道)深度与处理器操作频率之间的良好平衡能产生极高的性能。如果只是管道更长,就会产生较低的IPC和高操作频率。如果只是管道更短,将提高IPC,但频率会降低。AMD Athlon XP处理器能够保持管道深度与处理器频率之间的平衡,因而能实现极高的总处理器性能。   #22.超标量完全管道化浮点   QuantiSpeed采用了超标单元量完全管道化浮点运算单元(FPU),与x86处理器相比,不但能够在每个时钟周期内完成更多的浮点操作,还能提高操作频率,因而能产生最强大的x86 FPU。AMD Athlon XP处理器有足够的计算能力,能满足计算最密集的软件应用的要求。   #23.硬件数据预取   将指令从系统内存预取到处理器的一级指令高速缓存中,提高了处理器的工作吞吐量,从而提高整体性能的通用作法。QuantiSpeed体系结构的这种特性能将数据从系统内存预取到处理器的一级数据高速缓存中,从而缩短了向处理器输入关键数据的时间,提高了工作吞吐量。因此,在使用带QuantiSpeed体系结构的AMD Athlon XP处理器时,应用性能将自动得到增强。   #24.非复用TLB   QuantiSpeed体系结构中的TLB结构能保留关键数据表以及靠近处理器的指令。当再次请求数据或指令时,这种设计使处理器无需等待就能开始操作。这些TLB结构现在更大,在高速缓存之间是唯一的,具有预测性。更大的TLB使AMD Athlon XP处理器能访问其它图形;这些结构的排他性消除了信息复制,在二级高速缓存中释放出更多的空间,留给处理器使用其它有用信息;推测使AMD Athlon XP处理器能快速产生关键数据和指令的未来图形。对TLB结构的这3种增强进一步提高了每个时钟周期能完成的工作量,从而提高了AMD Athlon XP处理器的实际应用性能。   由于采用了QuantiSpeed体系结构,AMD Athlon XP处理器能够在IPC和频率之间找到最佳平衡,从而大大提高实际PC应用性能。   #1专业3DNow!指令集   在老的Athlon处理器中,AMD加入了增强3DNow!指令集,较更老一点的K6-2所采用的3DNow!扩展指令集多了19条指令,而最新的Athlon XP的专业3DNow!指令集再增加了52条新指令。这些增加的指令对语音识别、视频编/解码和3D图像生成类的应用程序很有帮助,而且对于SSE支持的识别是由PC应用程序自动完成的,这些软件在CPUID指令中提供了业界标准的特性标志,因而能够自动识别SSE所支持并运行优化的编码通道。这里,笔者想谈谈SSE2(英特尔第2代浮点多媒体处理器指令集),这应该是针对Pentium4优化的指令集,可以很大程度上提升处理器的性能。但目前的应用程序极少采用这种指令集,即便是最新的操作系统也如此。从最初的MMX指令集开始,应用程序和指令集的扩展始终不是同步的,而且一个指令集要完全成为一种标准通常需要一两年的时间。所以目前对于Pentium4来讲,还不能充分体现SSE2的优越性。   #1结 语   尽管AMD用PR值标称处理器型号的作法不是什么新鲜的事情,但这次对于Pentium4,Athlon XP 1900+应该是棋逢对手。从多家硬件评测媒体的数据来看,Athlon XP都有不错的表现,有的性能甚至高出Pentium4一截。而且从性价比来讲,Athlon XP 1500+应该是最佳的选择,新的Athlon XP处理器还加入了全新的温控单元,在散热方面也有了进步。另一方面,Pentium4从制造工艺上讲,目前要比Athlon XP有优势,在明年将全面步入0.13微米时代,并采用Northwood核心。英特尔和AMD产品和技术的竞争将促进处理器的发展,而价格也会越来越实惠。