AMD的新宠──Athlon4浮出水面 夏维 2001年 20期 #1前言   虽然AMD目前仍然只占有处理器市场的一小部分,但是它的发展势头却非常喜人。近两年来,AMD凭借Athlon处理器迅速占领了桌面电脑市场,将夕日的霸主英特尔打得落花流水。英特尔也不甘示弱,推出了Pentium4,而且在价格上采取了极具竞争性的战术。虽然今天的Pentium4性能不尽如人意,不过这毕竟只是目前的情况。一旦今后大量针对Pentium4优化的软件和游戏上市,AMD Athlon也将陷入一场艰苦的争斗,毕竟基于Pentium4的系统能比雷鸟(Thunderbird)核心的Athlon提供更多的内存带宽和更高的时钟频率。   AMD面对这样的情况,显然也不会裹足不前,实际上AMD已经准备了3个新的内核用来接替相对较旧的雷鸟核心。5月15日AMD发布了Athlon新的处理器核心就是曾经被人们大量谈论,在雷鸟核心基础上改进而来的Palomino核心,也就是现在本文要讨论的Athlon4。   #1Athlon4市场篇   首先,从Athlon4的名字上我们都能看出,AMD希望用Athlon4与Pentium4竞争,来巩固自己在桌面电脑市场战果,不过桌面型Athlon4的发布还要等到今年8月左右,届时桌面型Athlon4的起始频率就能达到1.5GHz。其次,用Mobile Athlon4来抢占笔记本电脑市场。现在AMD在笔记本电脑市场仅仅只有两位元老级的处理器:K6-Ⅱ+和K6-Ⅲ+,它们完全不能抵抗来自英特尔的移动PentiumⅢ和移动Celeron的猛烈攻击,因此,AMD迫切需要Mobile Athlon4在笔记本市场电脑的胜利来巩固桌面市场的胜利。第三个目的:进军多处理器(MP)市场,这对于AMD来说还完全是一块空白,这里不仅有高性能工作站市场,还有多处理器的服务器市场,不仅市场潜力巨大,而且利润丰厚。配合下个月就将发布的AMD 760MP芯片组,AMD就能携Athlon4进入这个利润丰厚的市场。不过现在看来,Athlon4仅仅只是AMD的先遣队,而真正主力军则是未来的AMD x86-64处理器。   #1Athlon4技术篇   #2处理器核心   关于核心,我们都知道处理器的核心是由无数个晶体管构成的,其中旧的雷鸟核心拥有3700万个各种各样的晶体管,不同的晶体管负责不同的任务。虽然Athlon4的Palomino核心和雷鸟核心类似,晶体管数量也只增加了50万个,核心面积也仅从120平方毫米增加到128平方毫米,但是AMD对Palomino核心内部的晶体管种类进行了大量的优化。而优化的结果就使同样时钟频率下,Athlon4核心的能耗和产生热量至少比雷鸟核心减少了20%。   对核心的优化还不仅仅针对晶体管种类,也对核心内部晶体管的布局也进行了改进,这也导致了Athlon4外观上的变化。   #2TLB(Translation Lookaside Buffer)   另一个改进是Athlon4增加了一级缓存中翻译后备缓存(Translation Lookaside Buffer,TLB)入口的数目。我们先来介绍一下处理器缓存的工作原理:当处理器需要从内存中读取数据的时候,它不会直接从内存的物理地址上去寻找,因为在处理器缓存中会有映射内存物理地址的虚拟地址,处理器就是通过这些虚拟地址来访问内存里的数据,而物理地址和虚拟地址之间的翻译就由TLB来完成。   既然TLB在处理器读取内存的时候占有重要作用,那么处理器的TLB命中率的高低,就会影响处理器的性能。举例来说,如果处理器需要某个数据的时候,它会通过TLB来寻找相应的地址,一旦在TLB中不能找到需要的地址,处理器就要花费3个时钟周期才能解决这个问题。相反的,如果在TLB中能找到需要的地址,就仅仅只需要花费一个时钟周期,比前者节省了200%的时间,因此TLB的命中率对于处理器性能非常关键。那么如何提高TLB命中率呢?AMD采用增加TLB入口数量就是一种简单而有效的方法。不过,告诉大家一个不幸的消息,虽然我们已经知道Athlon4增加了一级缓存TLB入口数目,可是目前我们还并不知道它的确切数目。当然,读者也不用对此太过在意,因为毕竟上面所说的还只是纯理论,实际Athlon4的性能和雷鸟比起来,不会有很大的飞跃。   #2数据预读(Data Prefetch)技术   Athlon4和雷鸟的缓存几乎一样,都是拥有两路64KB一级指令缓存和64KB数据缓存,16路独占式256KB二级缓存。既然Athlon4采用独占式二级缓存结构,那么它不会将一级缓存中的数据复制到二级缓存中,因此Athlon4实际上能够利用的缓存数量为384KB(64KB + 64KB + 256KB)。究竟Athlon4对缓存的改进表现在什么地方呢?那就是改进了缓存的自动数据预读取机制。   缓存数据预读功能和Pentium4拥有的硬件预读功能相似,它们都可以智能地判断哪些数据需要被处理器利用,从而提前将这些数据从内存中读取到缓存中,这样的功能明显增加了处理器和内存之间带宽的利用率,进而提高系统的整体性能。而且相对于普通的PC133 SDRAM而言,数据预读功能在DDR SDRAM或者RDRAM这些“宽带”内存上更有优势。   #2SSE   当年,AMD为了抵抗英特尔的SSE多媒体指令集,也推出了自己的3DNow!技术。3DNow!技术增加了19条指令,它和SSE一样都是采用单指令多数据(Single Instruction Multiple Data,SIMD)指令,也就是说每一条指令可以应用多条数据,这样的特性让各种3D软件的速度得到飞跃。但是,3DNow!的19指令不过是SSE的一部分,因此Athlon4在3DNow!的基础上又增加了52条新的指令,此时虽然被称为3DNow! Professional,但实际上已经和PentiumⅢ两年前就已经采用的SSE指令集完全相同。   增加SSE显然不能使Athlon4的性能突飞猛进,不过在针对SSE专门优化的环境下,Athlon4就不会明显落后于PentiumⅢ系列了。据悉,AMD的64位处理器x86-64还将会支持完整的SSE2指令集。   #2低电压及PowerNow!技术   由于首先发布的Athlon4系列是专为笔记本电脑市场的,因此它也针对移动市场的特点进行了相应的优化,比如,1GHz的移动Athlon4仅仅只需要1.4V电压就能稳定运行,而目前的雷鸟1GHz则需要1.75V。   Athlon4还采用了PowerNow!技术,该技术能根据工作状态自动调节处理器频率和电压。如果用户仅仅使用Word处理文档,那么显然不需要很高的频率,此时1GHz的移动Athlon4会自动降低频率和电压为500MHz/1.2V,一旦用户开始播放DVD,处理器的频率又会自动提高到750MHz甚至1GHz。   不过,Athlon4采用的PowerNow!技术并不是全新的技术,早在K6-Ⅱ+时代,AMD就已经研制出了该技术。可是由于当时的处理器性能低,所以,大部分时间里处理器都必须工作在较高频率上,PowerNow技术在当时不能起到明显的作用,而在Mobile Athlon4身上却大有用武之地。   正是由于有了这样的技术,大部分采用Athlon4的笔记本电脑在Ziff Davis Battery Mark测试中的电池寿命都达到了3~3.5小时。   #1总 结   虽然我们的重点不在谈论性能上,但是大家一定希望对Athlon4的性能有一定了解。根据我们的不完全测试,Athlon4的性能比同频的雷鸟提高了2%~15%,在Quake Ⅲ Arena中有6%的性能提高,在Business Winstone 2001中提高了5%,在SysMark 2000中性能提高了10%,性能提高的主要原因是由于数据预读功能。在移动处理器市场上,Athlon4的性能和移动PentiumⅢ相比有相当大的提高,但是缺点是封装形式要比后者大许多,不能应用在日益流行的超薄超轻笔记本电脑上。