打造3D动力——GeForce2  Ultra和它的兄弟们

朱云   abs3d.yeah.net
2000年 第35期 

　　刚刚推出了GeForce2 MX的NVIDIA公司，在8月14日又出人意料地公布了最新也是最强大的GPU——GeForce2 Ultra。
　　GeForce2 Ultra各项3D处理速度再创新高，达到3100万多边形/秒、10亿像素/秒（也就是20亿图素/秒），显示内存带宽也高达7.36GB/秒，最高分辨率是2048×1536/32bit。为了配合GeForce2 Ultra的面世，NVIDIA还专门推出了针对全系列产品的Detonator（雷管） 3驱动程序。
#1    飞一般的GeForce2 Ultra
　　业内总有人认为，NVIDIA及其竞争对手出于高利润的考虑，不会拿出最先进的技术制造产品，就像那些日本、韩国的家电企业一样。但代号为NV16的GeForce2 Ultra的出现，表明了NVIDIA的确与众不同，它决不允许对手或者自身有哪怕一个月的松懈，因为GeForce2 Ultra几乎使用了所有最先进的现有技术（尽管内部结构上与GeForce2 GTS并无不同之处）：TSMC（台积电）最新的0.18微米生产工艺，让它跑到250MHz的核心频率，比GTS整整高了1/4；工作在230MHz下的64MB DDR SDRAM极品显示内存（相当于460MHz的SDR普通内存），不但比GTS高了约2/5，也比ATI的Radeon高了约1/4，明显缓解了迫在眉睫的显示内存带宽问题；为了在这样的高速度下稳定运行，NVIDIA甚至严格规定了GeForce2 Ultra显示卡的PCB设计和元器件规格，连散热措施这次都被标准化了——3D芯片用的散热片＋风扇组合，所以几乎可以肯定，所有基于GeForce2 Ultra芯片的显示卡的性能将如同一个模子里倒出来的。
　　GeForce2 Ultra虽然是目前最强大的GPU，但也不能不让发烧友们思考：刚刚上市没多久的GeForce2 GTS的风光能保持多久？想想下一代产品NV20/25还有多远？实际上竞争对手的产品不容忽视：3dfx的Voodoo5 6000有更高的像素填充率，仅因不支持T＆L和DirectX 8规格的可编程明暗引擎，让它略微落后；ATI的双芯片显卡Radeon MAXX装有两片Radeon 256，性能惊人，只是近期可能难以上市，因为单芯片的Radeon才刚刚出现，而且很少有核心频率超过166MHz的。
#1    幕后英雄Detonator 3
　　不是总有人认为NVIDIA的驱动程序越做越慢吗？反例终于出现了，这次为了配合GeForce2 Ultra，NVIDIA新开发出Detonator 3驱动程序6.18版，不但能提升GeForce系列产品的性能达1/4之多，还能提高TNT2系列老产品的性能（程度低一些，但毕竟是免费的），最老的TNT则没有机会试用——如此的免费升级，如何能不同大家分享？！
　　其实得到提升的不仅仅是表面的速度，如同当初GeForce2 GTS的5.22版驱动支持S3TC和FSAA。这次的6.18版主要优化了5个方面：首先是为i815系列主板和Pentium 4 CPU作了优化，支持SSE2最新指令集，让3D显卡跑得更快（当然是在将来啦）；NVIDIA一向为人诟病的视频质量也得到了提升，为DVD和HDTV作了优化，尽管细微的差别难以察觉，但喜欢看影碟的朋友不妨一试；支持GeForce2 MX和Quadro2 MXR的TwinView双头显示和Digital Vibrance色彩调节功能；异步命令处理功能，让显示卡处理OpenGL的异步命令更得心应手，这是速度大幅提升的几个原因之一；最令人激动的进步是先进的顶点数据缓冲，以前有证据表明GeForce 256的几何与光照引擎之间的数据带宽不足，其实这就是存储在系统内存中的顶点数据，因为AGP传输带宽的紧张造成T＆L性能受到了限制。现在NVIDIA的作法是让驱动程序决定顶点数据的存储位置，当显示内存带宽紧张时，就存储在系统内存中、使用AGP带宽，系统内存带宽不足时，存储在显示内存中、利用本地带宽。
　　NVIDIA自从TNT开始使用统一结构的雷管驱动，现在的Detonator 3可以用于从TNT、TNT2系列到GeForce系列、Quadro系列的几乎全部产品，而GeForce2 Ultra还可以使用它推出以前的驱动程序。这种前向、后向兼容性相结合的特点，大大降低了升级不同NVIDIA显示卡的驱动程序的复杂性；也免除了用户寻找特定型号的公版驱动程序的麻烦（当然有不少板卡厂家仍坚持在公版驱动的基础上，开发单一型号显卡的驱动程序）；更大的好处在于NVIDIA自身：公司只需要升级和维护一种驱动程序，容易精益求精，不必为各个产品分别配备开发团队——由于编写驱动程序的复杂性，每个团队甚至需要多达上百人的配备。
#1    NV20与DirectX 8
　　NVIDIA一直很自豪每6个月一次的产品升级速度。今年春天，NVIDIA推出的是GeForce 256的改进版GeForce2 GTS，不久后又有了简化版GeForce2 MX，按说9月份应该发布下一代产品NV20，明年春天再开发出NV25；可实际上推出的是“改进的加速版”GeForce2 Ultra，这种略有“偷换概念、拖延时间”的情况，让人不禁担心起NV20的命运来。
　　现在几乎可以肯定，NV20将推迟到明年春天发表，NV25自然也延后到明年秋天同X－Box几乎同时上市。看看日历也不难理解这种猜测：不可能在GeForce2 Ultra公布后的1～2个月内推出革命性的下一代产品NV20，不然GTS和Ultra这两个型号都太短命了，不值得花费这么多的财力和人力。从3D芯片的结构上看也是相同的结论：目前显示卡速度的提升完全依赖更高档的显示内存，几个月内要找到速度比230MHz的DDR快得多的量产内存只怕十分困难。因此NV20很可能还必须采用类似于Videologic的KYRO/PowerVR的更节省带宽的结构，这种脱胎换骨的体系转移，需要比一般的产品升级更多的时间是理所当然的。NV20的内核比GeForce2系列的快得多，其复杂程度（并行度）至少要高一倍，这样必须有0.15微米的生产工艺才可能达到可以接受的200MHz工作频率，TSMC的0.15微米工艺也需要数月后才能上马量产。
　　然而还有一个更重要的因素，就是NV20必须依赖和支持DirectX 8在3D处理流程上的优化和变革。由于DirectX 8仍未完全定型——目前的Beta1/2版相对7.X的速度提升并不明显（当然也因为软硬件的支持都几乎为零），稳定性也欠火候，能较好地利用其优势的游戏能在明年圣诞节上市就不错了。我们最期待的NV20特性是同DirectX 8紧密集成的可编程T＆L引擎，还有更强大的NSR（NVIDIA明暗光栅化引擎），渲染时至少可以为每个像素绘制3重纹理以达到DirectX 8的最低要求。
#1    GeForce/Quadro的兄弟们
　　同改进版的TNT2系列一样，GeForce2系列产品众多，还要加上Quadro2系列的几种专业产品。
　　从Detonator 3驱动程序的支持列表中，我们可以看到以下产品：GeForce 256、GeForce DDR和Quadro是即将被替代的老产品；GeForce2 MX是最便宜的主流产品，只有它和Quadro2 MXR支持TwinView和Digital Vibrance Control功能，可见NVIDIA对它的期望是成为下一个TNT2 Pro；GeForce2 GTS和GeForce2 Pro共用同样的驱动设置，面向的是热爱游戏又手头宽裕的玩家，还未正式公开的Pro版估计同TNT2 Pro类似，是GTS版工艺改进、成本降低的型号（估计是NV20的0.15微米工艺）。GeForce2 Ultra是目前的旗舰，目标市场是“不计成本、只要更快”的骨灰级玩家。Quadro2 Pro和Quadro2 MXR可以看作GeForce2 GTS和GeForce2 MX的专业版，多打开了一些专业功能，性能有所提高。
　　正式发表不久的Quadro2系列性能指标如下：ELSA用Quadro2 Pro制造GloriaⅢ专业绘图卡，具有64MB工作于200MHz的DDR显示内存、达到6.4GB/秒带宽，核心频率250MHz达到3100万多边形/秒和10亿像素（20亿图素）/秒，我觉得整体情况可能更类似于未来的GeForce2 Pro，但价格“仅仅”是低于1000美元而已；ELSA用Quadro2 MXR生产SynergyⅢ专业3D卡，具有32MB工作于183MHz的SDR显示内存达到2.93GB/秒带宽（别指望DDR版的GeForce2 MX了，因为那是64位接口的DDR，同Matrox的G450一样徒增成本，而且驱动程序中已经删除了GeForce2 MX DDR的选项）。核心频率200MHz达到2500万多边形/秒和4亿像素（8亿图素/秒），总体性能比GeForce2 MX略高，说不定将来还有一款相同性能的GeForce2 MX Pro。
#1    结　语
　　从Riva128到目前的GeForce2 Ultra，NVIDIA在其产品研发过程中一直保持着良好的上升势头，TNT2系列已在市场占据了主动。强大的整体性能让人们从不怀疑它所能达到的高度，而且随着处理器向更高主频进军，可以预见NVIDIA仍是3D显示芯片中伟大的强者。

 