● GeForce 6系列问世,NVIDIA一雪前耻!
不过在高端方面,新一代的NV40已是即将发布,NVIDIA绝地反击的大幕也将被拉开。
2004年4月13日,历时18个月,前后投入了10亿美元研发费用后,NVIDIA发布了新一代NV40图形核心,并正式名称命名为GeForce 6800Ultra,NV40使用了空前的2.22亿个晶体管,具有创纪录的16条完整像素管线,其无与伦比的性能也使NVIDIA也重新成为图形显示技术的领先者。
从今天眼光来看,NV40绝对是一款不记代价的复仇之作。其最大的特点可以用“加倍”来形容,整体上讲,NV40的晶体管为2.22个,是对手上一代R300的2倍。内部架构方面,像素着色器单元、ROP单元、TMU单元,也是对手的两倍。而且NV40还率先提供了对DriectX 9.0C中SM3.0技术的完整支持。总之,就像当年R300对NV25一样,NVIDIA在NV40上悉数奉还。
NV40核心功能模块图
NV40采用了0.13微米工艺制造,由于引入了SM3.0电路,其内部集成了2.22个亿晶体管,由于这已经是当时0.13微米工艺的极限,NVIDIA通过IBM合作,引入冗余电路技术,提高了NV40良品率。
NV40的核心架构
架构方面,NV40采用了第三代的CineFX 3.0引擎。CineFX 3.0完全符合DriectX 9.0C的Vertex Shader3.0和Piexl Shader3.0规范。同时,CineFX 3.0也完全支持OpenGL 1.5。开发环境方面,CineFX 3.0可以支持微软的HLSL(High-Level Shader Language)和NVIDIA自己的CG高级开发语言。
CineFX 3.0引擎在着色器单元部分的提高更大。首先在Vertex Shader方面,NV40完整支持Vertex Shader3.0,为了更好的利用动态条件分支的特性,顶点单元采用了MIMD的设计,每个单元由一个4D向量处理器和一个1D标量处理器及以及顶点纹理取样(Vertex Texture Fetch)单元构成,可进行指令的并行处理。
Vertex Shader结构
NV40可以支持的Vertex Shader指令长度不再受到限制,开发人员可以根据自己的需要任意长度的顶点着色代码。顶点单元具有完整的程序流程控制的能力,程序员通过“if、else、then"等指令能够在各个分支中跳转,还可以方便的调用子程序,从而使着色程序执行效率显著提高,尤其对于取消指令长度后的着色程序更为有效。
Vertex Shader规格
NV40的Vertex Shader还有一个特点就是可以支持顶点纹理拾取。它允许Vertex Shader像Pixel Shader一样从纹理中读取数据。在渲染过程中,程序把包含了有效顶点位置的网格(mesh)传入到vertex shader中,顶点纹理拾取就能将纹理转换为几何体。
另外,NV40还支持Vertex Texturing,可以在单个pass里完成4个纹理的查找操作。使用Vertex Texture后,在游戏中可以获得更真实的水面模拟效果等更高级的特效。过去,开发人员一般使用凹凸贴图模拟水面,但是与采用Vertex Texture和几何位移算法实现的效果比相差甚远。
超标量的Pixel Shader管线 在Pixel Shader方面,NV40采用了超标量的设计,增加了一个完整运算功能的FP32 Shader Unit2,所以NV40的两个Shader Unit都具备完整的mini ALU以及浮点运算能力,而Shader Unit1还可以进行纹理定址至以及执行用于计算法线的nrm指令。NV40共有32个FP32 Shader Unit,峰值浮点计算性能可以达到76.8 GFlops。
Pixel Shader架构
NV3X的Pixel Shader由于不具备co-issue能力,指令并行处理能力较低。有鉴于此,NV40中也提供了对co-issue的支持,并被命名为Dual-Issue,执行方式上也更灵活,不仅支持常见的3D+1D,还可进行了2D+2D的操作,使NV40的峰值Pixel Shader指令吞吐量达到了空前的25600 MIPS。另外,nVidia重新设计NV40的寄存器部分,还增加了寄存器的数量,VS3拥有32个,256个常数寄存器,Pixel Shader拥有10个interpolated寄存器、32个临时寄存器、224个常数寄存器,保证Shader具有充足的Register资源可以利用。
Dual-Issue
另外,NV40的Pixel Shader也具有动态程序流程控制,完全支持子程序、循环和分支的程序流程,提供了循环计数寄存器和条件码的支持,还提供了一个新的back/face寄存器,不仅提高了编程的灵活性,还可以减少无效渲染。
Pixel Shader规格
NV40的ROP单元也采用了全新的设计,支持16位浮点像素混合(FP BLENDING)功能,可实现顶级FP精度的HDR效果(nVidia将其命名为HPDR,采用OpenEXR做为运算的缓存格式)。ROP单元还支持多渲染目标(Multiple Render Targets)技术,使光照可以在所有几何图形被渲染以后最后进行应用,不再需要进行多步的渲染。因而这种技术也可以被称为延期着色(Deferred Shading)。
ROP 结构
NV40还引入了全新的 IntelliSample 3.0 抗锯齿技术。 其核心是一套旋转网格线( Rotated-grid )的抗锯齿采样算法,旋转栅格方式允许子像素更好地覆盖在水平方向和垂直方向上,能为多边形边缘提供更高的色彩精确性。
NV40也采用了第二代UltraShadow技术,UltraShadow II技术具有32 Z/stencil渲染能力,即在渲染stencil shadow volume等效于32管线。NVIDIA宣称UltraShadowII速比Ultra Shadow第一代高出四倍,可以提高显卡在Doom3中的性能表现。UltraShadowⅡ技术同样能和的IntelliSample 3.0 配合,确保阴影边缘能获得正确抗锯齿效果。
无效渲染大大减少
另外,NV40在视频方面也是进步不小,提供了强大的视频编码、解码支持,能够实现MPEG-2(标准分辨率以及高清晰分辨率)、MPEG-4(DiVX)、WMV9(标准分辨率和高清晰分辨率)的硬件编码和硬件解码。内建的VP单元(Video Processor)还提供了自适应消除场交错现象、高品质的缩放、伽马纠正、噪点降低、WMV9/H.264的运动补偿和色块消除的硬件支持。
VP单元
●GeForce 6800系列产品介绍
GeForce 6800ULTRA
GeForce 6800ULTRA作为GeForce6系列的旗舰级产品,就像NVIDIA CEO在发布会的表示:"...这是GPU史上,新一代产品性能提升最大的一次,也是业界唯一支持Shader Model 3.0的GPU..."。GeForce 6800ULTRA作为NVIDIA技术领先的象征,从规格到性能各方面都完全领先于对手。不过GeForce 6800ULTRA高达500以上美元的价格也使其象征意义更大,这也是说NV40是一款不记代价的复仇之作的原因所在。
Geforce 6800 Ultra显卡全部由NVIDIA统一制造,并提供给显卡厂商,所以市场上各个品牌的Geforce 6800Ultra显卡几乎一模一样。GeForce 6800Ultra显卡完全采用P201公板设计,10层PCB板上覆盖有超大型的散热器,需要占据一条PCI槽的空间,将热管散热和风冷散热有机地结合到了一起,能够非常有效地控制内含2.22亿个晶体管的GPU和GDDR3显存颗粒的温度。
显存方面GeForce 6800Ultra也有巨大的提升,采用了速度最快的GDDR3,工作率高达1100MHz,配合256位显存位宽,NV40的显存带宽高达空前的35.2GB/s。
由于晶体管规模庞大,GeForce 6800Ultra核心的峰值功耗达到100瓦,由于AGP 8X总线无法提供足够的功率,6800Ultra显卡不得不使用了两个外接电源接口。在NVIDIA的测试指南中,推荐使用480瓦的高功率电源。
GeForce 6800标准版
NVIDIA GeForce 6800系列分共分为GeForce 6800Ultra、GeForce 6800GT 和GeForce 6800、GeForce 6800LE,他们全都采用了NV40图形核心。其中GeForce 6800标准版使用的NV40芯片因为有瑕疵而被屏蔽了4个PS单元以及1个VS单元,也就是12PS/5VS的设计。不过其价格也降到299美元,它也是三款中最具有普及意义的。同时,由于GeForce 6800标准版也因为具有可以改造的潜力,国外有网站曾经对120个使用GeForce 6800的3D发烧友进行过调查,其中55%的用户可以成功打开被屏蔽的管线,可见6800标准版的改造成功率还是相当大的。特别是RivaTuner的出现使得6800标准版的改造更加方便,吸引了大批的DIY玩家,成为当时人气颇高的一款产品。
GeForce 6800 轻松变身,倾倒无数玩家
NVIDIA推出GeForce 6800标准版,也有其市场意义。自从2004年3月份ATI 将高端产品9800PRO降到250美元后,在这个价位上NVIDIA一直没有合适的产品与之抗衡,而GeForce 6800标准版凭借12条渲染管线以及NV40核心的众多先进技术,在性能上完全领先9800PRO,官方报价却仅为299美元,显然更有竞争力。
Inno3D GeForce6800显卡采用NVIDIA公板P212设计,是8层的PCB。显卡使用了更加成熟的DDR显存颗粒,在保证显示卡性能发挥的前提下极大的降低了成本。由于仍然是256BIT显存位宽,显存工作在700MHz的频率仍然为核心提供了高达22.4GB/s的显存带宽。
Inno3D GeForce 6800LE
Geforce 6800LE是NV40系列中规格最低的一款显卡,屏蔽后为8PS/4VS,因为针对OEM市场,早期6800LE还被进行了锁频处理。它的价格也最低廉,和6600GT的建议零售一样都为199美元,它的对手是同样8个PS单元的X800SE。从发布后NVIDIA一直没有将Geforce6800 LE推向零售市场,而仅仅供应OEM厂商。这主要是担心Geforce 6800LE会冲击中端市场,出现6600GT AGP和6800LE手足相争的局面。
Inno3D GeForce 6800LE的工作频率为300/700MHz外,为了降低成本也使用了DDR显存颗粒。6800 LE具8条像素渲染管线/4组顶点单元。和GeForce 6600系列相比,GeForce 6800LE的优势在于具有256 bit显存位宽、8个ROP单元,在高分辨率、反锯齿打开的情况下,比6600更有优势。但因为默认频率过低的原因,总体性能上GeForce 6800LE仍旧落后于GeForce 6600GT。但是,Inno3D GeForce 6800LE显卡具有较强的超频能力和改造潜力,尤其是改造成GeForce 6800标准版的可能性极大,运气好的话甚至可以打开全部的管线。
GeForce 6800XT
在2005年中端市场,NVIDIA的GeForce 6600系列在于ATI的X700的较量中占得了上风,为了扭转劣势,ATI 将高端的Radeon X800引入中端,以颇具竞争力的价格推出了Radeon X800GT。考虑当时很多厂商私下里都推出了零售版的6800LE,市场反映很好,于是2005年9月,NVIDIA针对Radeon X800GT推出了GeForce 6800XT,基本上就是。虽然当时PCIE接口已经成为市场的主流,但由于市场惯性,AGP平台依然占有相当大的市场份额,GeForce6800 XT也有AGP的版本,以弥补6600 AGP供货不足的缺口。
PCIE版本的GeForce 6800XT共有NV41和NV42两种核心,其中后者是0.11微米工艺,功耗、成本更低,超频能力更强。AGP版本的GeForce 6800XT则采用了NV40核心。在规格上GeForce 6800XT和GeForce 6800LE完全相同,都是8PS+4VS+8ROP的设计,并采用了256BIT显存接口。
6800XT的默认频率为400MHz/700MHz,也可以说是6800LE的高频版本。和6800LE一样,GeForce 6800XT也同样具有修改的潜力,PCIE版本最高可以改为6800标准版的12PS/5VS,而AGP版本则有机会改为NV40。
● NV大举反攻,GF6收复失地
2004年4月份发布基于NV40的GeForce 6800ULTRA后,凭借16条超标量浮点像素渲染管线,NVIDIA成功夺回了失去已久显卡性能的王冠。而且由于NV40支持ShaderModel3.0以及FP HDR等业界领先的新技术,此前GeForce FX时期人们对NVIDIA技术实力的怀疑也被一扫而空。NV40作为NVIDIA技术实力的象征,在500美元左右的高端市场大举收复失地,获得了很多高端3D发烧玩家的青睐。
相比在高端市场的大获成功,但是在市场规模最大、整体利润更高的主流市场中,NVIDIA却面临着进入新世纪以来的最困难的一段时期。在250美元以内的中端市场,GeForce FX系列仍是市场上的主力。但是2004年开始,DirectX 9游戏的普及速度突然被加快,大量的DirectX 9游戏纷纷上市,使得GeForce FX的架构缺陷暴露的更彻底,因此GeForce FX系列显卡也在竞争中全面落败,NVIDIA的市场占有率也是逐步走低。因此,将新一代GeForce 6系列引入中端,也就成了NVIDIA的当务之急。不过中端产品除了性能外,对成本的要求较高,所以NVIDIA也决定等待0.11微米制造工艺的成熟,但这多少也延误了一些时间。
终于,2004年8月13日,在QuakeCon2004上,NVIDIA正式了GeForce 6家族中的主流产品,GeForce 6600系列显卡。
GeForce 6600的核心研发带号为NV43,其架构体系全面继承于NV40,NV43具有NV40的全部3D特性,同时视频功能也被加强。由于当时Intel 915/925系列芯片组已经大规模登陆市场,PCI Express接口已渐成主流,所以NV43也是NVIDIA首款采用原生PCI Express解决方案的核心。
由于当时在200美元以下的中端PCI Express图形市场中,一直没有出色的显卡产品,几乎是个空白。而这部分市场伴随着Intel 915/925主板的普及规模越来越大,NV43的推出恰好符合了这部分用户的对高性能产品的渴望。而对手ATI虽然早就将高端产品全部转向PCI Express接口,但是产品价格都在300美元以上,而中端的RV410迟迟不见踪影,直到9月底才正式发布,性能处于下风且供货也不稳定,让GeForce 6600轻松占领了大部分市场,NVIDIA敏锐的市场洞察力体现的很充分。
NV43为TSMC 0.11微米工艺制造,集成了1.43亿个晶体管。由于制程的改进并且引入了low-k 技术,NV43的频率可以轻松达到500MHz,同时成本以及功耗都控制在可以接受的范围内。
low-k 工艺
在核心架构方面,NV40不惜代价引入SM3.0电路对于核心成本的副作用也很明显,所以NV43上不等不进行了大幅度的精简,基本上缩减了一半处理单元。即便如此,NV43的晶体管数量还是达到了1.43亿,而对手RV410(X700)在顶点着色管线、ROP单元都2倍于NV43的情况下,晶体管数量仅为1.2亿个。
NV43架构图
NV40中,16条像素着色管线以四个组成一组,每组称为一个“Quad",所以NV40中共有4组Quad单元。而在NV43上有两组Quad单元,所以共有8条像素着色管线(每管线一个TMU单元),和对手X700相同。NV43的顶点单元为3组。为了进一步控制成本,NVIDIA果断的缩减了ROP单元的数量,只保留了4个ROP单元(这也是NV43被认为使4X2架构的原因),仅为对手X700的一半,但是本身6600GT只支持128-bit显存位宽,且频率只有1GHz,如果采用8个ROP单元,受到显存带宽的制约很明显。即便只有四个ROP单元,充分发挥后,在象素填充能力上和X700差距并不大。事实也是6600凭借性能优异的Pixel Shader处理单元事实也是6600凭借性能优异的Pixel Shader处理单元(NV43的超标量PS管线为单周期4条指令并发,理论上是RV410的两倍),在与X700的竞争中以完胜而告终。
SLI技术
NV43核心的另一个特点就是率先实现了对SLI技术的支持。2004年下半年,PCI Express技术的逐渐普及,这是SLI技术得以重现的一个必备条件。SLI技术最早源自3dfx,全称是Scan Line Interleave ,基于PCI接口,随着AGP接口的普及逐渐被谈玩。而NVIDIA SLI(Scalable Link Interface)在很多方面都有较大的进步。首先,PCI Express可以提供60倍于PCI总线的总带宽。其次,3dfx SLI为隔行扫描,属于模拟应用,可能因为数模转换差异造成图像质量欠佳。NVIDIA SLI技术则是基于PCI Express技术,采用一种完全数字化的帧组合方法,对图像质量无任何影响,可提高几何性能,支持多种实现灵活伸缩性的算法,能够根据应用需要选用最有效的方法来实现灵活伸缩性。 |