NVIDIA GeForce 200
GeForce 200系列是NVIDIA的第十代GeForce显示芯片,核心架构代号‘Tesla’,以塞尔维亚裔发明家兼物理学家尼古拉·特斯拉命名。首个产品GeForce GTX 280于2008年6月16日推出,是一款高端产品。随后推出了中高阶的GTX 260。GTX 200系列拥有65nm制程的高阶D10。与AMD不同,NVIDIA依然先推出宏内核的旗舰级显卡,再将其功能削减,成为中低端的显卡。面对AMD的Radeon R700显示核心,GTX 200显示核心显得太复杂和成本高,不能与之有效竞争。所以NVIDIA即时将GeForce 9800 GTX降价,并提升其制程至55nm,再推出GeForce 9800 GTX+显卡。在2009年1月8日开幕的CES 2009电子大展推出55nm版本的GTX 260核心及两款新卡GTX 285、GTX 295。
发布日期 | 2008年6月16日-2009年 |
---|---|
代号 | Tesla: N10 GT200a/b(D10/D10U) GT215 GT216 GT218 基于旧有架构: G92a/b G94b |
制造工艺 | 65纳米/55纳米 |
显卡 | |
入门GPU | 桌面平台:205, 210, G210, GT220, GT230, GT240 移动平台:G210M, GT220M |
中端GPU | 桌面平台:GTS240, GTS250, GTX260, GTX260+ 移动平台:GT230M, GT240M, GTS250M |
高端GPU | 桌面平台: GTX275, GTX280, GTX285, GTX295 移动平台:GTS260M, GTX260M, GTX280M, GTX285M |
API支持 | |
OpenGL | OpenGL 3.3 |
历史 | |
前代产品 | NVIDIA GeForce 9和NVIDIA GeForce 100 |
相关产品 | NVIDIA GeForce 300 |
后继产品 | NVIDIA GeForce 400 |
背景
NVIDIA称GTX 200核心采用了第二代的统一架构。相对第一代,显示核心除了专注立体性能的提升外,更专注非传统的GPU应用。NVIDIA认为,随着GPU的性能愈来愈大,可应用的范围再不局限于立体计算,而GPU绝对有能力取代CPU,成为高性能运算的工具。为了凸显第二代统一架构的功能,NVIDIA将显卡的命名法则改变,不再是GeForce加上代表世代的数字。而是GeForce GTX、GeForce GTS、GeForce GT和GeForce G。它们分别代表旗舰级、高端、中端和入门。
架构
NVIDIA称第二代的统一架构,性能是上一代的1.5倍。核心的代号是D10U,采用65nm制程,拥有14亿个晶体管。是第一款显示核心的晶体管数量突破十亿大关,但是它仍然不支持DirectX 10.1和Smart Shader 4.1。最能反映实际性能的流处理器方面,由上一代的128个,提升到240个。另外,它支持双精度和64位浮点运算。
第二代统一架构
在GTX 250显示核心中,总共有十个流处理器数组。每个数组中有3450个流处理器,当中又以24个为一组。每一组流处理器都拥有独立的本地存储器,亦即是631个流处理器共享1个本地存储器。本地存储器的容量由16KB提升到32KB。另外,每一个数组都有其独立的L1缓冲存储器,亦即是24个流处理器共享一个L1缓冲存储器。加起来,GTX 280核心拥有240个流处理器。
GTX 200有两个计算模式。一个是绘图模式,另一个是并发处理模式。比较特别的是线程排序器,当线程在读写存储器的时候,为了不耽误整个计算,会直接计算另一项资料。这样可以提升并发处理的效率,提升GPGPU的性能。
MIMD(Multiple Instruction Multiple Data)
自上一代的G80开始,NVIDIA已放弃采用SIMD架构,改用全新的SPMD架构。在G80显示核心中,所有的流处理器都是1D标量形式。NVIDIA认为这样做最有效率,因为不用再顾忌数据是1D抑或是4D,所有的数据都会分折成标量1D。而对手AMD的显示核心,依然是4D+1D架构。虽然NVIDIA的做法效率较高,但成本和复杂度亦较高,比较难大幅增加流处理器的数量,因为每一个流处理器都需要一个指令发射端口。而AMD的显示核心方面,由于一个4D+1D的流处理器才需要一个指令发射端口,所以比较容易提升处理器的数量。
流处理器
上一代的G80核心中,每一个流处理器数组有两组流处理器。而在GTX 200系列显示核心中,数组数量提升为3组。每组流处理器的可执行线程数量,亦由768条提升列1024条。另外,每一个数组都有8个纹理单元。
ROP
数量和效率都有所提升,有效改善AA性能。
缓存
8个流处理器会共享32KB的本地存储器;而3组总共24个流处理器会共享一个L1缓存,减少对外部存储器的依赖。
显示内存
每一个显示内存控制器的带宽是64-bit,而GTX 280核心有8个控制器,总共的带宽是512-bit。容量方面,由512MB提升到1GB。
其他技术
PhysX物理引擎
2008年2月,NVIDIA收购AGEIA公司,获取有关的PhysX物理引擎技术。过去,该引擎必须以自家的物理加速卡作硬件加速,或者以CPU作软件加速。随着NVIDIA收购AGEIA,公司己着手改装有关引擎,使之可以透过显示核心加速该引擎。现在,NVIDIA已推出用于显卡加速的PhysX物理引擎驱动程序,在3DMark Vantage的测试中,CPU的得分受惠于显示核心硬件加速了物理引擎,分数大幅上升。但采用该引擎的游戏始终较少,分数能否反映事实仍是未知之数。
对手AMD则采用Havok物理引擎作为解决方案。现时,Havok是Intel的子公司。而Havok亦答应将为其物理引擎,优化AMD的CPU和GPU。包括最新的Phenom处理器和Radeon R700显卡。
CUDA
NVIDIA认为,流处理器的地位可与CPU核心作比较。而一颗显示核心,有多个的流处理器,使到显卡非常适合作并发计算之用。NVIDIA有另一个产品线-NVIDIA Tesla,就是将显示核心包装为GPGPU产品。用来加速或者计算通用计算,亦即是非单纯立体计算。CUDA可以让程序员使用C语言,来使用显示核心作为加速器。对手AMD认为,CUDA始终是闭源产品,并不会获取成功,所以推荐用户使用另一个标准-OpenCL。有趣的是,NVIDIA同样是参与了该计划。
对于家用者来说,CUDA可以用来加速高清晰度影像的编码。NVIDIA报称效率是利用CPU的20倍,纵使某些算法仍然是交由CPU处理,使到CPU使用率仍然维持20%左右。亦说明显示核心并不是可以处理所有的算法。另外,Folding@home科学计算项目已开始支持NVIDIA的显卡。
Hybrid SLI
配合NVIDIA的AMD平台芯片组,例如780a或者750a芯片组,就可以启动Hybrid SLI功能,令独立题示卡可以与内置显示核心一起进行图像处理以增强性能。
Power Management Enhancements
GeForce 200显示核心拥有比以往世代的NVIDIA显示核心更动态和更有弹性的电源管理系统。 此技术会有以下四种性能/电源模式:
- 闲置/2D 电源模式(大约 25 W)
- Blu-ray DVD 播放模式 (大约 35 W)
- 全速 3D 性能模式(不定、最大为 TDP 236 W)
- Hybrid Power™ 模式(最有效为 0 W)当运行密集3D图像处理要求的程序时,NVIDIA驱动程序可因应显示核心的使用率而切换到相应的电源模式。每一颗新的 GeForce GTX 200 GPUs 集成了使用率监察器来不断地监察显示核心内的数据流量。
HybridPower
属于Hybrid SLI技术的一部分,当使用支持HybridPower的nForce主板(例如采用 nForce 780a 芯片组的主板),GeForce GTX 200 GPU可以在非密集的图像处理操作时完全关闭电源并将图像输出交由主板的集成式显示核心(mGPU)负责。
产品介绍
- 桌面平台
- GeForce 205 - 于2009年11月针对OEM市场发布,40nm制程的GT218-200核心,核心频率590 MHz,拥有16个流处理器,64-bit显存位宽和512MB GDDR3显存,频率790 MHz。支持DirectX 10.1。
- GeForce 210 - 于2009年10月针对零售市场发布,GeForce G210的更名产品,规格与GeForce G210完全相同。2009年11月又将其更名为GeForce 310供OEM厂商销售。
- GeForce G210 - 于2009年7月针对OEM市场发布。早期采用55nm制程的G96核心,后期换为40nm制程的GT218-300核心,拥有16个流处理器、64-bit显存位宽和512MB DDR2或GDDR3显存。内置音效处理器,支持多声道LPCM输出。支持DirectX 10.1。
- GeForce GT 220 - 于2009年7月针对OEM市场发布,10月进入零售市场[1]。早期采用55nm制程的G94核心,后期换为40nm制程的GT216核心,拥有48个流处理器、128-bit显存位宽和1GB SDDR3显存。内置音效处理器,支持多声道LPCM输出。支持DirectX 10.1。2009年11月将其更名为GeForce 315供OEM厂商销售。
- GeForce GT 230 - 于2009年7月针对OEM市场发布。早期采用55nm制程的G92或G94核心,后期换为40nm制程的GT215核心,拥有96个流处理器,采用128位512M SDDR3显存。支持DirectX 10.1。
- GeForce GT 240 - 于2009年11月发布[2]。采用40nm GT215核心,拥有96个处理器,核心频率550MHZ,最高支持128位1GB GDDR5显示内存。支持DirectX 10.1。
- GeForce GTS 240 - 于2009年7月27日针对OEM市场发布。采用55nm G92核心,拥有112个处理器,规格与GeForce 9800 GT相近,但频率有所提升,而且存储器容量由512MB提升至1GB,散热器和PCB也有所分别。仅支持DirectX 10。
- GeForce GTS 250 - 于2009年3月推出,核心采用55nm制程,与GeForce GTS 150(低成本设计的GeForce 9800 GTX+,性能增强版)的规格相同,是针对零售市场进行改名的产品,设备标识符(Device ID)两者皆为0615,所以两款显卡是完全相同的,在某些更名前的早期版本驱动程序中,GTS 250会显示为GTS 150,并且多数硬件侦测软件的数据库存在错误,如GPU-Z、EVEREST等,是通过所安装的驱动程序显示名称。GTS 250减少至只需一组6pin外接电源,并同GTS 150一样增加了1GB版本,某些厂商甚至生产过2GB版本,早期有部分厂商直接将GeForce 9800 GTX+更改BIOS成为GeForce GTS 250则仍有可能需要两组6pin外接电源。仅支持DirectX 10。
- GeForce GTX 260 - 定位是高端显卡,部分厂商已下调其价格到165美元,用作与Radeon HD 4870竞争。核心的流处理器数量下降至192个,显示内存带宽是448-bit。为了对抗Radeon HD 4870,NVIDIA推出新版本的GTX 260核心,流处理器数量上升至216个,厂商使用GTX 260+作为型号以作分辨[3]。仅支持DirectX 10。
- GeForce GTX 275 - 于2009年4月推出,与GeForce GTX 285同样使用55nm D10U绘图核心及拥有240个流处理器,但存储器位宽亦由 512Bit减少至448Bit,存储器容量亦由1GB减至896MB,另外Raster Operations Unit由32个屏蔽至28个。由于频率较高,所以性能比GeForce GTX 280优胜。仅支持DirectX 10。
- GeForce GTX 280 - 系列推出初期最高端的显卡。核心拥有240个流处理器,显示内存带宽是512-bit,显存为1GB GDDR3。仅支持DirectX 10。
- GeForce GTX 285 - 相当于GTX 280的55nm GT200b核心版本。同样拥有240个流处理器、512-bit显存位宽和1GB GDDR3显存。核心频率为648MHz,流处理器为1476MHz,显存频率为2482MHz,频率比GTX 280为高。功耗由GTX 280的236W降至183W,并只需要2个6pin外接供电接口。MAC版本的GTX 285只增加了HDTV输出接口,支持通过HDMI音频输出。仅支持DirectX 10。
- GeForce GTX 295 - 拥有两颗55nm GT200b显示核心,产品设计与GeForce 9800GX2相近。通过NF200接桥芯片将两核心相连。GTX 295共拥有480个流处理器,配备1792MB的GDDR3显存,位宽896-bit,核心频率为576MHz,流处理器为1242MHz,显存频率为1998MHz[4]。仅支持DirectX 10。整卡功耗达289W,需要1个6pin及1个8pin外接供电接口。卡上提供了一个SLI桥接接口,用作支持双卡并联的Quad SLI模式。原来的设计需要2片PCB,而于2009年5月推出的新版本设计只需1片,频率不变但能改善散热效率、减低成本,但单PCB版没有板载HDMI接口。
- 行动平台
- GeForce G210M - 核心代号N10M-GS采用40纳米制程工艺,核心频率625 MHz,仅有16个流处理器,频率1500 MHz,存储器最高支持到512MB/64Bit GDDR3,支持DirectX 10.1。
- GeForce GT 220M - 核心代号N10P-GV2采用55纳米制程工艺,核心频率500 MHz,拥有32个流处理器,晶体管数为3.14亿,频率1250 MHz,支持DirectX 10.1。
- GeForce GT 230M - 核心代号N10P-GE采用40纳米制程工艺,核心频率500 MHz,拥有48个流处理器,频率1100 MHz,支持DirectX 10.1。
- GeForce GT 240M - 核心代号N10P-GS采用40纳米制程工艺,核心频率550 MHz,同GT 230M一样拥有48个流处理器,频率1210 MHz,支持DirectX 10.1。
- GeForce GTS 250M - 核心代号N10E-GE采用40纳米制程工艺,核心频率500 MHz,拥有96个流处理器,频率1250 MHz,存储器最高支持到1GB/128Bit GDDR5,支持组建SLI,支持DirectX 10.1。
- GeForce GTS 260M - 核心代号N10E-GS采用40纳米制程工艺,核心频率550 MHz,同GTS 250M一样拥有拥有96个流处理器,频率1375 MHz,存储器最高支持到1GB/128Bit GDDR5,支持组建SLI,支持DirectX 10.1。
- GeForce GTX 260M - 核心代号N10E-GT采用55纳米制程工艺,核心频率550 MHz,拥有112个流处理器,频率1375 MHz,存储器最高支持到1GB/256Bit GDDR3,其晶体管数量达到7.54亿,仅支持DirectX 10。
- GeForce GTX 280M - 核心代号N10E-GTX采用55纳米制程工艺,核心频率585 MHz,拥有128个流处理器,频率1463 MHz,存储器最高支持到1GB/256Bit GDDR3,其晶体管数量与GTX 260M一样达到7.54亿,仅支持DirectX 10。
- GeForce GTX 285M - 核心代号N10E-GTX采用55纳米制程工艺,核心频率576 MHz,拥有128个流处理器,频率1500 MHz,存储器最高支持到1GB/256Bit GDDR3,其晶体管数量与GTX 260M一样达到7.54亿,仅支持DirectX 10。
更多信息
参考
- ^ 四大重要更新 40nm GT220全球抢先详测. [2009-10-13]. (原始内容存档于2009-09-06).
- ^ NVIDIA首款DDR5显卡 GT240性能首次曝光. [2009-10-12]. (原始内容存档于2009-10-13).
- ^ GeForce GTX 260换装,216流处理器再战沙场。[永久失效链接]
- ^ 不给AMD任何机会!55nm双核GTX295首测. [2009-10-13]. (原始内容存档于2010-01-16).