CPU专题--辉煌的今日（AMD）

日期: 2000-06-12 14:00 | 联系我 | 关注我: Telegram, Twitter

　　作为排位在INTEL公司之后世界第二大CPU制造商的AMD，在X86时代，一直都能够紧跟着INTEL的步伐，产品的技术与推出时间和INTEL相比并没有什么明显的差别，以致与在那个时候，我们就知道有286、386和486，可是并没有详细地去分是INTEL还是AMD，或者是CYRIX的。我们应该感激AMD这位一直以来都在不断努力，力图超越自己和CPU巨人INTEL的急先锋。正因为有了AMD和其他公司在不断地给予INTEL强有力的挑战，CPU才会如此快速地降低价格，而且CPU的发展也一日千里，介绍AMD公司的产品，就要从他们从X86的“阴影”里面脱离出来的第一款产品：K5说起。

　　由于INTEL在486之后就再也没有出过以阿拉伯数字命名的CPU，而是推出了一个拉丁文的Pentium，AMD也被迫着改换门庭，另起炉灶，推出了自己设计并且生产的K5CPU。K5系列CPU的频率一共有六种：75/90/100/120/133/166，内部总线的频率和Pentium差不多，都是60或者66MHz，至于倍频则全部都是1.5，核心电压都是3.3v。作为一款与Pentium竞争的产品，AMD的确做得非常出色，虽然再浮点运算方面比起INTEL的来说是略逊一筹，但是再整数运算方面却一点也不会比INTEL差，由于K5系列CPU都内置了24KB的一级缓存，比Pentium内置的16KB多出了一半，因此在整数运算和系统整体性能方面甚至要比同样时钟频率INTEL要高。

　　K6：

　　在INTEL发表了新一代的P6结构CPU：Pentium Pro以及多能奔腾MMX之后，市场上继续出现一款能够与两者相抗衡的产品，在这个时候，AMD推出了自己研制的新产品棗K6。

　　K6这款CPU的设计指标是相当高的，从一开始，AMD就想利用K6的优秀性能将Pentium比下去，K6具有MMX技术、更多的片上高级缓存（32K指令、32K数据）与K5相比，可以平行地处理更多的指令，并运行在更高的时钟频率上。在整数运算方面，AMD无疑是做得非常成功得，基于AMD的K6/233在Windows95的商业测试中性能已相当接近PentiumII/233，但仍有几个百分点的落后。由于K6具有更大的L1缓存，所以随着频率的增长，它能获得比Pentium MMX更显著的性能提升。K6稍微落后的地方是在运行需要使用到MMX或FP（浮点指令）的应用程序方面，比起同样频率的Pentium MMX，甚至没有MMX的奔腾都要差许多，这样就使K6在某些3D游戏方面的表现远不如INTEL的出色了。另外，AMD的MMX单元一次只能处理一条指令，而Intel的MMX单元能够处理两条指令。因此K6 在执行MMX指令和浮点指令时性能要差一些。AMD没有象Intel那样为这些功能投入资源。浮点和MMX 性能主要取决于两点：处理周期和吞吐量。处理周期是指从一个指令开始到完成所用的时间。这个性能描述了处理器完成一个操作所需的时间。吞吐量指的是一定时间内可以开始进行处理的指令数量；在一个管线化的乘法单元或浮点单元中，两个或多个操作可以并行执行，这增加了吞吐量，但同时也延长了处理周期。所有Intel的CPU都具有完全管线化的MMX和浮点单元，所以在每个时钟周期内都可以开始一个新的操作，虽然每个操作的结果可能在几个时钟周期后才能出来。但执行一个长的顺序计算操作时(这种操作是典型的多媒体应用中常用的)，吞吐量比处理周期更重要。

　　AMD的K6在处理某些MMX操作的时候具有比Intel的CPU更短的处理周期，但单个操作的吞吐量是一样的，而且较短的处理周期并不能弥补K6不能同时处理两个MMX指令的不足。虽然Intel的MMX CPU可以同时处理两个MMX指令，但它的MMX单元只含有一个乘法单元和一个移位单元，所以它不能同时进行这些关键操作。而且同时只能有一个MMX指令操作内存和整数寄存器在浮点处理方面起作用，因此K6在某些操作上的处理周期仍比Intel的短，但它每两个时钟周期才能开始一个操作，而Intel的芯片可以每个周期开始一个。最终的结果是对于许多浮点操作来说，AMD的芯片的吞吐量只能达到Intel芯片的一半。这种弱点在ZD 3D WinMark 97 测试中充分的暴露了出来，这个测试综合了浮点运算，包括Pro/Engineer，AutoCAD和一些PhotoShop 测试。在这些测试中，K6/233要比Pentium II/233 慢，有时甚至比Pentium MMX/233慢。在3D WinMark 测试中，如果使用软件模拟方式来完成所有3-D任务，K6/233的性能只有Pentium II/233的三分之二，使用一个好的3-D图形卡，这种差距缩小到18%，仍然相当可观。与Pentium MMX/233 比较，K6/233在软件模拟方式下慢18%，使用好的图形卡也慢7%。

　　但是作为AMD对 INTEL的沉重一击，K6的确是光荣地完成了任务，市场在占有率因为这样而上升到了历史的最高点。由于在一段时间里INTEL出现了放弃低端市场的念头，因此AMD的名声可谓到达了颠峰！

　　K6系列CPU一共有五种频率，分别是：166/200/233/266/300，五种型号都采用了66外频，但是后来推出的233/266/300已经可以通过升级主板的BIOS而支持100外频，是CPU的性能得到了一个飞跃。在倍频方面，K6系列是从2.5~4.5不等，核心电压则是有2.9，3.2，22三种，特别值得一提的是他们的一级缓存都提高到了64KB，比MMX足足多了一倍，这也是K6的整数性能为什么要比MMX好的缘故了。

　　正所谓山雨欲来风满楼，AMD公司连续推出的好几款CPU的性能与INTEL公司的都十分接近，这表明AMD已经有足够的实力来研制比INTEL更加先进，而且性能价格比更加高的产品了，不出所料，1998年中，AMD最新K6-2处理器正式推出。这是首款采用3DNow!技术的微软视窗操作系统兼容型X86微处理器，内置3DNow!指令及超标量MMX功能，可以产生栩栩如生的影象和图形效果、大屏幕的影音效果，并为用户带来更精彩的因特网经历。K6-2从诞生的那一天起，就凭借其最新的技术得到了包括微软在内的各独立软/硬件供应商的支持。这款K6-2是AMD公司自推出K6CPU后又推出的一款采用最新3DNow技术的CPU，它采用了全新的硅晶体制造技术（学名叫CS44E IC，并用C4倒装），将硅晶精度提高到了0.25微米，硬是将原来K6晶体面积（Die size）的168mm2降到了现在的68mm2，同时晶体数量也增加了50万个（成为930万个），其余结构基本同K6相同，L1 CACHE仍是64KB，但它的面积也比以前的小了，仅有原来的1/2大。此外它的工作电压也从2.9/3.2伏降到了2.2伏，据推测，它的耗电量有可能还不到10瓦。并采用最先进的3DNow技术。当前，随着新一代CPU运算速度的提升，以及许多新的显示芯片纷纷内建了3D图形加速功能，毫无疑问，3D图形加速技术已成为98年的新主流。可是谁才真正是3D运算的核心呢，看来CPU与显示卡厂商还有的比拼。

　　尽管Intel宣布了MMX指令集能够加速多媒体的应用，尤其是影像处理方面，不过直到MMX一代为止，这还仅限于2D方面，3D的许多图形函数库的运作是不可能靠这区区57组MMX指令集就可以实现了的，而且它还需要浮点运算指令的配合，更要花上数百千行的程式执行码才能尽其职能。但事实上应用MMX加速的效应虽然也有，但极为有限，偏偏MMX的规划又跟浮点运算的区域重叠，造成了MMX与FPU指令过于频繁的切换，反而把MMX加速所节省下来的时间给抵消掉了！AMD在K6获得MMX指令集支持后，就看到了这个问题的弊端。于是在它K6获得成功之后，AMD就提出了自己的AMD 3D技术结构。一个3D影像实体的产生，依先后次序分为四个阶段：第一，是应用软件或游戏软件提供3D环境的素材（类似于基本数据的传送），此部分着重浮点运算；第二，是通过空间几何学，画出物品的框架与轮廓，此阶段仍然要靠浮点运算；第三，进行视野修正（三角形修正法），依视角作形体的修正；最后再进行实体着色，画出真正的3D立体实体。AMD的3D技术，就是针对第一阶段、第二阶段、第三阶段的重点部分做加强支持，事实上这三部分也是比较依赖CPU的部分；至于第四阶段因为要涉及到具体的着色、合成等运算，AMD就将其就完全交给3D加速卡去全权负责，因为各个显卡厂商都有自己影像合成、着色方面的的独门秘诀，AMD想挤进去还做不到呢！这也比较合理一些，业有所长，术有专攻嘛。怎么样，看了AMD的3D技术有何想法？别着急，K6 3D从880万颗晶体加到了930万颗，它可是还增加了不少新功能啊。其中包括增加Superscalar MMX Unit，现在K6 3D在一个时钟内可以执行解码/执行两条MMX指令。而且不受指令配对的限制。（P55C/Pentium II中有个限制：不能在同时钟下执行两个MMX乘法指令）增加24组专门为3D加速的新指令（AMD 3D指令集），它可以一道指令执行多个浮点运算。针对此24组指令，它还可以加快3D影像处理、声音合成等的执行速度，当然它的3D指令要配合3D加速卡才行。而且它不会再象MMX那样使用重复的浮点运算的区域，造成指令的重叠了。100MHz的外部总线频率，它可以大幅度提高CPU与L2 CACHE和DRAM之间的交换速度，进而提升整个系统的性能。

　　说到了K6-2，自然要向大家介绍一些有关3DNow!技术的知识：

　　AMD为确保系统发挥更高的三维图形性能而对x86处理器结构作了改进，3DNow!技术便是这个研发过程的第一项成果。这项新技术可提高三维图形、多媒体、以及浮点运算密集的个人电脑应用程序的运算能力，使“逼真的运算平台”成为现实。3DNow!是一组共21条新指令，可采用单指令多数据(SIMD)及其它加强的性能以缓解主处理器与三维图形加速卡之间在三维图形通道上所形成的传输瓶颈。3DNow!技术可加强三维图形通道前端的物理及几何运算功能，使三维图形加速器可以全面发挥其性能。由于K6-2处理器备有SIMD式的指令以及双寄存器执行通道，因此可以在每一时钟周期内执行四个浮点运算。K6-2/333的浮点性能最高可达1.333 Gflops，较Pentium Ⅱ 333及Pentium Ⅱ 400的浮点性能优胜很多(这两款Pentium的最高浮点性能分别只有0.333 Gflop及0.4 Gflop)。AMD-K-2-300可发挥1.2Gflop的最高浮点性能，若与最高性能只有0.3 Gflop的Pentium Ⅱ 300比较，K6-2-300的三维处理性能要高3倍。在3DNow!技术的支持之下，供应商可开发性能更强劲的软硬件应用方案，Windows兼容型个人电脑可以发挥更卓越的三维图形性能及更逼真的视觉效果。3DNow!若与各大三维图形加速器配合使用，可发挥各种不同的优点，其中包括以更高的帧速率播放高清晰度画面、建造更接近真实世界的物理模型、更逼真的三维图形及影像、以及可与影院媲美的影音效果。在制定3DNow!技术标准及整个计划执行的过程中，Microsoft、应用程序开发商、图形供应商、以及x86处理器供应商均提供意见，整个计划获得业界广泛支持。3DNow!技术可与现在的x86软件兼容，经过优化，适用于3DNow!技术的应用程序可以与现时所有的操作系统配合运行。

　　由此可见，AMD公司的产品是首次在整数性能以及浮点运算性能上同时超越INTEL，这是何等令人兴奋的消息，也正是因为K6-2的推出，让INTEL感觉到了危机感，不但CPU的价格一路下降，而且本已经打算停止生产的赛扬系列CPU又推出了最新版本棗内置128KB一级缓存的赛扬A。让我们广大的电脑爱好者欣喜若狂！

　　再说回去K6-2，它的频率目前也是有五种：266/300/333/350/400，核心电压都是2.2伏特，所以发热量比较低，一级缓存比起K6没有丝毫的改变，同样是64KB，不过在这五种型号里面，我们应该注意一下K6-2-400，可以这样说，它是目前CPU市场上性能价格比最高的产品，为什么？且听我慢慢道来：

　　K6-2自从上市以来一直被超频爱好者所“不齿”，就是因为它的超频性能不好，但是K6-2-400的发布却是值得我们骄傲的，我拿到一块K6-2 400的样品之后马上对其进行测试，使我惊奇的发现，这颗小小的芯片竟有如此潜能，一举甩掉了K6-2不好超频的历史，足以与和PII争个你死我活。当Intel Celeron 300A 以其最优的性价比赢得市场后，K6-2的日子越来越不好过了，具有重大意义的K6-2 400也就在这个时候横空出世，如果你说AMD K6-2的优势何在？可能就是它的低价格和接近PII的高性能。可自从Intel Celeron 300A 处理器的产生，改变了INTEL一贯的高价格，并且赛扬的价格比K6-2还要低，这时K6-2的价格可没有任何优势可言，但同频率的赛扬在综合性能和K6-2还有一点差距，这对K6-2来说可能是个好消息。但别望了，赛扬的超级超频能力可以说有此疯狂的地步。Intel Celeron 266可以超到450MHz，Intel Celeron 300可以超到500MHz，这不能不说对K6-2是个压力。为此，K6-2自从K6-2 350后，就开始注重芯片潜在的能力的研制和开发。在今天他推出的K6-2 400就能说明这一点。K6-2 350可以上400MHz，甚至有人超到450MHz，而更让我们惊奇的是K6-2 400可以超到500MHz（准确地说是504MHz），我甚至向更高的550MHz冲剌，可是失败了，开机能自检为550MHz，但一会就当机了。对于超频的方法在往后再慢慢阐述，我要声明的是，K6-2 400超到500后系统非常稳定，能完整地通过全面测试，至少我是这样。

　　经过详细测试，赛扬300A已被锁死在100x4.5上，而Celeron 333Mhz 已被锁死在100 x5之上。而且测试之后还可以看出 K6-2 和Celeron 只差 0.97%,可以忽略不计，要知道因为PII的L2快取是主频的一半，在500MHz时即为250MHz，而此时的K6-2 500MHz的L2快取还是100MHz，所以K6的分数低一点也是有原因的，至于3D图形性能实在太令我吃惊了，K6-2的性能居然超过了对手33%，性能的巨大提升不能不说明了AMD的实力，尤其是K6-2的3D NOW！K6-2 400的性能表现非常出色，它能更好地实现性能和价格两者的关系，这使我们在选购电脑时又多了一种选择，并且延长了S7主板的寿命。

　　K7:

　　是AMD公司刚刚推出不久的全新CPUMD目前采用3D NOW！指令集的K6-2处理器，广受好评。而新一代功能强大的K7继续采用3D NOW！指令集。AMDK7采用200MHz的外频！而Inter公司明年有可能只会推出133MHz外频的处理器。AMD甚至表示，2000年时，将会推出基于1000MHz外频的产品。而且在K7的设计之中，AMD放弃了一直都沿用的Socket 7结构，转向将采用卡匣式结构，这样看起来，AMD K7更像是PII了。据AMD所公布的资料显示，K7第一个版本采用的是0.25微米的制造技术，而后将采用0.18微米新工艺。K7加强了整数、浮点运算和多媒体运算的能力，具有每次可发出九条指令的超阶层微架构、超阶层管线的浮点运算单元。K7并没有采用INTEL的GTL+系统总线协议，它使用的是Digital公司的Alpha系统总线协议EV6。EV6系统总线有许多的优点，首先它有许多比GTL+更为优秀的构造，例如点对点布局。其次它可以支持200mhz的外频，也就是说我们一年以后见到的K7有可能工作在200mhz的外频下，K7将是第一个真正支持RDRAM或DDR SDRAM的CPU，其中RDRAM可以提供1.6GB/S的数据传输。K7没有把Cache内建在处理器里。但是，K7具有64位可编程控制的后置式L2 cache界面，可支持512KB~8MB的二级缓存。

　　现在我们就来看看K7的结构到底是怎么样的：

　　·3个并行的X86指令解码器；

　　·9个为高频率优化的超标量微结构；

　　·动态推测时序，乱序执行；

　　·2048个入口分支预测表和12个入口返回堆栈；

　　·3个超标量乱序整数管道，每个包含：

　　　整数执行单元

　　　地址产生单元

　　·3个超标量乱序多媒体管道；

　　·64K指令一级CACHE＋64K数据一级CACHE，每两路相关；

　　·2个通用64位数据CACHE装载/存储端口；

　　·高速64位后方2级CACHE控制器：

　　　支持512K到8MB二级CACHE

　　　可编程接口速度

　　·高速64位系统接口：

　　　200MHz系统总线。

　　接下来我们就看看K7各种详细的性能指标：

　　一、K7采用的系统总线：

　　AMD的K7处理器并没有采用和Intel的GTL＋相同的系统总线协议，它使用的是Digital公司的Alpha系统总线协议EV6。顺便说一下,Alpha处理器是一种用于服务器系统的纯64位处理器,其性能优于现在用于PC系统的处理器。K7使用的EV6系统总线有许多的优点，首先,它有许多比GTL＋更为优秀的构造，例如它使用点对点布局。其次它可以支持200MHz的外频，也就是说我们一年以后见到的K7有可能是工作在200MHz的外频下，K7 CPU将成为第一个从高带宽内存如Direct RDRAM和DDR SDRAM中受益的CPU。Intel的GTL＋结构在100MHz总线下的尖峰带宽只有800MB/s;在133MHz时只有1066MB/s。Direct RDRAM和DDR SDRAM在100MHz总线下能提供1.6GB/s的带宽,这种带宽正好配合K7的200MHz EV6总线。到K7发布的时候,我想大家手上的SDRAM都得扔掉了（到那时SDRAM也已经落伍了），因为能和200MHz外频相配的内存只有Direct RDRAM和DDR SDRAM。没办法,如果你是一个狂热的电脑爱好者,手头又有足够的银子的话,就可以去买了，当然花这些钱还是值得，这对于计算机的性能会有较大的提高。

　　二、K7中的Cache：

　　AMD将在1999年底推出内建L2 Cache的“Sharptooth棗钢牙”（K6－3）处理器，不过新一代的K7没有将L2 Cache建在处理器内，但是，K7内置的tag RAM足以支持和Intel的PentiumⅡ处理器一样的512KB的L2 Cache，同时AMD还考虑生产像Intel的P6 CPU一样的外置的tag RAM，来支持不少于2MB～8MB的具有64位可编程控制的后置L2 Cache。虽然K7将不会把L2 Cache内建在处理器里，但是L2 Cache的速度将占CPU主频的1/3至全速，并且L2 Cache将使用SRAM或者DDR SRAM以保证其速度。K7将拥有不少于128KB的L1 Cache，其中，64KB将作为数据缓存，剩下的64KB将作为指令缓存。要知道PentiumⅡ只提供了仅有32KB容量的L1 Cache。有传言说Katmai可能会有不少于64KB的L1 Cache，但这也仅是K7的L1 Cache容量的一半。拥有大量的L1 Cache对高速的处理器来说是必须的，没有足够的缓存是导致处理器性能提高的一大瓶颈。灵活的L2 Cache设计，使得AMD可以像Intel一样，通过L2 Cache的大小和速度来决定CPU的用途，工作站或是服务器。K7将和Intel的Deschutes内核一样有64GB的寻址空间，但Slot 1只有4GB的寻址空间，而Slot A可以有64GB，故而K7的缓存空间也能达到64GB。因此，我认为使用加大缓存容量和DDR SDRAM作为L2 Cache的K7一定能够提供非常优秀的性能。

　　三. K7微结构优点：

　　K7有三条并行的x86指令译码器，用于将X86指令翻译成定长的微指令，每条微指令可以执行1到2个操作。K7有两种不同的译码流水线做这个工作，直接路径译码器快速地译码通用指令，而辅助路径译码器在微代码ROM中检索复杂的X86指令。K7有72个指令控制单元指令，控制单元分配微指令到乱序整数管道和乱序多媒体管道中去。乱序整数管道可以支持15个微指令，最大可同时进行30个操作，它的工作是分配3个独立的操作到3个并行的整数执行单元中去，每个执行单元都带有一个地址发生单元。地址发生单元能够通过优化L1和L2缓存数据的存取来保证最快的操作速度。

　　总之：K7的推出，所造成的最大的挑战是Intel即将发布的Coppermine棗带有同步L2缓存的0.18um工艺的Katmai。Coppermine的结构仍将与Katmai类似，因此Coppermine只有通过更高的主频来还击K7。这将是Intel公司1999年7月以前的主要任务。也许KNI与3D Now!的对抗将使得一切都不同。很明显，AMD不仅仅是发布一种新的CPU，而是一个正面进攻计划，对Intel的逐步进攻，直到K7的最后攻击。这就是为什么引入像Slot A这样的新的平台。K7卓越的设计将会吸引众多人的注意。Intel将不得不面临一场艰苦的战役。只有一个全新设计的CPU才有机会击败K7，因此他们只能比计划大大提前地推出Willamette，总而言之CPU发展下去将是好戏连场，绝对不容错过呢！

前一篇：CPU综述之--技术篇
下一篇：MMX汇编优化相关下载

标签: CPU | Intel | Pentium | AMD |

发表你的评论如果你想针对此文发表评论, 请填写下列表单:
姓名:	* 必填 (Twitter 用户可输入以 @ 开头的用户名, Steemit 用户可输入 @@ 开头的用户名)
E-mail:	可选 (不会被公开。如果我回复了你的评论，你将会收到邮件通知)
反垃圾广告:	为了防止广告机器人自动发贴, 请计算下列表达式的值: 3 x 2 + 1 = * 必填
评论内容:	* 必填你可以使用下列标签修饰文字: [b] 文字 [/b]: 加粗文字 [quote] 文字 [/quote]: 引用文字