查看: 4444|回复: 2
收起左侧

(转帖)从T764八卦一下现在GPU的实际 宣传太多蒙人的地方了......

 关闭 [复制链接]
nanlou001
发表于 2015-6-2 19:57:04 | 显示全部楼层 |阅读模式
以RK3288为例,GPU用的是Mali-T760 Series(4 ShaderCore),按以往的习惯俗称Mali-T764或者Mali-T760MP4

一开始就要明确的是,按照GPU的特性,易于并行化,所以一个产品线下的实际产品,就是由规格和频率共同决定性能,SGX544MP2@250MHz和544MP1@500MHz的表现就认为一码事吧,T768跑个300MHz和T764跑个600MHz也没啥区别,不过前面这种毕竟面积大成本高,但胜在功耗低毕竟低频么,后面这种就是成本低功耗高,水果和寨厂就基本是这两个极端,所以说到实际性能,一定要明确具体产品的规模和实际频率,不说清楚这两点就说性能的话就是在耍流氓

T760这玩意么 宣传“Officially the T760 is rated at 326 GFLOPS, has up to 2 512K L2 caches, and runs up to 600MHz. For the stat geek the pixel fill rate is 9.6 GPixels/s, 1066.6 MTriangles/s”

注意了 这里面就有两个陷阱

1、326 GFLOPS, 9.6 GPixels/s, 1066.6 MTriangles/s 这些参数统统是在满配16个ShaderCore跑600MHz的时候出来的,像RK3288上面的只有4个ShaderCore,那以上成绩自然要除个4再说,就像Shader能力,在600MHz下就只有81.6 GFLOPS了

2、这个更隐蔽,或者说是ARM一直以来坑爹的地方,它家宣传的Shader能力从来都是在半精度FP16下的成绩,而别家宣传的基本都是标准的FP32;从Mali-400一直到T7x0它家的ALU单元逻辑没有大变动,每单元每周期能处理FP16是2*8+1=17个ADD,处理FP32的能力则是8+1=9个,所以要和别家真正对比的话,实际应该是81.6/17*9=43.2GFLOPS@600MHz,0.072GFLOPS/MHz的水平

43.2GFLOPS是个什么水平呢?
两年前的new iPad用的SGX543MP4,跑300MHz的话是38.4GFLOPS,那可以欺负一下牛排;
一年前的iPad4用的SGX554MP4,规格翻倍,同频300MHz下到了76.8GFLOPS;
同样出来一年多的骁龙600,现在都不算时髦了的Adreno320,跑400MHz时都有51.2GFLOPS
当红炸子鸡骁龙800,Shader狂魔Adreno330,默频450MHz下,114GFLOPS,骁龙801上最高578MHz,按比例算吧

没出的玩意里面
Tegra K1,0.384GFLOPS/MHz,跑个300MHz的话GFLOPS就破百了,主动散热下还号称950MHz,那就365GFLOPS的怪物了
PowerVR GX6650,6组USC/192ALU,同频性能和K1一样的怪物
Adreno420,这货也是号称330性能翻倍,效率也是站在0.4GFLOPS/MHz这档次的说
如果在寨板里面找对手,A80用的是G6230,不强,0.128GFLOPS/MHz,祈祷这货别超过340MHz吧......


T764八到现在,那就顺便把它家之前几个一并八一下

首先 拿以往的路线图来看看 这是T604->T678这条线的


然后 T720/T760出来后


从T604开始
ARM第一款统一架构的GPU方案(之前的Mali-400/450之类都是VS/PS分离各管各的),当初曾经被寄予厚望希望能靠它来抢PowerVR的市场,最出名的用户就是冤大头三星的Exynos5250
说实在话,T604的性能还是可以的,都追近Adreno320的说,但是,这货的能耗比压根就是一坨翔!Anandtech测的单单GPU这块的功耗就直奔4W去了,这还要是32nmHKMG下的成绩,28LP工艺的8064上的Adreno320也不过1W出头,考虑到两者工艺的区别,甚至可以认为T604的能耗比要提升400%才能追得上Adreno320......

接下来是T62x这一代
号称提升了能耗比50%,注意这一代才是当下的主力,每个ShaderCore含两个ALU,每个ALU是128位向量单元,外面还有一个32位的标量单元,所以每核每单元处理FP32的能力是2*4+1=9,像Exynos5420上的Mali-T628(6ShaderCore)就是57.56GFLOPS,总算能把骁龙600踩趴下了,受益于优(sai)化(qian),甚至还能和骁龙800别别苗头

T658/T678?
算了吧,这两玩意当初是想拿来打专业计算市场的,用在移动终端太大块头了,说白了就是一个ShaderCore里面塞了翻倍的4个ALU;满配8个ShaderCore的T628都没人敢用在手机上,三星都只敢用6个而已,那就更别提这个规模更大的怪物了

啦啦啦终于到了现在的T760了
说白了,这货就是T62x的马甲,规格啥的基本一致,提升了能耗比(号称比T604提升了400%...终于追上Adreno320了么...)
最明显的卖点就是AFBC前端纹理压缩和合成,降低了对内存带宽的需求
我勒个去,这不就是PowerVR它家G6x30和G6x00的区别么,人家还厚道点就是来个小型号的变化,ARM可好,加了个特性就直接把产品序号整个更新了一代,好显得自己高大上么......

顺带提一下T720
定位是取代Mali-450之类的入门到中端这块,但实则还是从T62x这代而来,把每个内核里的ALU单元砍成了一个,然后再加上带宽压缩这个特性折腾出来的东西

再重申一下,路线图上的东西并不意味着性能的排序,同样核数的T760干不过T658/678那是正常

说到底,ARM的GPU还是靠便宜打市场,真要指望有多出色的话很难,毕竟底蕴不够,看看人家高通,Adreno系列靠的是AMD,Tegra系列自不必说,nVidia这棵大树在那,PowerVR系列从Videologic公司算起都玩了快20年的显卡没中断过,而Mali的亲爹Falanx比起前面这票大佬来说实在不够看......

补充两个链接 有兴趣的话可以看看
http://www.anandtech.com/show/65 ... he-real-showdown/12
http://semiaccurate.com/2013/10/ ... i-t760-8-core-t720/

修正一下
T760的ALU单元可以做默认ADD之外还有MUL 每周期能处理的FP32个数还有一定加成
在某种很蛋疼的情况下 标量/向量全部动用到 ADD/MUL一起算 生生还是能凑出每单元每周期17的FP32水平出来
但是这种场合与其说真的应用还不如说是在炫代码的特定优化水平
综合考虑一下 600MHz的T764可以适当高看到60GFLOPS这一档 拼一下Adreno320 但依旧还是只有Adreno330的一半......


2014.3.24

炮炮刚抓出来的消息

"其实全志A80的GPU(G6230)跑分前几天已经有了

PowerVR Rogue Han, GFX 3.0下
基本接近三星5422的Mali-T628 MP6, 超过5420的T628 MP6
1080p T-Rex是14xx 帧,5422是1500 frames, 5420是12xx frames
然后MT8135的G6200大概是700frames不到—— 估计A80的G6230频率挺高。600MHz+或者700MHz了

3.0的Manhattan成绩好像超过了5422?。。。不记得了

至于RK的T764 (MP4), 同频规格应该跟T624/628 MP4一样"

700MHz的G6230的话 已经89.6GFLOPS/FP32 都超过iPad Air的说

第一款国寨方案GPU性能强过水果的么......
nanlou001
 楼主| 发表于 2015-6-2 20:02:24 | 显示全部楼层
[img=1525,1744]http://www.arm.com/zh/images/GPU_Compute_roadmap.jpg[/img]
洛天依
发表于 2015-6-14 17:43:25 | 显示全部楼层
想起之前魅族说它的mx4是4核GPU.....
您需要登录后才可以回帖 登录 | 快速注册

本版积分规则

手机版|杀毒软件|软件论坛| 卡饭论坛

Copyright © KaFan  KaFan.cn All Rights Reserved.

Powered by Discuz! X3.4( 沪ICP备2020031077号-2 ) GMT+8, 2024-6-15 20:34 , Processed in 0.121601 second(s), 16 queries .

卡饭网所发布的一切软件、样本、工具、文章等仅限用于学习和研究,不得将上述内容用于商业或者其他非法用途,否则产生的一切后果自负,本站信息来自网络,版权争议问题与本站无关,您必须在下载后的24小时之内从您的电脑中彻底删除上述信息,如有问题请通过邮件与我们联系。

快速回复 客服 返回顶部 返回列表