专栏名称: 半导体行业观察
半导体行业第一垂直媒体,30万半导体精英的共同关注!实时、专业、原创,专注观察全球半导体行业最新资讯、技术前沿、发展趋势。欢迎订阅摩尔精英旗下更多公众号:摩尔精英MooreRen、摩尔芯闻MooreNEWS
目录
相关文章推荐
半导体行业联盟  ·  【半导体封装】官方9群 ·  昨天  
半导体行业联盟  ·  扫描免费下载:DC/DC ... ·  昨天  
半导体行业联盟  ·  魏哲家:明年有很多英伟达 ·  昨天  
半导体行业联盟  ·  中国石化布局集成电路 ·  昨天  
OFweek维科网  ·  AMD收购硅光“黑马” ·  2 天前  
51好读  ›  专栏  ›  半导体行业观察

AI芯片|浅析Yann LeCun提到的两款Dataflow Chip

半导体行业观察  · 公众号  · 半导体  · 2017-05-09 08:37

正文

请到「今天看啥」查看全文




PE的结构图看了半天,也没找到MAC,这怎么玩?


DPU内,每4个全连接的PE组成一个Quad,4个Quad组成一个cluster。每两个PE共享一个8-bit加法器。每个cluster内包含8个算术单元(包括2个32-bit MAC、2个32-bit BMU和4个16-bit加法单元),可以根据需要组成8/16/24/32/64bit操作。而且支持SIMD和MIMD指令。对比Wave披露的多份文档,可以知道更多细节。考虑到MAC和BMU(bit-manipulation unit)不是单周期的计算单元,估算chip可以达到181TOPS。如果进一步细分,只考虑MAC操作,可以达到8TOPS。从wave的描述看,每个Cluster都是一个独立的全定制的电路,对应独立的GDSII。



下面,就是如何使用定制的Cluster来搭建整个计算阵列了。


Cluster之间的互联设计吸取了NOC的设计理念。每个Cluster都具有fanin和fanout的功能,每个cluster具有4个8bit的byte-switch和一个32bit的word-switch,可以通过指令来驱动cluster在多个方向的开关。每个Cluster可以接收保存临近的Cluster的数据,既可以自己使用,也可以直接透传给其他相连的Cluster。通过编译器,可以很好地调度cluster的计算以及数据通过cluster的传输,来实现各种算法。



可以通过sleep指令控制cluster进入低功耗模式。在低功耗模式下,cluster内的PE和byte-switch都将停止工作,但是word-switch保持工作状态,以支持数据的传输。当存在有效数据传入同时有word-switch指令将数据发送给cluster内部的Quad时,cluster内部PE被唤醒进行计算。



在一个DPU芯片内,集成了1024个cluster,组成32x32阵列,并分割成24个区域。每个区域包含32或64个cluster,称为一个compute machine。每个compute machine拥有独立的128-bit的AXI 总线接口。DPU通过一个基于AXI4的网络,实现24个接口与memory、IO的互通。此网络支持32个AXI4总线,可以达到410GB/s的峰值带宽。由于缺乏细节,本人也不知道多出来的8个AXI4总线是如何使用的。








请到「今天看啥」查看全文


推荐文章
半导体行业联盟  ·  【半导体封装】官方9群
昨天
半导体行业联盟  ·  魏哲家:明年有很多英伟达
昨天
半导体行业联盟  ·  中国石化布局集成电路
昨天
OFweek维科网  ·  AMD收购硅光“黑马”
2 天前
Cocoa开发者社区  ·  移动开发中的极简设计
8 年前
教你看穿男人的心  ·  什么样的男人只爱你却不娶你?
8 年前