基于Xilinx UltraScale+ VU9P FPGA的AWS F1实例分析

日期:2017-01-03 作者:佚名


作者:巩小东

一、F1实例描述

场景:基因组学研究、金融分析、实时视频处理、大数据搜索和分析以及安全性

卖点:能够通过现场可编程阵列 (FPGA) 实现定制硬件加速

硬件信息:

1. E5-2686v4 CPU

2. DDR4 内存

3. local NVMe SSD

4. EBS优化带宽

5. 增强型网络

6. Xilinx UltraScale+ VU9P FPGA

7. F1.16xlarge 实例,通过400Gbs双向环网,8个 FPGA 共用同一内存空间,且有12GBps互联带宽

F1使用的xlinx virtex ultrascale+ vu9p高端FPGA配置:

1、450Mhz 32bit CPU

2、256 GB DDR4 SDRAM ECC

3、1.25 million,6-input + 1-output / 5-input,+ 2-output LUT

4、PCIE Gen3 x16 *2

5、PCIE Gen4 x8 * 2

6、4 * QSFP28, 支持1*400,4*100,4*40,16*25,16*10

7、全高,3/4长双金手指卡

8、没有看到ebay等销售该产品,有同学说报价高达3w~5.5w刀一个

F1实例通过近 250 万个逻辑元素描述FPGA能力,业界通常用上面的LUT深度以及数量描述,如上图。

二、F1实例分析

主机配置推荐:

1、dom0使用18*2*2 - 64 = 8 个核心

2、dom0使用32*34 - 976 = 112 M内存

xilinx产品系列:

Artix在低功耗场景。

Kintex在复杂工控,视频处理(如机顶盒),智能设备(自动驾驶)等场景。

Virtex在高端电信基础设施,高端ASIC的原型验证等,属于最高端产品。

请教了唐杰总,VU9P目前是16nm产量最稳定的片子。AWS的成本压力,对扩容窗口,扩容数量的高要求,决定了选择这个片子。

xlinx推出了reconfigurable acceleration stack,基于其vivado IDE,便于在云环境中快速实现DNN/视频/sql等加速。

通过f1实例提供FPGA,通过镜像市场提供免费的vivado IDE(据说全特性1k美元),以及做好的IP core。

各个FPGA可以共享访问到CPU一块内存,而且是12GB带宽,12/0.985=13,需要x16的PCIE gen3。

各个FPGA之间有400Gb的互联带宽。之前以为是xlinx搞的CCIX互联,但仔细一看,CCIX只有25Gbps,这里需要FPGA自带的400Gb的QSPF的网口互联。看来还需要个L2的switch在服务器里面/或者顶上..

总结
1、不同于Intel在cpu package中封装FPGA,AWS认为的场景是,1个CPU对4个FPGA的加速模式。
2、FPGA片子要选大的。
3、FPGA之间要有共享内存保存中间数据。
4、FPGA之间需要高达400Gb带宽互联,延时可以优先级降低。
5、加速库可以随应用加载,这点到和Intel想法一致,但intel与CPU封装的思路更适合这种场景。

文章来源:化云为雨 微信公众号
关于OpenHW  |  OpenHW使用说明  |  FAQ  |  相关法律  |  版权声明
联系邮件: lishen@eefocus.com   联系电话: 0512-80981663-8062     Fax:0512-80981279
Powered by eefocus.com