晓查 发自 凹非寺
量子位 报道 | 公众号 QbitAI
11月,英特尔将在全球各地举办FPGA技术日,北京是第一站。在第一站的活动中,英特尔发布了全球最大容量的全新FPGA:Stratix 10 GX 10M FPGA。
这款FPGA包含1020万个逻辑单元,430亿个晶体管,并且采用了英特尔的EMIB的封装技术,将多个芯片封装在一起。

该产品是全球密度最高的FPGA,现已量产。多家客户已经收到全新的英特尔Stratix 10 GX 10M FPGA样片。
Stratix 10 FPGA在5G网络、人工智能、ASIC验证上都有广泛地应用,未来几周内将会有合作伙伴公布与英特尔的合作计划。
现在,已有微软Bing、Azure云以及英国软件公司VMWare与英特尔在FPGA加速方案上展开合作。
密度最高FPGA
英特尔Stratix 10 FPGA是全球密度最高的FPGA,拥有1020 万个逻辑单元,其密度是英特尔之前密度最高FPGA设备的的3.7倍,后者为原英特尔 Stratix 10 系列中元件密度最高的设备。
因为自有的EMIB技术让英特尔得以设计、制造并交付目前世界上密度最高、计算能力最强的 FPGA。
使用EMIB技术将I/O和内存单元连接到 FPGA 构造晶片,从而实现了英特尔 Stratix 10 FPGA 家族的规模和种类不断扩张。

这些技术让英特尔能够通过整合不同的半导体晶片,包括 FPGA、ASIC、eASIC、3D堆叠内存单元和光子器件等,用于将几乎任何类型的设备整合到封装系统 (SiP) 中,以满足特定的客户需求。
英特Stratix 10 FPGA设备集成了8GB或16GB的3D堆叠HBM2存储单元,具备 PCIe 4.0兼容能力。
之后,英特尔还发布了为数据中心打造的Agilex FPGA,这是一个全新的产品,这款产品是基于英特尔最新的10nm技术。

在性能上相比前代产品有巨大的提升,在性能上提升了40%,功耗降低了40%,算力达40TFLOPS,并且支持下一代内存技术DDR5和傲腾内存,以PCIe Gen 5与英特尔CPU进行通讯,数据传输速率达112G。
英特尔表示,Stratix 10 FPGA和Agilex FPGA与英特尔原来的硬件技术也有紧密的结合。
至强处理器+FPGA,提供了面向特定工作负载的软件堆叠优化。
英特的傲腾技术,为FPGA提供一个内存层,从而支持更高容量、更低延迟的方案。
在传输方面,Stratix 10可以实现数据的快速移动,支持100G以太网传输。
这些FPGA技术为AI系统提供了优化,在加速语音识别、视频处理方面优于其他传统解决方案。
使用英特尔FPGA PAC D5005产品进行语音处理,功耗比GPU产品低6倍,延迟比GPU低29倍,而吞吐量高48倍。此外英特尔还提供Arria 10 GX FPGA为视频分析提供加速。

补上oneAPI的FPGA拼图
前不久,英特尔在北京的一场技术分享会上公布了一些“oneAPI”的技术细节。
顾名思义,“oneAPI”的目的就是提供统一的编程模型,简化在不同硬件架构上的AI程序开发工作,让开发者用一套源代码创建适用于不同硬件的AI应用程序。
早在去年12月,英特尔就推出了“oneAPI”,并将于今年11月下旬发布开发者测试版本。
目前在人工智能计算上主要有CPU、GPU、AI加速器和FPGA,分别用于标量、矢量、矩阵和空间运算。

开发者需要为不同工作负载选择合适的硬件架构,不同架构的硬件之间缺少通用语言和API,造成每个平台的AI开发者都需要提供额外的软件资源。
英特尔基于行业标准和开放式规范,提出了oneAPI,让开发者可以在不同架构上获得统一的软件开发体验。
英特尔在这四种芯片上均有涉足,今天随着Stratix FPGA和Agilex FPGA的推出,英特尔顺势公布了基于FPGA的OneAPI。
基于行业标准和开放式规范,开发者可以在不同架构上获得统一的软件开发体验。

考虑到不同平台语言的不统一,英特尔还为oneAPI加入了一个配套的直接编程语言数据并行C++ (DPC++),它基于C++,通过社区项目提供语言增强功能。
针对FPGA,英特尔还在oneAPI中提供Vtune分析器,它能在运行时收集数据,帮助用户分析CPU和FPGA数据交互效能。
现在已有GPU、AI加速器等专门用于AI的芯片架构,为何要在FPGA开发AI?
英特尔表示,FPGA空间架构提供了数据和任务的并行性,帮助用户显著提升性能。FPGA的优势在于低延迟,直接将数据读取和写入在具有内存属性的片上内存结构里。
— 完 —
量子位 QbitAI · 头条号签约
关注我们,第一时间获知前沿科技动态
评论留言