
芯潮(ID:aichip001)文 | 心缘
芯潮11月14日报道,深圳高交会期间,AI芯片独角兽寒武纪推出面向边缘智能计算领域的AI芯片思元220(MLU220)及M.2加速卡产品,加速卡售价1999元。

边缘通常与各类传感器相连,而传感器的数据往往是非结构化的,比如视频,图像和语音,很难直接用于控制和决策。因此需要边缘AI计算将非结构化数据进行结构化,用于控制和决策。为此,寒武纪专门设计了针对边缘AI计算的芯片。
至此,寒武纪AI芯片在云、边、端实现全方位、立体式覆盖。
01、峰值32 TOPS,功耗仅10W

思元220是一款专门用于深度学习的SoC边缘加速芯片,采用台积电16nm工艺,尺寸为15mm x 15mm,基于寒武纪最新一代智能处理器MLUv02架构,峰值算力达32 TOPS(INT4),功耗仅10W,并且支持通过低功耗技术,将功耗进一步降低。
思元220高性能低功耗设计,主要得益于思元220采用了寒武纪最新一代的处理器架构MLUv02。
MLUv02架构基于片上网络NoC构建,有六大方面的提升和优化:

(1)提升单核性能,通过重新设计运算电路,运算指令的能效大幅提升,单核算力提升8倍;
(2)节省内存和带宽,增加数据压缩和解压缩指令,大幅节省内存容量和访存带宽;
(3)高度灵活,指令集扩展近百条,功能更强大更灵活;
(4)精度可选择,除了INT8,还增加INT4和INT16精度的运算指令,可根据需求灵活选择,在高性能的场景使用更高性能的INT4,在高精度的场景,使用更高精度的INT16;
(5)增加了软件可管理的共享缓存,可以用软件直接控制在处理器核之间进行通讯,利用内部Shared Mem大大优化多核性能;
(6)方便处理复杂数据,增加了灵活的转置等指令,可以支持各种复杂的数据预处理。

另外,思元220内置高性能CPU 4核ARM A55,主频为1.5GHZ,并集成了丰富的外设接口,包括:
(1)2个PCIe3.0 2×2接口,可以连接NVMe等各类高速设备;
(2)eMMC5.1 HS400,支持高速eMMC存储,最高达400 MB/s;
(3)SDIO3.0, 可以方便连接各种存储设备和WIFI 蓝牙等无线设备;
(4)双千兆以太网口,可以帮助客户实现双网口的方案,从而实现内外网物理隔离,保护数据安全;
(5)LPDDR4X内存接口,保证计算数据高速交互和低功耗。
随着5G与AI时代的到来,海量数据处理需求推动AI硬件向边缘扩展。寒武纪副总裁刘道福认为,边缘计算主要带来三个优势:一是直接在边缘处理数据,大幅降低通信成本;二是大幅降低时延,解决实时处理需求;三是保护数据隐私安全,无需将数据传回云端,减少数据泄漏。
对此,MLU220边缘方案有三大优势:
(1)数据高安全:数据本地智能处理,脱敏上传。
(2)处理低延时:数据实时分析,结果即时反馈。
(3)带宽高利用:数据边缘清洗,智能分发,有效上传。
02、超小尺寸加速卡,仅U盘大小
基于思元220,寒武纪面向市场推出小尺寸M.2加速卡,未来还会推出更高算力的产品形态。
思元220-M.2边缘加速卡在尺寸仅U盘大小的卡片上,算力达到16 TOPS(INT4),功耗仅8.25W,可提供8路高清视频的实时智能分析。

该加速卡广泛应用于智能交通、智能电网、智能制造、智慧金融、无人机、工厂质检、智慧教育、智慧医疗、智慧零售等边缘计算场景,并支持视觉、语音、自然语言处理及传统机器学习等多种AI应用。
客户可通过标准的M.2接口快速部署到已有业务中,实现业务的智能升级和边缘加速解决方案。
思元220芯片和板卡不仅有高算力、低功耗、小尺寸的特点,还有成熟的软件栈和软件生态。
寒武纪的云、边、端芯片都采用统一的处理器架构和指令集,以及统一的软件栈,这三个领域的生态可以相互促进,形成正循环。
云端提供了完整的开发、调试、调优的软件,云端开发好的程序,可方便快速部署到终端和边缘,解决终端和边缘开发难、调试难、调优难的问题。而终端和边缘可以积累大量的客户和开发者,反哺于云端生态,最终实现云、边、端生态的繁荣。
具体到思元220,软件栈已经在云端进行了两代产品的打磨。通过端云一体的软件平台,思元220将继续支持寒武纪Neuware软件工具链,支持业内TensorFlow、Caffe、MXNet、PyTorch等各主流编程框架。
其BANG Lang.编程环境可对计算资源做直接定制,满足多样化AI定制需求。

寒武纪方表示,面向未来边缘计算、自动驾驶车载计算、训练等不同场景,寒武纪将持续投资,推出更多AI处理器,面向全场景持续提供更先进灵活、快速高效、性能卓越的AI算力产品及服务。
03、思元系列芯片的四点优势
在本届高交会期间,寒武纪展出了最全思元系列AI芯片产品,包括面向云端的思元100和思元270、面向边缘的思元220。
今年6月,寒武纪发布中文品牌“思元”及第二代云端AI芯片思元270。去年寒武纪推出云端AI芯片品牌MLU(Machine Learning Unit)及第一代云端AI芯片思元100。
整体来看,寒武纪思元系列有如下四点共同的优势:
1、通用性好
通用智能处理器,支持各类深度学习技术,支持多模态智能处理(视觉、语音和自然语言处理),应用领域广泛。
2、端云一体
率先提出“端云一体”的智能处理思路,彻底打通端和云的智能处理,终端和云端芯片可共享同样的软件接口和完备生态。
3、高能效
相比GPU处理器,采用了针对深度学习和人工智能应用特点定制的指令集和处理器架构,具有更优的能效比。
4、完善的软件开发环境
寒武纪为思元系列提供了一整套成熟的开发环境Cambricon NeuWare,具体包括应用开发、功能调试、性能调优等在内的一系列工具。
04、结语:填补国内边缘端加速缺口
从2018年5月发布第一代云端AI芯片思元100至今,寒武纪已完成覆盖云(思元100、思元270)、边(思元220)、端(寒武纪1A、1H、1M处理器IP)的完整AI芯片布局,并在多场景实现广泛应用。
此次新推出的思元220,为国内边缘端加速市场又增添了一个新选择。
评论留言