连日来释放用于芯片上AI加速的近似计算的希翼向来一不断的有小伙伴关注,不仅如此还衍生出了各大相关话题,那么跟着小编来看看释放用于芯片上AI加速的近似计算的希翼以及它的相关资讯吧!
深度学习的最新发展以及跨应用程序域使用机器学习的指数增长已使AI加速变得至关重要。IBM Research向来在构建AI硬件加速器的管道来满足这一需求。在2018年VLSI电路研讨会上,我们展示了一个可跨多种AI硬件系统扩展的Multi-TeraOPS加速器核心构建块。该数字AI内核具有并行架构,可确保非常高的利用率和高效的计算引擎,可慎重利用降低的精度。
近似计算是我们利用“人工智能的物理学”方法的中心原则,在该方法中,通过专门构建的架构实现了高能效的计算收益,最初使用数字计算,后来使用模拟和内存计算。
从历史上看,计算向来依赖于高精度的64位和32位浮点算法。这种方法可以将精确的计算精确到小数点后第n位,这对于科学计算任务(例如模拟人的心脏或计算航天飞机的轨迹)至关重要。但是,对于常见的深度学习任务,我们是否需要这种准确性?我们的大脑是否需要高分辨率图像才干识别家庭成员或猫?当我们输入文本线程进行搜索时,我们是否需要精确地将第50,002个最实用答复与第500,003个相对答复进行比较?答案是,包括这些示例在内的许多任务都可以通过近似计算来完成。
由于一般 的深度学习工作负载很少需要全精度,因此降低精度是自然的方向。具有16位精度引擎的计算构件比具有32位精度的同类构件小4倍。对于AI训练和推理工作负载而言,这种区域效率的提高成为性能和功率效率的提升。简而言之,在近似计算中,只要我们还开辟了算法改进来保持模型的准确性,就可以用数值精度换取计算效率。这种方法还补充了其他近似计算技术-包括最近的工作,该工作描述了新颖的训练压缩方法以减少通信开销,从而使现有方法的速度提高了40-200倍。
我们在2018年VLSI电路研讨会上介绍了我们的数字AI内核的实验结果。我们新核心的设计受四个目标支配:
端到端性能:并行计算,高利用率,高数据带宽
深度学习模型的准确性:与高精度实现一样精确
功率效率:应用程序功率应由计算元素主导
灵便性和可编程性:同意 调整当前算法以及开辟未来的深度学习算法和模型
我们的新架构不仅针对矩阵乘法和卷积内核进行了优化,而矩阵乘法和卷积内核往往主导着深度学习计算,还优化了一系列激活函数,这些函数是深度学习计算工作量的一部分。此外,我们的架构为本地卷积运算提供了支持,从而同意 在图像和语音数据上进行深度学习训练和推理任务,从而在内核上以非凡的效率运行。
为了说明如何针对各种深度学习功能优化核心架构,图1显示了整个应用程序域中深度学习算法中操作类型的细目分类。通过使用图2和图3中所示的处理元素的自定义数据流组织,可以在核心体系结构中计算主导矩阵乘法重量,其中可以有效利用降低的精度计算,而其余向量函数(图2中的所有非红色条形)图1)在图3或4所示的处理元素或特别功能单元中执行,具体取决于特定功能的精度要求。
在研讨会上,我们展示了硬件结果,证实了这种单一架构方法既可以训练也可以进行推理,并支持多个领域的模型(例如,语音,视觉,自然语言处理)。尽管其他小组指出了其专用AI芯片的“峰值性能”,但其持续的性能水平仅处于很小的峰值,但我们向来致力于最大化持续的性能和利用率,因为持续的性能直接转化为用户体验和响应时间。
我们的测试芯片如图5所示。使用内置14LPP技术的该测试芯片,我们已经在广泛的深度学习库中成功演示了训练和推理,并练习了深度学习任务中常用的所有操作,包括矩阵乘法,卷积和各种非线性激活函数。
我们在VLSI论文中强调了数字AI核心的灵便性和多用途功能,以及对多个数据流的本地支持,但是这种方法是完全模块化的。该AI内核可以集成到SoC,CPU或微操纵器中,并用于训练,推理或两者。使用该内核的芯片可以部署在数据中心或边缘。
在对IBM Research 的深度学习算法有基本了解的推动下,我们期望培训和推理的精度要求将继续提高,这将推动AI所需的硬件架构中量子效率的提高。请继续关注我们团队的更多研究。