仔细观察Arm的机器学习硬件

ARM正在使用Project Trillim进行机器学习硬件的重要游戏，因此，让我们仔细研究一下这个不断增长的市场细分市场的新筹码和更广泛的计划。

经过

•

2018年5月22日

回到2017年初，ARM宣布了其第一批专用机器学习（ML）硬件。以...之名项目trillium该公司为智能手机等产品推出了专用的ML处理器，并专门设计用于加速对象检测（OD）用例的第二个芯片。让我们深入研究Trillium项目和该公司为机器学习硬件不断增长的市场的更广泛计划。

重要的是要注意，ARM的公告完全与低功率推理硬件有关。它的ML和OD处理器旨在有效地在消费者级硬件上运行经过训练的机器学习任务，而不是在诸如Google的Cloud TPU之类的巨大数据集上训练算法。首先，ARM将重点放在ML推理硬件的两个最大市场 - 智能手机和Internet协议/监视摄像头上。

新机器学习处理器

尽管使用项目Trillim进行了新的专用机器学习硬件公告，但ARM仍然致力于支持其CPU和GPU上的这些类型的任务，并使用优化的点产品功能在其最新的CPU和GPU内核中。Trillium通过更重视的硬件增强了这些功能，从而使机器学习任务可以通过更高的性能和更低的功率来执行。但是ARM的ML处理器不仅是加速器，而且本身就是处理器。

为什么智能手机芯片突然在内，包括AI处理器？

特征

该处理器在1.5 W的功率信封中拥有4.6个顶部的峰值吞吐量，使其适用于智能手机甚至较低的功率产品。这为芯片提供了3个顶部/W的功率效率，基于7 nm的实现，这是对能源意识的产品开发人员的巨大吸引力。为了进行比较，典型的移动设备可能只能提供约0.5个数学咕unt的顶部。

有趣的是，ARM的ML处理器正在对一些智能手机芯片制造商采取不同的方法，这些智能手机芯片制造商重新使用了数字信号处理器（DSP），以帮助在其高端处理器上运行机器学习任务。在聊天期间MWC，机器学习组的ARM VP，同伴和总经理Jem Davies提到购买DSP公司是进入这个硬件市场的一种选择，但最终该公司决定采用针对最常见运营的专门优化的基础解决方案。

ARM的ML处理器在典型的智能手机方面具有4-6倍的性能，以及功耗降低。

ARM的ML处理器专门为8位整数操作和卷积神经网络（CNN）设计。它专门研究小字节大小的数据的大规模培训，这应该使其比在这些类型的任务上的通用DSP更快，更有效。CNN被广泛用于图像识别，这可能是目前最常见的ML任务。如果您想知道为什么8位，ARM会看到8位数据是准确性与CNN性能的最佳位置，而开发工具是最成熟的。不要忘记Android NN框架仅支持INT8和爱游戏刷手机版下载FP32，后者可以在CPU和GPU上运行。

最大的性能和能量瓶颈，尤其是在移动产品中，是内存带宽和质量矩阵乘法，需要大量阅读和写作。为了解决此问题，ARM包括大量内存以加快执行速度。此内存池的大小是可变的，并且ARM希望根据用例为其合作伙伴提供一系列优化的设计。我们正在查看最大设计中每个执行引擎约1MB的10 kb内存。该芯片还使用ML重量和元数据上的无损压缩，在带宽中节省高达3倍。

ARM的ML处理器专为8位整数操作和卷积神经网络而设计。

ML处理器核心可以从最多16个执行引擎的单个核心配置，以提高性能。每个都包括优化的固定功能引擎以及可编程层。固定功能发动机用128宽的多重蓄能（MAC）设备处理卷积计算，而可编程层发动机（ARM的微控制器技术的衍生物）处理内存并优化了正在运行机器学习算法的数据路径。该名称可能有些误导，因为这不是直接暴露于程序员进行编码的单元，而是在编译器阶段配置以优化MAC单元。

最后，处理器包含一个直接的内存访问（DMA）单元，以确保在系统其他部分中快速直接访问内存。ML处理器可以充当其自己的独立IP块，其中具有ACE-LITE接口，以掺入SOC中，也可以作为SOC外部的固定块运行。最有可能的是，我们会看到ML核心坐在SOC内的内存互连，就像GPU或显示处理器一样。从这里，设计师可以将ML核心与CPU紧密对齐Dynamiq群集并通过缓存侦听共享对缓存内存的访问，但这是一个定制的解决方案，可能不会在一般工作负载设备（例如手机芯片）中使用。

将所有内容安装在一起

去年的武器公开了Cortex-A75和A55 CPU和高端马里-G72GPU，但直到将近一年后才推出专用的机器学习硬件。但是，ARM确实将重点放在加速其最新硬件内的普通机器学习操作上，这仍然是该公司未来战略的一部分。

它的最新马里-G52主流设备的图形处理器将机器学习任务的性能提高了3.6倍，这要归功于DOT产品（INT8）支持和每个泳道每个周期的四个多重收益操作。DOT产品支持也出现在A75，A55和G72中。

ARM也将继续优化其CPU和GPU的ML工作负载。

即使有了新的OD和ML处理器，ARM仍在继续支持其最新CPU和GPU的加速机器学习任务。它即将到来的专用机器学习硬件存在，以使这些任务在适当的情况下更有效，但这是旨在满足其广泛产品合作伙伴的广泛解决方案组合的一部分。

除了向其合作伙伴提供各种性能和能量点的灵活性（ARM的主要目标之一），这种异质方法即使在配备ML处理器的未来设备中也很重要，以优化功率效率。例如，在CPU已经运行时，可以快速执行任务，因此最好也优化CPU上的工作负载。在手机中，ML芯片可能只会出现更长的运行，更苛刻的神经网络负载。

从单一到多核CPU和GPU，再到可选的ML处理器，这些处理器可以一路扩展到16个内核（在SOC核心群集内外可用），ARM可以支持从简单的智能扬声器到自动驾驶汽车和数据等等的产品中心，需要更强大的硬件。自然，该公司还提供软件来处理此可扩展性。

该公司的计算库仍然是处理公司CPU，GPU和现在的ML硬件组件的机器学习任务的工具。该库提供了低级软件功能，用于图像处理，计算机视觉，语音识别等，所有这些功能都在最适用的硬件上运行。ARM甚至支持其CMSIS-NN内核用于皮质微处理器的嵌入式应用。CMSIS-NN提供的吞吐量高达5.4倍，可能是基线功能上能源效率的5.2倍。

ARM在库，编译器和驾驶员上的工作确保应用程序开发人员不必担心基础硬件的范围。

Such broad possibilities of hardware and software implementation require a flexible software library too, which is where Arm’s Neural Network software comes in. The company isn’t looking to replace popular frameworks like TensorFlow or Caffe, but translates these frameworks into libraries relevant to run on the hardware of any particular product. So if your phone doesn’t have an Arm ML processor, the library will still work by running the task on your CPU or GPU. Hiding the configuration behind the scenes to simplify development is the aim here.

今天和明天的机器学习

At the moment, Arm is squarely focused on powering the inference end of the machine learning spectrum, allowing consumers to run the complex algorithms efficiently on their devices (although the company hasn’t ruled out the possibility of getting involved in hardware for machine learning training at some point in the future). With high-speed5G互联网数年之久，对隐私和安全性的担忧越来越多，ARM决定在优势上启动ML计算的决定，而不是像Google一样主要关注云，似乎是正确的举动。

电话不需要NPU就可以从机器学习中受益

特征

最重要的是，ARM的机器学习功能并不仅仅用于旗舰产品。借助各种硬件类型和可扩展性选项的支持，价格梯子上下可以受益。从长远来看，该公司也将绩效从微小的物联网到服务器类处理器一直保持目标。但是，即使在ARM专用的ML硬件上市之前，现代SOC利用其DOT产品增强的CPU和GPU将获得对较旧硬件的性能和能源效率的提高。

ARM说，trillium机器学习硬件（尚未透露姓名）将以RTL形式降落。2018年中期。为了加快开发，ARM POP IP将提供物理SRAM和MAC单元的设计优化，可针对16nm和尖端的7NM工艺进行优化。今年，我们可能不会在任何智能手机中看到ARM专用的ML和对象检测处理器。取而代之的是，我们将不得不等到2019年才能获得一些从项目Trillium及其相关硬件中受益的第一笔手机。

特征消息

手臂