最佳日常交易
最佳日常交易

Android管理爱游戏刷手机版下载爱游戏充值官网局的链接可以赚取佣金。学到更多。

ARM Cortex-A76 CPU深度潜水

ARM最新的Cortex-A76 CPU承诺为高性能智能手机提供重大性能。我们更接近地看待这款底上的重新设计详细信息,武器如何实现这些改进。
经过
2018年5月31日

尽管ARM最新的CPU MINIKER的数字变化很小,但最新的处理器设计是公司随处提供Android智能手机的重要版本。爱游戏刷手机版下载Cortex-A76是一个底上微架构重新设计,强调提高峰值性能,也许更重要的是,在紧凑的形状因素中维持它。根据手臂这只是一系列CPU中的第一个,将从A76中建立,将性能推向新的高度。

武器Cortex-A76.仍然与现有处理器以及公司的Dynamiq兼容CPU集群技术。但是,微型架构重新设计提供了35%的性能改善Cortex-A75.平均而言,提高功率效率的40%。最大的胜利是用于浮点和机器学习数学任务,让我们深入进入新设计,看看发生了什么改变。

保持核心良好喂养

如果有一般的主题来了解Cortex-A76的变化,它将“更广泛”,提高CPU的吞吐量,以保持更强大的执行核心充足的事情。

关于ARM的Dynamiq所需的一切
特征

在执行核心中,Cortex-A76拥有两个简单的算术轨迹单元(ALU),用于基本数学和位移,一个多周期整数,组合简单的简单ALU,以执行乘法和分支单元。Cortex-A75只有一个基本的ALU和一个ALU / MAC,这有助于解释ARM基准的整数性能提升。

这与两个SIMD霓虹灯执行管道配对,只有一个可以处理浮点分割和乘法累积指令。这两个双128位管道都提供了两倍的ARM先前CPU的带宽,用于其单个指令多个数据扩展。从A75中仍然存在半精密FP16支持,这也具有促进低精度INT8点产品延伸的大益处,这在机器学习应用中越来越受欢迎。

ARM Cortex-A76微架构

A76的另一个主要变化是新的分支预测因子,现在与指令获取分离。分支预测器以每循环的32个与16个字节为单倍运行。这样做的主要原因是暴露大量的内存级并行性 - 换句话说,似乎立即处理多个内存操作的可能性。这对于处理缓存和TLB未命中并有助于去除流水线中没有任何内容的循环,这是特别方便的。

Cortex-A76还将到一个4指令/循环解码路径上升到八个16位指令,与A75和2的三个有关,使用A73。这意味着CPU内核现在可以发送高达八十μPOP/循环,而不是A75和FO,而不是A73的六个。结合八个问题队列,每个执行单元中的一个和128条输入指令窗口,ARM进一步增强了处理器的执行指令的能力,以提高每个周期(IPC)性能的指令。

在设计时早期更宽,确保了高指令吞吐量,这将使高性能数学单位进一步下降到井中的管道,即使在缓存未命中也是如此。这是帮助ARM提升IPC和数学绩效指标的原因,但它带来了一个受到的区域和能量。

对记忆较低的延迟

如果处理器被记忆读写瓶颈瓶颈,这些获取和执行改进都不会很好,因此ARM在此处的改进。

如前所述,有相同的64KB,4路组关联L1缓存和256-512KB私有L2,但分离的地址生成和缓存查找管道已接收双倍带宽。内存级并行性是这里的一个关键目标,因为内存管理单元可以处理68个飞行载荷,72个机上存储和20个出色的非预取未命中。整个缓存层次结构也针对延迟进行了优化。只需四个周期即可访问L1缓存,9个周期为L2,31个周期即可转到L3缓存。底线是内存访问更快,这将有助于加快执行。

Cortex-A76提供了改进的单核吞吐量,降低延迟存储器访问和持续性能。

说到L3缓存,在第二代Dynamiq共享单元中支持高达4MB的内存。这款巨大的内存池很可能是通过Pache的加倍为笔记本电脑类产品保留的,只能产生大约5%的性能隆起。由于硅地区的性能点和更严格的限制和成本,智能手机产品最多可能最多2MB。

实现笔记本电脑课程(TLDR)

Cortex-A76也是第一个开始从32位支持过渡的CPU。A76仍然支持AARCH32,但只是在最低权限应用级别(EL0)。同时,通过OS到低级固件,从OS到EL3,全部支持AARCH64。在未来的某个时刻,ARM可能会过渡到64位,但这将大量取决于所讨论的生态系统。

如果一切似乎是GobbleyGook,这是要了解的关键事情。一般来说,处理器的速度由时钟周期中可以做多少。能够做两个添加而不是一个更好,因此ARM增加了额外的数学单元,并增加了其浮点(复杂)数学单位的性能。

这种方法的问题是您需要保留执行单元的执行单元或它们浪费电源和硅空间,因此您必须能够向单位发出更多指令并比以前更快。这会产生进一步的问题,例如增加数据不是处理器认为它是(缓存未命中)的可能性,这会停止整个系统。因此,您需要专注于更好的分支预测和预取,以及更快地访问缓存内存。最后,所有这一切都花费了更多的硅和电源,因此您必须优化以保持控制的方面。

ARM Cortex-A76详细的基准测试

ARM与Cortex-A76的所有这些方面专注于所有这些方面,这就是为什么这么大的重新设计,而不是在A75到A75的小调整。将所有这些IPC性能改进与预期的下降到7nm相结合,我们在已经令人印象深刻的Cortex-A75上看了一个值得注意的35%的典型性能改进。通过以较低频率运行以达到相同的性能目标,A76仅使用大约一半的功率。

Cortex-A76是针对高性能计算的ARM主要发挥,可通过可扩展的用例,从移动到笔记本电脑(及更超越)的一切都是 - 迄今为止支持公司所取得的功率效率目标的同时我们可能会看到第一批体育A76的芯片组,从2019年初进入产品。