新移动架构来了 ARM改变了什么

新移动架构来了 ARM改变了什么?

大家都知道,无论是高通骁龙,还是联发科曦力,亦或是华为海思,这些移动端的CPU都遵循ARM公司的Cortex-A系列架构设计。又是一个6月,按照惯例,ARM公司在旧金山发布了全新的Cortex-A76架构。今天,小编就和大家一起解读号称用2.4GHz即可将现有高通骁龙旗舰CPU845斩于马下的Cortex-A76架构。

数码爱好者们对ARM的架构代号想必已经耳熟能详,但或许并不知道这些架构具体出自谁手。实际上,ARM在全球拥有3家设计团队,分别是位于美国德州的奥斯丁团队、位于法国南部的索菲亚团队以及位于英国大本营的剑桥团队。

这三家团队各有分工,奥斯丁团队负责设计高性能架构,代表作为Cortex A57和Cortex A72;剑桥团队专门设计Cortex A53和Cortex A55等低功耗架构;而索菲亚团队则主打均衡,Cortex A73和Cortex A75便是出自其手。

但是由于穆尔定律在28纳米节点上慢下来,奥斯丁团队在皮质A57和皮质A72体系结构上有两个瓶颈,性能很强,但是功率和热量也令人震惊。从那时起,奥斯丁的球队一直一无所获。就在人们几乎忘记了美国强队的时候,奥斯丁队带回了一个全新的皮质A76。

从设计的角度来看,皮质A76对于ARM来说是至关重要的,ARM是一个全新的微架构,是第二代奥斯丁家族的领导者,代表着一个新的开始。ARM称之为具有PC级性能的移动终端处理器。

在最近的7nm工艺中,皮质A76有望达到3GHz。与基于10nm的制造和2.8GHz的皮质A75相比,能耗降低了40%,性能提高了35%,机器学习能力提高了4倍。

皮质A76体系结构分析

皮质A76是一个加扰的超标量核。前端为4,后端为13级管道。执行延迟分为11个阶段。ARM正在设计一个方向预测获取单元,这意味着分支预测单元将被反馈到提取单元。ARM还率先使用了混合间接预测单元,它将预测单元与参考单元分离,并支持内核中模块的独立操作。在操作过程中使用时钟门控更容易省电。

皮层A76分支预测单元由3级BTB(分支目标高速缓存)支持,包括16链路NNOBTB、64链路MIPBTB和6000链路主BTB。在皮质A73和皮质A75中,ARM声称其分支预测单元几乎可以预测所有分支,并且这一新的皮质A76单位似乎比以前更强。

基准单元的运行速度为每时钟周期16字节。分支预测单元的运行速度是参考单元的带宽的两倍,每个周期为32字节,并且可以在12块单元之前提供获取队列。这样做的目的是隐藏分支气泡在管道中的分支预测误差是错误的,并避免使参考单元和其余的核心停滞,而手臂被称为皮质A76最多可响应8个分支预测误差每周期最多。

皮层A76的提取单元可以提供多达16个32位指令,并且获取流水线由2个指令对齐和解码周期组成。在指令解码和重命名阶段,皮层A76可以每周期输出4条指令,并输出指令每指令1.06MOPS的宏指令。

以前,皮质A72和皮质A75每周期可吞咽3条指令,而皮质A73仅吞咽2条指令。根据ARM公开的信息,皮质A73的解码带宽的解码是与皮质A72相比优化能量效率,并且随着移动处理器的性能要求的增加,皮质A75已经恢复了每周期3吞吐的设计。皮质A76进一步发展,成为公开版本中最高的解码带宽,但仍低于三星和苹果的定制架构(三星M3每周期6吞咽/苹果A11每7周期)。

在指令重命名阶段,ARM将重命名单元分离,并使用时钟门控来使用整数/ ASIMD /标记操作,每次从A73和A75将重命名和调度从2次缩短到1次循环。根据1.2亩OP指令的比例,将宏指令扩展到微操作,并与皮层A75的6μOPS /周期和皮层A73的4μOPS /周期相比,进行了每周期8 MU OPS的操作。

皮质A76随机排序窗口的大小为128,缓冲区分为指令管理和注册恢复两个结构,称为混合提交系统。由于性能缩放比例仅为1/7,也就是说,缓冲器增加7%只能提高1%的性能,因此ARM不关注增强这部分的设计。

在流水线方面,整数部分由6个问题队列和执行埠组成,总共有3个整数执行流水线,以及1个16个深度问题队列。其中,2个整数流水线可执行简单算术运算,1个可执行乘法,除法和CRC复杂运算。ASIMD/浮点部分包含2条流水线,它们由2个2个深度问题队列服务。

在整数操作中,皮层A76减少了从3个周期的皮层A75到2个周期的增殖和增殖积累延迟,并且总吞吐量保持不变。由于皮质A76有3个整数流水线,简单算术运算的吞吐量比皮质A75的2流水线的吞吐量增加了50%。



标签: 科技行业资讯

猜你喜欢