蘋果A15芯片評測:CPU和GPU提升驚人

2021-10-06 12:54:00


幾周前,我們看到 Apple 發布了他們最新的 iPhone 13 系列設備,這是一組由最新的 Apple A15 SoC 賦能的手機。在蘋果的發布會上,他們對於最新的芯片語焉不詳,在幾年的文章裏,我們仔細研究了其新一代芯片組,看看 Apple 在新芯片中究竟帶來了什么楊變。   值得說一下,今年蘋果在 A15 的公關方面有點奇怪,特別是該公司在新芯片的性能談論中,避免將其與自己的 A14 進行任何世代比較。與過往不同的是,Apple 今年更喜歡在競爭環境中描述 SoC;雖然這在 Mac 方面並不罕見,但在今年 iPhone 發布會上,情況比往年更加突出。  

 

關於 A15 的幾個具體事實是,Apple 正在爲其 CPU 使用新設計、更快的神經引擎、新的 4 核或 5 核 GPU(取決於 iPhone 版本),以及全新的顯示pipeline 和視頻媒體硬件塊編碼和解碼,以及新的 ISP 改進以提高相機質量。   在 CPU 方面,蘋果對其改進談的非常模糊,蘋果聲稱其比競爭對手快 50%,GPU 性能指標也是這樣制定的,按照蘋果的描述,其A15的4 核 GPU 比競爭對手快 30%。而 5 核版本的速度則較之競爭對手提高了50%。   在本文中,我們已經完成了 SoC 的初始階段評測,我們將重點關注在新芯片的確切性能和效率指標。  

頻率提升:3.24GHz 性能核和 2.0GHz的效率內核

讓我們先從 CPU 方面开始。   據說,新的 A15 具有兩個新的 CPU 微架構,分別用於性能內核和效率內核。關於新內核性能的前幾份報告集中在頻率上,我們現在也可以從測試中確認:  

 

如上圖所示,與A14相比,全新A15將雙性能核心集羣的單核峯值頻率提升了8%,相比上一代的2998MHz,新核心的頻率現在達到了3240MHz。當兩個性能核心都處於活動狀態時,它們的工作頻率實際上提高了 10%,與上一代的 2890MHz 相比,它們現在都以激進的 3180MHz 頻率運行。   總的來說,考慮到從設計層面推動這一性能的提升很難,我們可以看出Apple 在這裏的頻率增加表現非常激進,特別在當我們不期望能從新工藝節點方面獲得重大性能提升時,這種提升更是顯著。據我們分析,A15 應該是在臺積電的 N5P 節點的變體工藝上制造,盡管兩家公司都沒有真正透露設計的確切細節。不過臺積電聲稱 N5 的頻率增加了 +5%,因此對於 Apple 而言,如果超出這個範圍,則表明功耗會增加。在我們深入研究 CPU 的功率特性時,請記住這一點。   A15 的效率核心頻率現在能夠達到 2016MHz,比 A14 的核心增加了 10.5%。這裏的頻率與性能核心無關,因爲集羣中的线程數量不會影響其他集羣,反之亦然。蘋果對這一代的小核心做了一些更有趣的改變,我們稍後會談到。  

巨型緩存:性能 CPU的 L2 增加到 12MB,SLC 增加到 32MB

蘋果在發布時透露的一個更直接的技術細節是,與 A14 相比,A15 現在具有兩倍的系統緩存。兩年前,我們詳細介紹了 A13 的新 SLC,它從 A12 的 8MB 增加到 16MB,這個大小在 A14 代中也保持不變。Apple 聲稱他們已將其增加了一倍,因此這意味着 A15 中現在有 32MB的SLC。  

 

看看我們對新 A15 的延遲測試,我們現在確實可以確認 SLC 現在已經翻了一番,達到 32MB,進一步推動內存深度達到 DRAM。Apple 的 SLC 可能是芯片能效的關鍵因素,能夠將內存訪問保持在同一個硅片上,而不是使用速度更慢、功率效率更低的 DRAM。我們已經看到更多 SoC 供應商採用了這些類型的最後一級緩存,但在 32MB 的情況下,新的 A15 使競爭對手的實現相形見絀,例如驍龍 888 上的 3MB SLC或 Exynos 2100 上估計的 6-8MB SLC .   Apple 沒有透露的是,性能核心的 L2 緩存也發生了變化,現在已經從 8MB 增加到 12MB,增長了 50%。這實際上與 Apple M1 上的 L2 大小相同,只是這一次它只提供兩個性能核心而不是四個。訪問延遲似乎從 A14 上的 16 個周期上升到 A15 上的 18 個周期。在性能核心上,我還看到 L1 速度的一些變化,因爲它似乎能夠對緩存行進行 1 周期訪問,只要它們在同一頁面中,在 A14 上進行相同類型的訪問需要 3 個周期。   一個 12MB 的 L2 也是巨大的,與其他設計(例如Snapdragon 888)的 L3+L2 組合(4+1+3x0.5 = 6.5MB)相比增加了一倍多。很明顯,Apple 在這這一代的SoC上投入了大量 SRAM。   今年的效率核心似乎沒有改變它們的緩存大小,保持在 64KB L1D 和 4MB 共享 L2,但是我們看到 Apple 已將 L2 TLB 增加到 2048 個 entries,現在覆蓋高達 32MB,可能會促進更好的 SLC 訪問延遲。有趣的是,Apple 現在允許效率內核具有更快的 DRAM 訪問,延遲現在約爲 130ns,而 A14 上的延遲爲 +215ns.  

CPU 微架構變化:緩慢的一年?

蘋果今年的 CPU 微架構有點像wildcard。今年早些時候,Arm 宣布了新的 Armv9 ISA,主要由新的 SVE2 SIMD 指令集定義,以及該公司採用新架構的新 Cortex 系列 CPU IP。早在 2013 年,Apple 就因成爲市場上第一個擁有 Armv8 CPU 的產品而聞名,這是第一個支持64 位的移動設計。考慮到這種情況,我們預計蘋果今年會在新的一代SoC中也會推出 v9,但 A15 似乎並非如此。   在微架構上,A15 上的新性能核心似乎與去年的設計沒有太大區別。我還沒有花時間查看設計的每一個角落,但與 A14 性能核心相比,至少處理器的後端在吞吐量和延遲方面是相同的。   效率核心有了更多的變化,除了一些內存子系統 TLB 的變化,新的 E-core 現在獲得了一個額外的整數 ALU,使總數從之前的 3 個增加到 4 個。無論如何都被稱爲“小”,而且今年似乎增長得更多。   蘋果今年更溫和的微架構變化的可能是幾個原因造成的——蘋果在 2019 年失去了他們在大型性能核心以及部分設計團隊的首席架構師(Nuvia)(後來在今年早些時候被高通收購)。向 Armv9 的轉變也可能意味着在設計上做了更多的工作,而疫情也可能導致了一些非理想的執行。等到明年的 A16,我們才能真正確定 Apple 的設計節奏是否已經放緩,或者這是否只是一個節點,或者只是下一個微架構發生更大變化之前的平靜。   雖然這裏的基調描繪了 A15 的 CPU 的相當保守的改進,但在查看性能和效率後,我們發現事實絕非如此。  

CPU ST 性能:更快、更高效

爲了更深入地了解 CPU 單线程性能和能效,我們將轉 SPEC CPU 2017求助。雖然從2006 开始,我們就一直使用這個工具,但知道現在,他們仍然是非常重要且有效的。現在,他們在其組件中對微架構方面得到了更好的理解,並且隨着我們前一段時間將桌面端覆蓋範圍移至新套件而變得更加相關。   SPEC CPU 2017 的一個持續問題是 Fortran 子測試;由於缺乏 iOS 和 Android 上的編譯器基礎設施,我們完全跳過這些組件用於移動設備。這也意味着,此處提供的總總分無法與其他平臺上的完整套件分數相提並論,在分數描述中用 (C/C++) 下標表示。   與往常一樣,因爲我們運行完全定制的harnesses並且沒有正式向 SPEC 提交分數,所以我們必須將結果表示爲“估計”,盡管我們對準確性有很高的信心。   在編譯器設置方面,我們將繼續使用簡單的-Ofast標志而不做進一步的更改,以便能夠獲得最佳的跨平臺比較。在 iOS 方面,我們運行的是最新的 XCode 13 構建工具,而在 Android 上,我們運行的是 NDKr23 構建工具。  

在性能和效率細節方面,我們將從現在开始展現一下圖表:在左軸上我們有測試的性能分數,此處更大的條形意味着更好的性能;在右側軸上,從右到左增長的是平臺的能耗數據,數字越小,完成的工作負載越節能(消耗的能量越少)。除了以焦耳爲單位的能量數據外,我們還展示了以瓦特爲單位的平均功率數據。   在A15 的性能數據方面,我們看到了全面的提升。如圖所示,其絕對性能從 2.5% 的低點上升到 +37% 的峯值。   在 505.mcf_r 中,我們發現了最低的性能提升,這是一個對內存延遲更敏感的工作負載;鑑於 L2 延遲增加以及 DRAM 延遲略高,我們看到更小的性能提升並不會太出乎意料。但是,在查看相同工作負載的功耗和效率指標時,我們發現 A15 的功耗比 A14 少近 900mW,能效提高了 +22%。520.omnetpp_r 的性能提升幅度最大,爲 37%——這裏的功耗略有提升,但能源效率也提升了 24%。   在大多數後端執行受限的工作負載時,我們發現 A15 的最小性能提升,525.x264_r 和 538.imagick_r 僅提高 8.7%,導致 IPC 增加 0.6% ,這基本上在測量噪聲範圍內。由此我們可以看到,即使在最糟糕的情況下,Apple 仍然設法將其能效提高了 13%。這就意味着即使時钟頻率有所提高,但新芯片的絕對功耗也較低。   最耗電的工作負載 519.lbm_r 非常耗帶寬,並且在套件中對 DRAM 的壓力最大,這裏的 A15 芯片消耗了高達 6.9W 的功耗。盡管如此,隨着性能提升 17.9%,能效在代際上略有提高——根據第一次拆解報告,A15 仍然僅採用 LPDDR4X 級內存,因此這些改進必須歸功於芯片的新內存子系統和新 SLC。  

讓我們將目光轉移到效率核心上,我不僅想與 A14 的 E 核進行比較,還想將 Apple 芯片與競爭對手進行比較,在這種情況下,我們將其與Snapdragon 888 的 2.41GHz 的中和Cortex-A78 ,以及 1.8GHz Cortex-A55 的小內核比較。   測試數據顯示,A15 的 E 核在性能方面的表現令人印象深刻。最小改進從 531.deepsjeng_r 中的 +8.4(基本上與時钟持平)到 520.omnetpp_r 中的 +46% 不等,這爲芯片的某種大型有效稀疏內存訪問並行性改進提供了更多證據(some sort of large effective sparsememory access parallelism improvement for the chip)。核心的性能提升中位數爲 +23%,導致 IPC 中位數增加 +11.6%。這裏的內核沒有表現出與新 A15 的性能內核相同的能效改進,因爲由於性能增加以功率增加爲代價,能耗基本持平,而功耗增加仍然非常低。   與驍龍 888 相比,兩者的對比非常明顯。   首先,Apple 的 E-core 雖然不如 Android SoC 上的中核那么強大,但仍然相當受人尊敬,並且至少在類似的性能等級中確實有些接近。在與小 Cortex-A55 內核比較時,效果更加驚人,因爲 A15 的 E 內核平均快 3.5 倍,但僅僅消耗 32% 的功耗,因此能效提高 60%。即使對於中間核心,如果我們可能要降低它們的時钟頻率以匹配 A15 的 E-core 的性能,能源效率也是 Apple 實現的多個因素。  

在概覽圖中,我也稍微改變了一些東西,轉向氣泡圖,以更好地在空間上表示能效定位的性能,以及功率定位的性能。在我個人認爲更能代表 SoC 的比較效率和由此產生的電池壽命體驗的能量軸圖中,我們看到了處於峯值 CPU 性能狀態的各種 SoC 與完成工作負載消耗的總能量的對比。在功耗軸圖上,我們看到相同的數據,只是針對平均功耗繪制的。一般來說,我發現不同數據點之間的功耗差異相當困難,但是有些讀者要求這種觀點。氣泡大小對應於各個 CPU 的平均功率,我們測量的是系統有功功率,   蘋果 A15 的性能核心在這裏非常令人印象深刻——通常性能的提升總是伴隨着某種效率的不足,或者至少是效率持平。相反,Apple 在這裏設法降低功耗,同時提高性能,這意味着與 A14 相比,峯值性能狀態下的能源效率提高了 17%。如果我們能夠在相同的性能水平上測量兩個 SoC,那么 A15 的這種效率優勢會變得更大。在我們對Apple 公告的初步報道中,我們推測該公司今年可能會投資於能源效率而不是性能提升,我很高興看到這似乎正是發生的事情,解釋了一些更保守的(在至少對 Apple 而言)性能改進。   另一方面,蘋果的 A15 的性能核在整數套件中的得分爲 7.28。作爲對比,AMD 基於 Zen3 的 Ryzen 5950X 得分爲 7.29,蘋果M1的得分爲6.66。   A15 的效率核心也令人印象深刻——在最高性能時,效率是持平的,但它們的速度也快了 28%。同樣,如果我們能夠在相同的性能水平上比較兩款 SoC,A15 的 E 核的效率優勢將非常明顯。E-cores 更好的性能也大大有助於避免 P-cores,進一步提高 SoC 的能效。   與競爭對手相比,A15 並沒有像 Apple 聲稱的那樣快 50%,而是快了62%。雖然蘋果更大的內核更耗電,但它們的能效仍然高得多。誠然,我們看到了有利於 Apple 的流程節點差異。A15 E-cores 的性能和效率也讓其他競爭對手相形見絀。4 個效率核心的超強性能以及 2 個大核心的領先性能解釋了多线程性能明顯優於競爭的 1+3+4 設置。   總體而言,新的 A15 CPU 是實質性的改進,盡管有些人不會立即注意到這一點。效率提升可能是 iPhone 13 系列手機新的更長電池壽命的關鍵——在幾天後的專門文章中以及我們的完整設備評論中會有更多的介紹。  

GPU 性能:出色的 GPU,一般般的散熱設計

在這一代的A15 芯片上,GPU的配置很有趣,這是蘋果第一次在 iPhone 設備範圍內對其 SoC 上的 GPU 配置進行功能分割,iPhone 13 mini 和 iPhone 13 獲得了 4 核的 GPU,類似於 A14去年的設備,而 13 Pro 和 13 Pro Max 獲得了 SoC 的 5 核GPU變體。   在這兩種情況下,它仍然是相同的 SoC 和硅芯片,只是蘋果在非 Pro 型號上禁用了一個 GPU 核心,他們這樣做可能是出於差能原因?   Apple 的 GPU 性能數據也有點有趣,因爲沒有任何代際比較,只有與競爭對手的“+30%”和“+50%”數據。我最初的理論是對 A14 表示 +10% 和 +28%,所以讓我們看看這是否可行:

 

在 3DMark Wild Life 測試中,我們看到 5 核 A15 比 A15 高出 +30%,而 4 核的性能提升了+14%,非常接近我們的預測。這裏的峯值性能基本上是最接近的競爭對手的兩倍,因此蘋果可能會再次低頭。   在持續性能方面,新芯片繼續在冷手機和熱手機上表現出巨大的差異,有趣的是,4核 iPhone 13 在這裏比 13 Pro 領先一點,稍後會詳細介紹.

在 Basemark GPU 中,13 Pro 比 12 Pro 高出28%,而 4 核 iPhone 13 僅稍微慢一些。再一次,手機的節流很重,但仍然能夠以遠高於比賽峯值表現的持續性能着陸。

在 GFXBench Aztec High 中,13 Pro 與 12 Pro 相比具有+46% 的巨大性能優勢,而 13 Pro 則表現出 +19%的提升。這些數字超出了預期——在微架構變化方面,新的 A15 GPU 似乎採用了與 M1 GPU 相同的雙倍 FP32 吞吐量,似乎在現有的 FP32/雙倍速率 FP16 ALU 旁邊增加了額外的單元。增加的 32MB SLC 也可能對 GPU 帶寬和hit-rates有很大幫助,因此這兩個變化似乎是大幅增加的最明顯的解釋。  

  在功耗和效率方面,我也從表格遷移到氣泡圖,以更好地表示各種 SoC 的空間定位。   我還想在這裏指出,我已經繼續並重新測量了處於峯值性能狀態的 A13 和 A14 手機,展示了比我們過去發布的更大的功耗數據。這樣做的原因是我們只能通過手機的輸入功耗進行測量的方法,因爲我們無法拆卸樣品,讓我們無法訪問 PMIC 電量計。這裏的 iPhone 13 數據通常希望是正確的,因爲我測量了其他高達 9W 的情況,但是對於手機是否正在使用電池仍然存在一些疑問。持續功耗數據具有更高的可靠性。   如前所述,A15 的峯值性能要好得多,但與 A14 相比,這款手機的耗電量似乎也略有提高,這意味着我們看到了顯著的效率提升。   加載幾分钟後,13 和13 Pro 的速度都會很快,但通常在不同的功耗點。配備 5 核 GPU的 13 Pro 節流(throttle)至 3W 左右,而 13 Pro 節流至3.6W 左右。  

  在 Aztec Normal 中,我們在性能和效率方面看到了類似的相對定位。由於節流級別不同,iPhone 13 和 13 Pro 的性能比預期的要接近得多。  

  最後,在Manhattan 3.1中,A15 的 5 核性鞥你上升了 +32%,而 4核上升了 +18%。兩者的持續性能沒有顯著差異,並且與 iPhone 11 和 12 系列相比也有較小的改進。  

令人印象深刻的 GPU 性能,但散熱非常有限

我們在這裏的結果展示了硬幣的兩個方面:就峯值性能而言,新的 A15GPU 絕對令人驚訝,並且再次展示了遠高於 Apple 營銷宣傳的改進。新的 GPU 架構,可能還有新的 SLC,可以極大地提高性能和效率。   但他們表現不是很好的方面是手機的功耗方面。特別是,與 iPhone 13 以及上一代 iPhone 相比,我們似乎發現 iPhone 13 Pro 的功耗水平明顯降低。  

 

今年的 13 Pro 機型採用了新的 PCB 設計,其密度甚至比我們前幾代的還要高,以便於使用更大的電池和新的相機模塊。Apple的主板設計非常令人困惑的是,由於他們採用了雙層“三明治”PCB,因此他們將 SoC 封裝在兩個焊接板的內部。這與三星等其他供應商形成鮮明對比,他們也採用了“三明治”PCB,但 SoC 位於組件的外側,與散熱器和顯示器中框直接接觸。   有報道稱,新 iPhone 在遊戲和蜂窩連接下的熱量更高——嗯,我確信將調制解調器直接放在三明治內的 SoC 對面是造成這種情況的一個因素。iPhone 13 Pro 顯示較低的持續功耗水平可能與新的 PCB 設計有關,而 Apple 的整體 iPhone 散熱設計絕對是最糟糕的,因爲它無法很好地將熱量散布到整個機身手機,實現遠小於實際設備熱包絡的 SoC 熱包絡。  

遊戲中沒有直接對比

在一般遊戲性能方面,我還想說明一些事情——即使熱容量有限,新iPhone 仍然比競爭手機提供更好的遊戲體驗快得多。最近,對實際遊戲進行基準測試變得越來越流行,總的來說,我完全贊成,但只是存在一些基本的不一致,使得直接比較遊戲在經驗上無法得出 SoC 結論。   以 Genshin Impact 爲例,它無疑是目前排名第一的 AAA 手機遊戲,也是目前市場上對性能要求最高的遊戲之一,比較 Galaxy S21Ultra(Snapdragon 888)、Mi 11Ultra 和 iPhone 13 Pro Max的視覺保真度。:  

 

盡管 S21 Ultra 和 Mi 11 Ultra 都具有相同的 SoC,但它們在散熱方面具有非常不同的特性。在相同條件下,S21 Ultra 一般可維持約 3.5W 的總設備功率,而 Mi 11 Ultra 將徘徊在 5-6W 之間,並且是一款更熱的手機。兩者之間的差異不僅體現在遊戲性能上,還體現在視覺保真度上,因爲 S21 Ultra 由於遊戲具有動態分辨率縮放(兩款手機具有完全相同的遊戲設置)而運行的分辨率要低得多)。  

 

Android 手機和 iPhone 之間的比較變得更加復雜,因爲即使在相同的遊戲設置下,iPhone 仍然具有稍高的分辨率,以及在遊戲的 Android 版本中完全沒有的視覺效果。由於出色的陰影和功能,Apple 設備上的遊戲視覺保真度要高得多。   總的來說,這是我擔心發布真實遊戲基準的一個原因,因爲它只是一個錯誤的比較,可能會導致誤導性結論。我們使用專門設計的基準測試來實現性能方面的“基本事實”,尤其是在 SoC、GPU 和架構的背景下。   A15 繼續鞏固蘋果在移動遊戲領域的主導地位。我們期待着下一代競爭,尤其是明年的 RDNA 驅動的 Exynos 手機,但到目前爲止,Apple 似乎擁有非常舒適的領先優勢,不必擔心太多。

結論

今天對新款 A15 的測評只是觸及了蘋果在新一代 iPhone 13 系列設備中所提供的冰山一角。由於我們仍在進行完整的設備審查,因此我們對新芯片能夠實現的目標以及新設備在性能方面的期望有更深入了解。   在 CPU 方面,蘋果最初對新 A15 改進的模糊介紹可能會讓人失望失望,或者只是更隱蔽地轉向能效而不是純粹的性能。在我們廣泛的測試中,我們很高興地看到它實際上主要是今年的效率焦點,新的性能內核展示了足夠的性能改進,同時降低了功耗,並顯着提高了能效。   A15 的效率核心也獲得了巨大的提升,這一次 Apple 主要將它們投入到性能上,新核心展示了 +23-28% 的絕對性能提升,這是流行的基準測試不容易識別的。這種巨大的性能提升進一步幫助 SoC 提高了能源效率,我們對新 13 系列的初始電池壽命數據表明,該芯片在新設備的更長壽命中發揮了很大的作用。  

 

在 GPU 方面,Apple的峯值性能改進超出了圖表,新的更大的 GPU、新的架構和更大的系統緩存相結合,有助於提高性能和效率。   Apple 的 iPhone 組件設計似乎限制了 SoC 取得更好的結果,尤其是較新的 Pro 型號,但是即使說了又做了,Apple 在性能和效率方面仍然遠遠領先於競爭對手。   總體而言,雖然 A15 不是我們近年來從 Apple 習慣的蠻力迭代,但它帶來了可觀的代際收益,使其成爲比 A14 更好的 SoC。最後,看起來蘋果的 SoC 團隊畢竟執行得很好。


0/100