英特尔换了台湾 CEO 陈立武之后,拿到了台积电的代工配额,试产了第二代 Ultra 处理器,这代处理器空前绝后地采用了类似苹果的统一内存架构,把高频内存封装进 CPU,再加上 Iris 系列 GPU,形成了 Intel 独特的统一架构,封装样式见下图,两块方方的内存颗粒像眼睛一样,这块芯片居然有种萌萌哒的感觉。这样封装好处是,实现高频内存,内存和 CPU 封装在一起,意味着它们之间的连接使用硅片而非 PCB ,能实现更低的功耗,更大的带宽,更低的延迟。同时,这个内存也充当显存,GPU 相比 CPU 也更能从这种内存封装中收益。详细的介绍参考英特尔官方说明。可以说,这种做法是集成显卡和独立显卡竞争的必要技术路线。因而,这代 Ultra 处理器,成了唯一能叫板 macbook 的产品,如果必须选用 Windows 笔记本电脑,而又无法忍受续航和便携性的痛点,这代产品几乎是最佳选择。

英特尔第一代和第三代 Ultra 都没有再采用这种封装,可以说,二代 Ultra 成了绝响。一代和三代均由英特尔自行生产,二代也是仅有的台积电代工的英特尔 CPU,英特尔拥有移动 CPU 最强的技术储备,AMD 忙着 AI 军备竞赛,在移动端一直没有推出杀手级产品,用在游戏本上尚且能发挥 3D V-Cache 的性能优势,插电性能一骑绝尘,但在轻薄本领域,完全没有能和苹果m系列芯片竞争的产品。
笔者心水这代产品久矣,在海鲜市场蹲到了华硕无畏14,搭载了 Ultra 228v,32G 内存,内存频率是满血的 8533 MT/s,同样是一骑绝尘领先竞品。开箱配置好系统,最心心念念的环节就是部署好 WSL,安装 OpenFOAM,测试下性能如何,不知能否打败笔者之前一直喜爱的 AMD 5600G 桌面平台处理器。

有了 http://dl.cfdem.cn 这个镜像站,OpenFOAM 安装速度飞快,几分钟就可以在全新的环境中安装好一切。下载 CFD 中文网的 200w 网格测试算例。先在不插电源的情况下试试低功耗性能如何,运行 OpenFOAM 后,系统负载并没有明显上升,风扇完全不转,说明华硕无畏14的散热能力很足,仅靠被动散热就可以压制 228v,这也是笔者选择 ultra 5 而非 ultra 7/9 的一大原因,同一系列产品,模具相同,风扇相同,功耗越低的处理器,温度越低,性能释放越充分,在移动平台最平衡。
| 并行线程数 | 228v 不插电 | 228v 插电 |
| 4 | 270.51 | 241.29 |
| 2 | 443.38 | 351.7 |
| 1 | 1071.81 | 698.83 |
从测试成绩可见,不插电的情况下,加速比是超线性的,说明 CPU 性能完全被释放,内存性能不是瓶颈。而且在不插电的情况下,已经跑赢了 5600G,5600G 在笔者精调之后的峰值速度是 380.68 s,详见旧文 台式机换散热器真的能让OpenFOAM变快吗?。插电之后,加速比也几乎是线性的,单核性能有了较大提升,4核全开仍有超过 10% 的提升。而且更惊人的是,228v 4 核并行的成绩,与 AMD 3970X 线程撕裂者 4 核相近,3970X 可是4通道内存。当然了,3970X 使用8核仍然可以再提升 40%,达到其峰值性能。线程撕裂者的测试成绩见旧文,让一台旧电脑焕发新生,跑跑OpenFOAM如何?。
正当笔者打算结束测试的时候,忽然想到,这个 CPU 其实是 8 核的,并非 4 核超线程变成了 8 线程,而是具有4个性能核和4个能效核,一般运行 OpenFOAM 这种程序,肯定要用 4 个性能核。但是,如果使用8个线程,性能会不会比4个线程好?究竟是性能核被能效核拖慢,还是能一起协同加速?在插电的情况下,进行了 8 线程并行测试,结果有了意外之喜,耗时相比4核,又缩短了 20% 达到 205.48 s。说明 Windows WSL 2 和 Intel 之间的优化已经相当好了,调度问题不复存在,可以最大程度发挥出硬件效能。
总而言之,内存封装形式的改变,极大地提高了 OpenFOAM 这类 I/O 密集型任务的性能,二代 Ultra 即便在 CPU 方面没有提升,在内存方面的提升也足以成为一代经典。