今年早些时候的CES 上,AMD 发布了专门针对AI PC 领域的高算力移动平台——AMD Ryzen AI Max+。该系列处理器基于AMD Zen5架构设计。最大亮点是集成了多达40个RDNA3.5架构图形计算单元,并提供高达256GB/s的超高带宽内存接口。它还集成了具有50TOPS计算能力的XDNA2架构NPU。
了解AI的朋友都知道,当前AI应用在硬件层面的主要瓶颈是GPU和内存。无论是Stable Diffusion的Vincent Picture、Picture Drawing、Vincent Video等应用,还是围绕各种大型模型的智能代理应用,只要涉及到本地化部署和使用,主要瓶颈就是GPU和内存。
锐龙AI Max+就瞄准了这两大痛点,通过高算力图形计算单元以及高容量、高带宽内存方案,让AI PC、迷你电脑也具备了堪比台式机的AI算力水平。因此,Ryzen AI Max+平台堪称最强的移动处理器,拥有最强大的AI算力。
今天我们拿到的是搭载AMD Ryzen AI Max+ 395处理器的Geek EVO-X2迷你电脑。其定位为“迷你AI工作站”。
作为目前为数不多的搭载AMD Ryzen AI Max+ 395处理器的迷你电脑之一,GIMOC EVO-X2桌面AI超算中心在AI应用中会有怎样的表现呢?让我们通过这篇评测来了解一下吧。
·硬件配置与性能表现首先我们来看看这款机器的配置和性能。
GIMOC EVO-X2桌面AI超算中心安装的AMD Ryzen AI Max+ 395处理器是Ryzen AI Max+系列的顶级型号。原生16超大核心32线程设计,最高加速频率5.1GHz,总缓存高达80MB,NPU峰值AI算力50TOPS,cTDP 45-120W,集成40个图形核心的Radeon 8060S iGPU。
【CPU单核/多核性能】参考CINEBENCH R23和2024测试,Ryzen AI Max+ 395处理器在R23测试标准下单核成绩为1985,多核成绩为36648;在2024标准下,单核得分为113,多核得分为1752,整体性能非常不错,甚至可以检测出移动HX级别处理器的性能水平。因此,Ryzen AI Max+ 395并不是“AI偏生”,而是拥有极其扎实的单核和多核性能能力。
【CPU功耗释放】得益于GIMOC EVO-X2桌面AI超算中心更大尺寸带来的内部空间,AIDA 64 FPU CPU单烤箱测得该处理器的长期稳定功耗释放可维持在103W左右,平均核心温度为99.1,3分钟内短期功耗释放甚至可以达到120W。
【内存读写性能】Ryzen AI Max+ 395是从AI应用的角度针对此功能而设计的,大大增加了内存带宽,因此AIDA 64内存性能测试的结果极其出色。该机配备双通道128GB LPDDR5x 8000高速内存,读取速度高达119.34GB/s,写入速度高达210.1GB/s,复制速度高达153.49GB/s,速度极快。
【硬盘读写性能】存储方面,GeekWire EVO-X2桌面AI超算中心一步配备了2TB Lexar PCIe 4.0固态硬盘。实测顺序读取速度为7116.8MB/s,顺序写入速度为6440.38MB/s,4K随机读取速度为69.5MB/s,4K随机写入速度为207.96MB/s,达到了PCIe 4.0固态硬盘的高端性能水平。这对于大参数语言模型的加载速度非常有帮助。
【GPU图形性能】Ryzen AI Max+ 395之所以能够满足大参数AI模型的需求,重要原因在于其集成的Radeon 8060S iGPU,可以说是集成显卡中的超模。它拥有2560个流处理器,64GB LPDDR5内存,128GB/s内存带宽,核心频率高达2900MHz,显存频率为1000MHz,比目前任何一款集成显卡都要强很多。
参考各种3DMark测试,我们可以看到Radeon 8060S iGPU在Speed Way DX12性能中得分为2025,远远超过其他iGPU的性能。 Port Royal光线追踪性能达到了5884点,基本达到了RTX4060独立显卡的水平(5957点左右)。 Time Spy 和Fire Strike 图形分数也分别达到了11,498 和30,713 分。作为一款集成显卡,其理论图形性能居然达到甚至超过了RTX 4060独立显卡的水平,着实令人惊叹。
·综合应用性能评估了解完CPU、内存、硬盘、GPU的理论性能后,我们来看看在实际应用中,如此优秀的综合性能能获得怎样的体验?
【CPU应用性能】首先是CPU相关的应用性能。
在7-Zip压缩和解压测试中,Ryzen AI Max+ 395处理器受益于16个超大核心和32线程的设计。压缩速度达到150617KB/s,解压速度达到2063057KB/s,总分高达177.76GIPS,属于当前移动处理器中的T0级性能水平。
视频编码方面,x264Benchmark编码2500帧实测帧率为77.31fps,完成时间为32秒,比HX系列处理器稍慢。
渲染方面,V-Ray Bencmark 1分钟采样率达到38813 vsamples; Corona Benchmark的渲染速度达到了11248700Rays/sec,渲染时间仅为43秒。
总体来说,Ryzen AI Max+ 395处理器在压缩、解压缩、物理渲染等方面的性能远高于其他移动处理器,其视频编码能力也能满足生产力需求。
【GPU应用性能】接下来我们看一下GPU相关的应用性能。
首先是V-Ray Benchmark的加速测试。 1分钟渲染速度达到1812 vpaths,在集成显卡中表现突出。
Blenderbenchmark的表现也很出色,《怪物》、《垃圾店》和《教室》三个渲染采样率分别达到了560.23、199.86和252.34样本/分钟,这也远远超出了目前其他集成显卡的性能。
【综合应用性能】最后我们来看看综合应用性能。
对于生产力理论性能,我们参考PCMark。 10办公模式测试:常用的基本功能,包括网页浏览、视频会议、应用程序启动等,得分为11425分,表明完成这些基本办公任务没有问题;生产力项目测试得分高达10,717分,表明其具有出色的电子表格和文档工作表现;数字内容创作得分高达16366分,表明它可以非常高效地完成图片、视频编辑、图形渲染等任务;综合得分为9039,表明其在日常办公和娱乐应用中没有问题。
对于生产力应用性能,我们参考了UL Procyon 的照片编辑和视频编辑测试。两项成绩分别达到8955分和22765分。它可以相当轻松地处理RAW格式原始影片处理,并且还可以为2K和4K视频编辑提供出色的性能支持。
·AI性能评估搭载AMD Ryzen AI Max+ 395处理器的极客EVO-X2售价14999元,对于大众用户来说并不便宜。不过,如果与动辄几万元、几十万元的AI一体机相比,该机可以说是一个成本相对低廉的AI学习、开发、应用平台,非常适合刚开始接触AI的人。
了解AI的朋友都知道,显存和内存在AI应用中非常重要。 Radeon 8060S虽然拥有出色的图形性能,但其显存仅有6GB,满足AI大语言模型的应用需求有点捉襟见肘。不过,通过AMD独特的统一内存技术,在AMD软件控制中心,我们可以将GIMOC EVO-X2的128GB内存分配给集成显卡作为显存,最高可达96GB,这样就可以承担大参数、大语言模型的应用需求。
在进行AI应用测试之前,我们先来看看Ryzen AI Max+ 395处理器的三个AI计算单元:CPU、GPU和NPU的算力表现。参考UL Procyon的CPU Integer、GPU Float 16和NPU Integer测试,三者得分分别为248分、987分和1783分。与之前的Ryzen 8040系列处理器相比,Ryzen AI Max+ 395处理器的CPU AI算力并没有大幅提升,但GPU和NPUAI算力的提升基本都在3倍以上!
了解了理论性能之后,我们再来看看Ryzen AI Max+ 395在实际AI应用中的表现。
首先通过UL Procyon测试了Phi-3.5 4B、Mistral 7B、Llama 3.1 8B和Llama 2 13B这四种经典大语言模型。生成速度分别达到了69.56个token/s、44.87个token/s、38.01个token/s和25.45个token/s,速度非常快。另外值得一提的是,即使是RTX 5060笔记本GPU,作为独立显卡,也只有可怜的8GB显存,无法正常运行参数较多的大型Llama 2模型。不过Radeon 8060S不仅运行成功,生成速度也能达到25.45个token/s,在日常应用中完全没有问题。这时,Ryzen AI Max+ 395平台的独特优势就完全显现出来了。
接下来,我们使用LM Studio分别测试了15B及以下小参数量的大语言模型和22B及以上大参数量的大语言模型。
首先,在各种小参数密集大模型测试中可以看出Ryzen AI Max+ 395表现非常出色。凭借内存分配带来的大显存支持,即使遇到BF16高精度Mistral-small 24B和Gemma 2 27B大型型号,生成速度也分别达到了12.37 tokens/s和11.62 tokens/s,表现十分出色。对于性能更高的DeepSeek R1 14B和Phi-4 15B,速度也可以达到19.63 tokens/s和12.24 tokens/s;低精度DeepSeek R1 7B生成速度达到了41.94 tokens/s,而DeepSeek R1 1.5B则达到了92.67 tokens/s。可以看到,在面对小参数的大模型时,Ryzen AI Max+ 395无论是面对高精度模型还是低精度模型,都能提供足够快的生成速度。
当面对大参数的大语言模型时,首先要解决的问题不是大模型能否使用,而是大模型能否正常加载。以RTX 5060 笔记本电脑GPU 为例。虽然其性能优于Radeon 8060S,但如果大模型参数很大,前者很可能无法通过加载级别,更不用说进一步的应用了。
从下图可以看到,当我们加载Qwen3-235B-A22B-IQ2_S的大型MoE混合模型时,内存使用峰值高达63.6GB。如果没有128GB大内存的支持,加载这个级别是不可能的。
在各种大参数、大容量语言模型的测试中,Qwen3-235B-A22B-IQ2_SMoE模型的生成速度为14.72个token/s,表现出色; DeepSeek IQ2_M和DeepSeek R1 Distill Llama 70B大参数密集模型也可以正常运行,并且可以达到4.91 tokens/s和5.31 tokens/s的生成速度。 DeepSeek R1 Q4量化版Qwen 32B蒸馏模型和QWQ 32B大模型生成速度分别可达9.71 tokens/s和9.79 tokens/s。
这里还有一点需要注意的是,Qwen3-235B-A22B-IQ2_S模型虽然参数量为235B,但它并不是常见的密集模型,而是MoE(Mixture of Experts)混合专家模型。简单来说,MoE模型虽然总参数量较大,以Qwen3-235B-A22B-IQ2_S模型为例,虽然总参数量为235B,但运行时实际只调用22B个参数(模型中的A22B标记表示运行时只调用22B个参数)进行计算,因此对硬件的压力要小很多。
正是由于其参数大、计算能力低的特点,MoE模型可能会成为未来大模型发展的主流趋势。
相反,密集模型在每次计算中都会调用所有参数,这就是为什么235B的Qwen3-235B-A22B-IQ2_S的生成速度比DeepSeek R1 32B和QWQ 32B大型模型更快。
对于AI 测试的最后一部分,我们使用了Amuse,这是一款专为AMD Ryzen 平台构建的Stable Diffusion 工具。支持文森图片、图胜图片、文森视频等应用,使用起来非常方便。
首先,我们使用过去六个月非常流行的FLUX.1-Dev 模型进行Vincentian 图测试。经过10次迭代,生成10241024超清图像耗时234.3秒。虽然这个性能不如独立显卡,但之前还没有一款集成显卡能够顺利完成这个任务。 Radeon 8060S不仅成功完成了这一任务,而且效率也相当不错。毕竟,10241024图像生成在AI图形应用中被认为是高负载任务。
其次,我们使用Stable Diffusion XL Turbo模型生成2048x2048尺寸的图像。这个大模型的整体精度较低,因此对硬件负载的压力并不太大。对于普通用户来说,使用此类大型模型制作文森图就足够了。无需使用像FLUX.1-Dev这样的超高精度大型模型。
可以看到,Stable Diffusion XL Turbo模型生成2048x2048尺寸的图像只需要12.8秒,每秒的迭代次数达到了2.6次。
总体来说,Ryzen AI Max+ 395是一个非常优秀的AI计算平台。拥有大内存,并且通过AMD统一内存技术分配给显存,常规的AI应用基本上没有太大的压力。可作为个人、小型工作室、小型企业用户的AI终端设备。尤其是相比动辄几万元、几十万元的AI一体机来说,14999元的GIMOC EVO-X2绝对是一款高性价比的解决方案。
同时,这类设备也非常适合AI初学者和初级AI开发者。首先,拥有超大内存的Ryzen AI Max+ 395平台可以在本地充分部署各种大型AI模型,例如70B和32B大型语言模型,或者Flux和StableDiffusion等大型Vincent图片和Vincent视频模型。借助LMStudio、Comfy-UI等AI工具,您可以轻松构建本地化的AI助手、个人知识库、图片视频创作平台。
其次,大内存和显存带来更好的AI应用体验。例如,用户在实际应用中可以同时加载Stable Diffusion+Whisper+Llama等混合AI模型解决方案。
而用AI解决AI应用的问题,如让AI直接生成提示词,再通过SD进行图片、视频创作。同时锐龙AI Max+395平台还支持ONNX、DirectML等多种框架,完美适配Windows平台的部署与运行。因此也非常适合多模态AI应用,如扩图、分割、语音识别、图像识别等,节约实验或验证成本,快速完成Demo或开源项目的开发。 其三,设备成本支出更低的同时,本地化部署带来的另一大好处就是使用成本几乎为零。用户无需额外支付Token费用,也不受网络质量影响。同时拥有更加可靠的用户隐私、数据安全,算法模型数据不容易外泄。 此外,锐龙AI Max+ 395的NPU也可以参与YOLO等适配模型的相关任务,分担负载,从而让多模态应用拥有最优的算力表现。 ·游戏性能评估 锐龙AI Max+ 395集成的Radeon 8060S本身拥有相当不错的图形性能,因此对于游戏玩家来说也是不错的选择。所以性能测试的最后一部分,我们进行了四款热门游戏的测试。 《三角洲行动》,极高画质(次高画质),2560x1600分辨率,平均帧率可以达到96fps,流畅运行无压力。 《荒野大镖客2》,中等画质,2560x1600分辨率,开启FSR,平均帧率可以达到89fps,运行非常流畅。 《赛博朋克2077》,超级画质,未开启光追,2560x1600分辨率,平均帧率可以达到59.23fps,接近60fps的表现已经远超当前其它集成显卡了。 《黑神话:悟空》,超高画质(非影视级画质),2560x1600分辨率,平均帧率达到了62fps,可以流畅游玩。 可见极摩客EVO-X2不仅拥有出色的AI性能,同时还有着不错的游戏性能,再加上出色的生产力性能,这款产品可以说是相当能打的一款综合性迷你主机了。而且确实不负“桌面AI超算中心”之名!
·简约干练的外观设计
作为一款较大体积的迷你电脑,极摩客EVO-X2桌面AI超算中心在设计上还是很有看点的。这款机器整体采用了类似“夹心饼干”的设计方式,顶部和底部采用银色金属面板打造,中间采用黑色配色,从外观配色上就给人一种很极客的感觉。
这款机器的设计风格简约,卧放时正面的切角区域印有“GMKtec”的品牌LOGO,五边形切角设计打破了正方形机身“循规蹈矩”的感觉。正如其独特的配置一样,仿佛彰显着不拘一格、打破壁垒的产品语言。
这款机器支持卧放和立放,可以适应不同尺寸的办公空间。另外可以看到切角对应的区域设计有一枚三角形按键,它的作用是一键切换风扇的灯效模式。可以很方便的在常亮、呼吸等灯效模式中快速切换。
极摩客EVO-X2桌面AI超算中心有着非常出色的接口扩展能力,机身前端配有电源键和P-Mode性能模式切换快捷键。同时还配有标准的SD卡插槽,1个USB4接口,2个USB 3.2 Type-A接口以及3.5mm耳麦插孔。
机身背部接口就更加丰富了。包括安全锁孔,电源插孔,3.5mm耳麦插孔,RJ45以太网口,1个USB 3.2 Gen 2 Type-A接口,1个USB4接口,1个DP1.4视频端口,1个HDMI2.1视频端口以及2个USB2.0接口。
另外可以看到在接口区域下方,还设计有四个散热格栅。同时机身底部面板也开有大面积的散热孔,整体散热效率得到保障。
·评测总结
年初我在CES参加AMD发布会时,就对锐龙AI Max+ 395产生了极大兴趣。因为在整个行业里,锐龙AI Max+是颇为独特的存在,它从CPU的角度赋予了AI PC更加确切的定义,让移动端的AI处理器与传统移动端处理器产生了区隔。不过说实话,当时对于锐龙AI Max+的实际表现还是颇有疑问的,毕竟集成显卡跑出超越独立显卡的AI性能,在年初还是一件相当魔幻的事情。
不过在这次对锐龙AI Max+ 395处理器和极摩客EVO-X2桌面AI超算Mini工作站的深入测试中,此前的疑虑被彻底打破。MoE混合专家模型的出现,或许是未来锐龙AI Max+ 395这类处理器切入大参数量模型本地部署和应用的主要方式,而且实际效果真心不错。
此外,锐龙AI Max+ 395有着非常不错的生产力性能和游戏性能,对于迷你电脑、笔记本电脑来说也是相当靠谱的硬件解决方案。
而对于极摩客EVO-X2桌面AI超算中心这款产品来说,笔者个人认为它非常适合正在学习AI、研究AI、或者本地部署使用AI的工作室、小型企业用户选择,算得上是当前极低成本的高算力AI解决方案了。