据本网12月25日消息,知名工程师Jeff Geerling最近完成了一项挑战,利用macOS 26.2最新的系统特性,将四台M3 Ultra Mac Studio成功合体,打造出一台拥有1.5TB统一内存的AI计算集群。。这个集群成功的关键在于macOS 26.2中引入的一个核心功能,RDMA over Thunderbolt 5。通过Thunderbolt 5接口,一台Mac可以直接读取另一台Mac的内存,而无需CPU干预。
在Geekbench 6的多核测试中,该集群轻松超越了GB10和Framework Desktop的Dell Pro Max。双精度浮点性能达到1TFLOPS以上,而空闲功耗小于10W。
在AI推理方面,单机运行Llama 3.2 3B模型时,每秒可处理154.6个token;在运行大型Llama 3.1 70B模型时可以维持每秒14.1个令牌。两项测试的表现都远远超过了其他对手。
另外,在尝试运行DeepSeek R1 671B超大型模型时,其他系统均无法正常运行,而Mac Studio 集群凭借其1.5TB的统一内存,完成了这一挑战。
基于Thunderbolt 5 的RDMA 在此AI 集群中发挥着关键作用。启用RDMA后,内存访问延迟从TCP的300微秒下降到50微秒以下。
使用exo系统测试Qwen3 235B时,四台设备每秒可以处理31.9个令牌,比llama.cpp TCP快两倍多; DeepSeek V3.1甚至达到了每秒32.5个令牌。
虽然RDMA 性能良好,但在重负载下偶尔会出现系统崩溃的情况。
另外值得注意的是,由Mac Studio组成的AI集群总硬件成本约为40000美元(约合人民币28万元),相比其他两个平台,这一价格更贵。