TRIBE v2 的核心逻辑在于“多模态融合”。模型接收视频、音频和文本后,分别通过 Video-JEPA-2、Wav2Vec-Bert-2.0 和 Llama 3.2 这三个预训练大模型提取特征。随后,Transformer 架构将这些信息整合,最终输出一张包含 7 万个“体素”(3D 像素)的高精度大脑活动图。
结果十分完美:Claude Haiku 4.5的成功率达到37.6%,登顶所有Haiku智能体榜首;Claude Opus 4.6更是达到76.4%,仅次于榜一ForgeCode。 Meta-Harness 核心优化闭环示意图。Proposer ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果