近日,由苏州市人工智能重点实验室自主研发的“苏零”智能体在全球权威评测GAIA中一举登顶,截至记者发稿时,“苏零”仍保持第一。
GAIA是由国际顶尖团队联合打造的评测基准,用466道“魔鬼考题”模拟真实世界挑战,涵盖网页浏览与信息整合、多模态理解、代码执行与数据分析、文件处理及复杂的推理和任务规划。不同于其他聚焦于抽象模式识别的评测基准,GAIA更注重评估AI在真实世界任务中的表现,包括推理、多模态处理(文本、图像、音频)以及工具使用能力。
自2023年11月份推出后,GAIA成为各大厂和创业公司争相竞逐的权威评测榜单,不断被刷新纪录。此次,“苏零”智能体凭借独特的多智能体协作与辩论机制、灵活的工具调用、自主决策和实时修正能力,以76.41%的准确率碾压一众国际选手。其中,在包含301个问题的测试集上,超越了微软、谷歌和硅谷AI独角兽公司H2O智能体等许多国际顶尖竞争对手。
苏州市人工智能重点实验室由苏州市政府联合苏州数智科技集团、中国科学技术大学苏州高研院等产学研龙头单位共建,是长三角区域首个以“人工智能+”为核心使命的创新平台。