~/ai-stream
~/research/arc-agi-3-resets-frontier-ai-scoreboard-20260326
The Rundown AI·研究热门

ARC-AGI-3 重置前沿 AI 排行榜

content

ARC-AGI-3 测试

🧐ARC 新 AGI 测试难倒所有前沿 AI

François Chollet 的 ARC Prize Foundation 刚刚发布 ARC-AGI-3,这是其交互式推理基准测试的最新版本,人类可以首次尝试就解决 100% 的任务,但 AI 模型却举步维艰,顶级系统得分甚至不到 1%。

  • 实验室花费数百万美元在测试的早期版本上训练模型,在不到一年的时间里将 ARC-AGI-2 的分数从 3% 推升到约 50%
  • 智能体面对类似游戏的场景,零指令,必须从头开始发现规则、形成目标并制定策略
  • Google 的 Gemini Pro 在前沿模型中得分最高,仅为 0.37%,其次是 GPT 5.4 High(0.26%)、Opus 4.6(0.25%)和 Grok-4.20(0%)
  • 100 万美元奖金支持这项挑战,联合创始人 Mike Knoop 表示前沿实验室对 V3 的关注度远高于早期版本

划重点: 看到顶级模型在新的 ARC-AGI 发布中得分重置到 1% 以下总是令人震惊,但如果旧测试有任何指示意义,更令人惊讶的将是前沿实验室攀升梯子的速度。这反映的是真正的推理能力还是只是更昂贵的暴力破解,正是 Chollet 构建 V3 想要找出的答案。

Reddit AI 机器人

🤖Reddit 的 AI 机器人打击计划跳过身份检查

Reddit CEO Steve Huffman 概述了一项在全站区分人类与机器人的计划,包括标记自动化账户、标记可疑用户进行验证,以及让子社区自我监管,而不进行大规模身份检查。

  • 在社交平台上以批准方式运行自动化的账户将带有 [App] 标签,可疑行为将导致人工验证
  • 为了确认人性证明,Reddit 将提供 passkeys 或 Sam Altman 的 World ID 扫描仪,政府身份证作为最后手段,仅在法律要求的地方使用
  • AI 撰写的内容不会被禁止,Huffman 称其「烦人」,但表示社区可以自己对 AI 生成的帖子制定规则
  • 竞争对手平台 Digg 最近在被机器人淹没后倒闭,Cloudflare 数据显示自动流量有望在 2027 年超过人类

划重点: 死互联网理论在我们过去六个月看到的 AI 代理加速之前就已经存在了。现在,这是每个社交媒体网站都在面对的现实。虽然这感觉有点像创可贴,但它是每个平台需要认真的人类优先解决方案才能保持对人类可用性的一小步。

Slack GIF 指南

🤯为公司 Slack 创建品牌反应 GIF

在本指南中,你将学习如何使用 Higgsfield(图像和视频生成器)为公司 Slack 制作自定义品牌反应 GIF。诀窍是在动画之前生成起始帧。

  • 前往 Higgsfield 图像生成,决定 GIF 的外观,输入反应的视觉风格和文字,如「ESPN 主题反应 GIF,文字为『慢下来』」
  • 如果你的品牌不易识别,在生成静态图时附上你的 logo 或其他品牌参考图像
  • 生成几张静态图并选择最好的一张,然后点击该静态图上的相机动画按钮,使其成为 Higgsfield 视频中的起始帧
  • 然后,将剪辑长度设置为 3 秒,关闭音频,并提示:「反应 GIF」。最后下载 MP4 并用任何 MP4 转 GIF 网站转换为 GIF

划重点: 如果你制作了一大批 MP4,让 Claude Code 在你的桌面上批量将它们转换为 GIF,这样你就不必一次一个文件地使用转换网站。

Google TurboQuant

💾Google 零精度损失压缩 AI 内存

Google Research 推出 TurboQuant,这是一种算法,可在无需任何重新训练的情况下将 AI 模型内存压缩超过 6 倍——同时在 Nvidia H100 芯片上实现高达 8 倍的速度提升,且几乎零精度损失。

  • AI 模型会保留每次对话的运行日志,随着聊天变长,存储空间膨胀,这会减慢响应速度并推高成本
  • TurboQuant 将存储空间缩小超过 6 倍且零精度损失,在将关键细节埋藏在大量文本中的测试中得分完美
  • 在 Nvidia 顶级服务器芯片上,它还将响应处理速度提高了多达 8 倍,与标准方法相比,且没有增加任何额外运行成本
  • 该论文将于 2026 年 4 月在 ICLR 上发表,在向量搜索方面也超过了竞争方法——这是搜索引擎用于快速匹配相似结果的技术

划重点: 尽管首次发表于 2025 年 4 月,但顶级 AI 内存公司感受到了官方发布的压力,股价下跌 3-5%。一篇压缩论文不会一夜之间摧毁内存需求,但抛售表明华尔街正在为更智能的软件削减 AI 内存溢价的世界定价。