ARC-AGI-3 重置前沿 AI 排行榜

François Chollet 的 ARC Prize Foundation 刚刚发布 ARC-AGI-3，这是其交互式推理基准测试的最新版本，人类可以首次尝试就解决 100% 的任务，但 AI 模型却举步维艰，顶级系统得分甚至不到 1%。

—实验室花费数百万美元在测试的早期版本上训练模型，在不到一年的时间里将 ARC-AGI-2 的分数从 3% 推升到约 50%
—智能体面对类似游戏的场景，零指令，必须从头开始发现规则、形成目标并制定策略
—Google 的 Gemini Pro 在前沿模型中得分最高，仅为 0.37%，其次是 GPT 5.4 High（0.26%）、Opus 4.6（0.25%）和 Grok-4.20（0%）
—100 万美元奖金支持这项挑战，联合创始人 Mike Knoop 表示前沿实验室对 V3 的关注度远高于早期版本

划重点： 看到顶级模型在新的 ARC-AGI 发布中得分重置到 1% 以下总是令人震惊，但如果旧测试有任何指示意义，更令人惊讶的将是前沿实验室攀升梯子的速度。这反映的是真正的推理能力还是只是更昂贵的暴力破解，正是 Chollet 构建 V3 想要找出的答案。

Reddit CEO Steve Huffman 概述了一项在全站区分人类与机器人的计划，包括标记自动化账户、标记可疑用户进行验证，以及让子社区自我监管，而不进行大规模身份检查。

—在社交平台上以批准方式运行自动化的账户将带有 [App] 标签，可疑行为将导致人工验证
—为了确认人性证明，Reddit 将提供 passkeys 或 Sam Altman 的 World ID 扫描仪，政府身份证作为最后手段，仅在法律要求的地方使用
—AI 撰写的内容不会被禁止，Huffman 称其「烦人」，但表示社区可以自己对 AI 生成的帖子制定规则
—竞争对手平台 Digg 最近在被机器人淹没后倒闭，Cloudflare 数据显示自动流量有望在 2027 年超过人类

划重点： 死互联网理论在我们过去六个月看到的 AI 代理加速之前就已经存在了。现在，这是每个社交媒体网站都在面对的现实。虽然这感觉有点像创可贴，但它是每个平台需要认真的人类优先解决方案才能保持对人类可用性的一小步。

在本指南中，你将学习如何使用 Higgsfield（图像和视频生成器）为公司 Slack 制作自定义品牌反应 GIF。诀窍是在动画之前生成起始帧。

划重点： 如果你制作了一大批 MP4，让 Claude Code 在你的桌面上批量将它们转换为 GIF，这样你就不必一次一个文件地使用转换网站。

Google Research 推出 TurboQuant，这是一种算法，可在无需任何重新训练的情况下将 AI 模型内存压缩超过 6 倍——同时在 Nvidia H100 芯片上实现高达 8 倍的速度提升，且几乎零精度损失。

划重点： 尽管首次发表于 2025 年 4 月，但顶级 AI 内存公司感受到了官方发布的压力，股价下跌 3-5%。一篇压缩论文不会一夜之间摧毁内存需求，但抛售表明华尔街正在为更智能的软件削减 AI 内存溢价的世界定价。