AI巨头争锋《宝可梦》测试，揭秘AI实力新高度

63 2026-01-25

AI巨头以《宝可梦》游戏测试AI性能

在当今科技飞速发展的时代，衡量AI智能程度的方法层出不穷。一种相对小众的测试方法近期在AI圈内引起了广泛关注。谷歌、OpenAI和Anthropic等AI巨头纷纷让自家模型参与经典的《宝可梦》系列游戏，以此评估AI的性能表现。

Anthropic公司AI部门负责人David Hershey表示，《宝可梦》之所以能吸引机器学习社区的注意，是因为它不像《Pong》等简单游戏那样受限。这种游戏对电脑程序来说具有极大的挑战性。

Hershey从去年开始在Twitch平台进行直播，每天的任务就是用公司自产模型Claude玩《宝可梦》。他平时的工作是帮助客户部署AI，因此开直播本质上也是在测试模型。这种做法也启发了不少自由开发者，他们陆续推出了“Gemini玩《宝可梦》”“GPT玩《宝可梦》”等类似的直播节目。

这些直播节目甚至被谷歌和OpenAI注意到，开发团队有时还会客串直播间亲自调整模型参数。在官方力量的注入下，Gemini和GPT已经成功通关了《宝可梦蓝》；而Claude至今还没打通任何一个版本。

Hershey解释道：“因为它给我们提供了直观的方法观察模型表现，还能用量化指标评估性能。”在《宝可梦》系列游戏中，玩家需要升级、训练已有的宝可梦，还要打败道馆馆主来捕捉新的宝可梦。这种游戏流程并非线性，而是充满着判断和取舍。

玩家还要经常在游戏中做出选择：是先冒险挑战强大的训练家以获取珍稀宝可梦，还是稳扎稳打造出一支实力均衡的队伍。显然，人类非常擅长做此类决策，这也是游戏的乐趣所在。但对于AI来说，这是一场关乎逻辑推理、风险评估以及长期规划能力的综合考验。

研究人员会深入剖析AI在游戏里的决策方式，深入理解模型的能力边界。Hershey还会将AI玩《宝可梦》的结果分享给客户以改进控制框架，帮助他们提升算力使用效率，让模型更高效运转。