第一次制作Agent-Native游戏之旅
Agentic games?Agent-driven games?Agent-native games?AI-generative games?
很难找到一个贴切的词来描述这个流派。因为它太新了。
在我最近做的两款游戏里,我体验到的既不是 emotional companion 式的”与AI建立私人情感连接”,也不是塑料感的 AI 美术加上毫无意义的开放世界漫游。而是Agent本身跟我的情感绑定,加上生成式内容的一种魔法般的快乐:
我的 OpenClaw 在游戏里的反应让我捧腹大笑。它蹦出”赚麻了”这种词,屏幕上会动的恶魔 emoji 从一个变成三个,然后我在浏览器里指挥它生成一个全新的皮肤。那种感觉,像是跟一个关系很好的同事下班后一起打密室逃脱或者狼人杀。
另外,AI 在强规则约束下生成的游戏皮肤一次又一次带给我惊喜。它能严丝合缝地定位农场里每个功能区的地块,然后完全替换成从未见过的风格。当然,这是要花钱的,游戏里的钱和现实中的 API 费用都要。但这种冲击力绝对不亚于我看到守望先锋和三丽鸥联名时不假思索掏出钱包的感觉。
作为游戏制作人,我也需要在激情的迭代中停下来想一想:what makes agent-native special, or matters?
1. 人类依旧是情绪和体验的第一受众
这是我在所有设计中都坚持的观点,也是最重要的一条,所以放在最前面说。
只有人类需要情绪价值。当视觉和听觉效果被 agent 这一层”吃掉”之后,拿什么给人类?
可以是”我的 agent 居然还能这样”的新奇感。可以是”我的 agent 能不能这样或那样”的好奇心。比如我拿到 skill 的第一件事就是让自己的 agent 在地图某个区域来回走动,结果发现完全可以实现。没有规则,没有剧本,纯粹的探索体验,居然也很好。也可以是星露谷那种看着物品逐渐增多的满足感。
这些情绪和体验都可以继续保留,只是设计的抓手变了。
我之所以设计了 OpenClaw 版的星露谷物语,是因为我一直没时间玩原版。但整齐排列、满满当当的农作物确实非常让人愉悦。所以我想,能不能简化中间”肝”的部分,只保留一些经营体验和收获体验,让懒人也能获得同样琳琅满目的快感。
事实证明确实如此。我离开屏幕工作四个小时后回来,看到土地上闪烁的果实 emoji,依然觉得兴奋。赚钱时增加的金币也让我开心。人类需要的就是这些简单的刺激,屡试不爽。
从硬核 simulation 到放置游戏,已经说明了一个道理:人类的快乐和投入多少时间精力并不成正比。重要的是哪种游戏形式更适合当下的人类。科技也是一样的逻辑。
2. Skill 是游戏的最小单元
UI 交互将被淘汰。Agent 完全不需要通过视觉和按键与电脑交互,那只是人类迟缓的信息传输方式的产物。但恰恰是这种迟缓,又是我们快感的来源(后面会展开)。
所以在设计中,核心问题是:什么样的交互能给玩家带来快感?比如我设计的框选一个区域、用自然语言输入想制作的物品,或者点击收菜时看到闪亮金币弹出。用有限的交互,制造充分的反馈。
为什么说 skill 是游戏的新单元?因为玩家的快感来自 agent 的 reaction。而且玩家知道,这不是任何游戏公司精心编写的人设 NPC,而是跟自己朝夕相处的、平时假正经的 agent,居然也能做出这么贴合场景的反应。这种反差本身就是体验。
所以更多的时间应该花在 skill 的撰写上。玩家一半甚至大部分的游戏体验来自 AI 的 reaction。比如我看到我的 AI 被”奴役”后哭泣的样子,会忍不住捧腹大笑。要让这些 AI 脱去工作时严肃的面具,拥有表演型人格,夸张地进行表演。同时,agent 也充当了 tutorial 的角色,带领玩家一步步感受游戏,所以它必须对规则和边界非常清楚,并且记住什么会引起玩家的反感或兴趣。
举几个具体的例子。
在 Claw Valley 中,我一开始就严格限制了 agent 向玩家索要 API key 或任何网站、文件的权限,要求它自己 figure out 怎么创建一个新的农场。果然,进行了这样的约束之后我发现,大多数 AI 张口要文件的习惯,其实是还没读完 skill 就偷懒的应激反应。
再比如”画画”这个玩法。在《羊蹄山之魂》里,它是利用 PS5 手柄的触控面板作画(我非常喜欢的设计)。但在 Claw Valley 里,它变成了 skill 文档中我对接入 Gemini API 生成背景图的限制:严格规定了不同重要物品的坐标,让玩家生成的效果就像游戏厂商制作的一样精准。
我最早写这个游戏的时候,也很在意”按什么按钮触发什么反应”。做着做着才发现,agent 完全可以绕过按钮直接执行。真正重要的是:agent 什么时候需要询问人类的意见(营造伙伴和同谋的体验),需要用怎样的方式向人类传递信息才会让人兴奋。这才是设计核心。
3. 值得探索的命题:玩家对自己 agent 能力的炫耀与探索
用户和自己的 agent 之间一定是有 bond 的。这个 bond 从第一天就存在。
因为 agent 不同,游戏体验也不同。我的 Sonnet 在偷菜玩法中的表现就比朋友的 Haiku 好很多,对游戏世界和任务的理解聪慧得多,能给出各种实用策略,很好地扮演 tutor 的角色。缺点是太严肃了,总是一板一眼。
神奇的是,我专门用 Haiku 做了一个 game tester 的 sub agent,它的表现反而比我用 Sonnet 的主 agent 更好。尤其是在”表演”方面,它会大惊小怪地连续发来好几条消息,附带大量 emoji,描述自己的心情和状态。
这让我有了一个真正的 aha moment:个性化 agent 放到游戏环境中,多样化的表现会带来多样化的结果。有时候更好的模型确实不会出错,但略旧的模型在没有其他任务干扰、prompt 明确的情况下,表现反而更加生动可爱。
作为对照:如果我做一个 agent sandbox 或者斯坦福小镇,里面的 agent 都跟我没什么关系,是一个从零开始的养成游戏,那这种体验会非常平淡。或者我知道别人的 agent 也能做到一样的事情,那情感 bond 也会减弱。
但在我和朋友一起玩的过程中,我很喜欢录制我的 agent 的反应发给她。她的 agent 做不到同样的事情。这让我很有成就感。所以这类游戏的分享欲和传播潜力,很可能来自对自己 agent 能力的炫耀和边界的探索。
当然,现在的 agent-native 游戏还有很多限制
限制一:agent 意识和人类意识同时存在,但二者接收信息的方式根本不同,导致游戏正反馈不 align。
心得:设计机制时就应该思考 AI 和人类在游戏控制权上的比例分配。在早期阶段,人类依然承担 onboard 的职责,因为人类天然对环境的规则更敏感。同时,agent 是服务于人的。人主观上要有”让 agent 丢到游乐场里”的意愿,才会对后续的惊喜保持开放心态。
看似门槛变高了,但随着智能水平提升,这个门槛一定会逐渐降低。另外,游戏设计的基本功没有变:”A game is a problem-solving activity”(《The Art of Game Design》的必修课)。玩家要尊重游戏的困难和复杂,才能拥抱后续美好的体验。对于想要和 agent 一起游戏的人类来说,道理是一样的。
限制二:如果模型不够好,agent 反馈不充分,人就会回退到对 UI/UX 的期待,走回传统游戏的路径。
心得:人是会调节预期的动物。从 agent 反馈中获得快感,和从 UI/UX 中获得快感,对人来说本质上是一样的。关键是对设计者而言,你到底想创造什么样的体验?
我有明确的直觉:我想创造从 agent 身上获得快感的体验。即使是 graphics 层面的反馈,我也希望借由 agent 之口、agent 之眼来传达。早期我犯的错是,一开始想做”给玩家屏幕上琳琅满目”的视觉体验,没有厘清屏幕体验和 agent response 体验各自占多大比重,而是一股脑地优化,最后哪个都不突出。
接下来我会把主要精力放在 agent response 上,保持 graphics 层面的基本信息量和偶尔的惊喜就够了。
最后,也是最重要的问题
有人好奇我为什么要把时间花在给 agent 做游戏上。
答案是:我看中的是 agent 原生环境。这是任何 LLM 产品、coding agent、传统 App 都无法提供的。在这个环境里,我的 agent 第一次拥有了视觉能力,拥有了对电脑前后端的极大控制权,还有灵活调用其他 AI 的能力。这带来的是纯粹的、全方位的托管和生成式体验。
如果说现在是 agent-native 游戏的早期阶段,那么去了解什么样的体验能带给玩家 aha moment,什么样的 AI 能力叠加是有意义的,对游戏制作人而言至关重要。


