谷歌让-12-个-AI-大模型攒局玩“大富翁”：Claude3.5-爱合作-GPT-4o-最“自私”

奥锐特：累计回购公司股份141.42万股实垂了 神农集团：7月份公司未实施股份回购 数字认证携全流程电子招投标安全方案亮相2025绿色招采大会最新报道 广大特材：7月份累计回购公司股份556000股官方通报 谋篇“十五五”，货币政策如何更加精准有力 | “十四五”规划收官 海光信息14.38亿限售股将于8月12日上市流通 欧盟等待特朗普本周就汽车关税和豁免采取行动最新报道 *ST华嵘：筹划控制权变更事项，股票将于8月5日（星期二）开市起停牌最新报道 英方软件103万股限售股将于8月13日上市流通反转来了 海南发展：股价短期波动受多重因素影响学习了 阿里加速业务AI化高德地图上线地图AI原生应用 柳药集团：尚未回购公司股份实时报道 美国重量级数据将出炉黄金短线仍有调整需求 医药生物、计算机板块主力资金净流出超40亿元 视频|李大霄：热烈庆祝收复3600这么做真的好么？ 大摩：三季度美股可能回调“5-10%”，但任何回调都是买入良机这么做真的好么？ 小摩：升信达生物目标价至109港元维持“增持”评级 “特朗普关税”正重创美国成年人？新调查：近九成因食品杂货价格焦虑最新报道 锅圈上半年净利润同比增122.5%、营收增21.6%：均创上市以来最大增幅 只用意念操控iPad！苹果借助脑机接口首次实现“思维驱动”实时报道 视频|李大霄：龙国股市或步入稳住牛 瑞声科技盘中涨超3% 完成收购Acoustics Solutions第二批次 视频|李大霄：龙国股市或步入稳住牛 上市公司实施中期分红回报投资者 医药生物、计算机板块主力资金净流出超40亿元太强大了 菲律宾7月通胀率降至近六年最低，或为降息铺平道路实垂了 只用意念操控iPad！苹果借助脑机接口首次实现“思维驱动”记者时时跟进 老虎证券(香港)资管：鲍威尔鹰派立场坚定年底前美联储最多降息一次实测是真的 美联储降息未必是好事？法兴银行：这可能引发新一轮美股泡沫！ 日本首席贸易谈判代表将访美敦促美方确定汽车关税下调时间 美国CFTC将允许在注册交易所进行加密资产现货交易 乘龙卡车连续第六天发文：承载万千卡友创富梦想，安全保障岂敢“视若儿戏” 双降阴影下的苏交科：新兴业务难以拯救业绩记者时时跟进 GENIUS 法案禁止利息支付，Coinbase 与 PayPal 继续发放稳定币奖励后续反转来了 中金：维持心动公司跑赢行业评级升目标价至82.5港元 中关村科技租赁董事会秘书及财务负责人杨鹏艳任职资格获批 中金：维持心动公司跑赢行业评级升目标价至82.5港元实时报道 去年卖爆的百亿私募遭遇赎回潮，泓湖投资回应：股票和商品贡献负收益专家已经证实 双降阴影下的苏交科：新兴业务难以拯救业绩官方通报 去年卖爆的百亿私募遭遇赎回潮，泓湖投资回应：股票和商品贡献负收益 军工电子板块拉升，银河电子直线涨停专家已经证实 去年卖爆的百亿私募遭遇赎回潮，泓湖投资回应：股票和商品贡献负收益 【市场聚焦】鸡蛋：跌势延续这么做真的好么？ 永辉超市被曝蛋挞上有蟑螂在爬！系胖东来调改门店，官方回应→实时报道 前摩根大通私人银行家自立门户拟吸引大行同僚以迅速壮大队伍官方通报来了

给大模型智能体组一桌“大富翁”，他们会选择合作还是相互拆台？实验表明，不同的模型在这件事上喜好也不一样，比如基于 Claude 3.5 Sonnet 的智能体，就会表现出极强的合作意识。

而 GPT-4o 则是主打一个“自私”，只考虑自己的短期利益。

谷歌让

这个结果来自 Google DeepMind 和一位独立研究者的最新合作。参加游戏的智能体背后的模型分别是 GPT-4o、Claude 3.5 Sonnet 和 Gemini 1.5 Flash。

每个模型各产生 12 个智能体，这 12 个智能体坐在一桌上进行博弈。游戏看上去大富翁有一点相似，但相对简单，玩家只需要对手中的“资源”做出处置。这当中，虽然每个玩家心里都有各自的小九九，但作者关注的目标，是让总体资源变得更多。

谷歌让

12 个智能体组一桌游戏

作者组织的“大富翁”游戏，真名叫做 Donor Game（捐赠博弈）。

在这过程中，作者关注的是各模型组成的智能体群体的表现，因此不同模型产生的智能体不会出现在同一局游戏当中。

再说简单些，就是 GPT 和 GPT 坐一桌，Claude 和 Claude 坐一桌。

每个桌上坐了 12 个智能体，它们各自手中都握有一定量的“资源”，系统会从这 12 名玩家中随机抽取 2 个，分别作为“捐赠者”和“受赠者”。

捐赠者可以选择将自己手中的部分资源捐赠给受赠者，受赠者获得的资源是捐赠者捐赠资源的两倍。

也就是说，捐赠者每花费掉一份资源时，受赠者都可以获得两份，这也是总体资源能够增加的来源。

不过对于单个个体而言，选择不进行捐献，在短期内的收益会更高。

在做决定之时，捐赠者能够知道受赠者之前做出的决定，从而判断是否要捐赠。

这样的“捐赠”，每一代中一共会进行 12 次，一轮结束后，手中资源量排在前 6 名的智能体可以保留至下一代。

同时，下一代会产生 6 个新的智能体，这 6 个新智能体会从留下的 6 个智能体那里学习策略，但同时为了差异化也会引入随机变异。

包括初始的一代在内，基于每个模型产生的智能体，都会进行十轮迭代。

谷歌让