谷歌让-12-个-AI-大模型攒局玩“大富翁”:Claude3.5-爱合作-GPT-4o-最“自私”

谷歌让-12-个-AI-大模型攒局玩“大富翁”:Claude3.5-爱合作-GPT-4o-最“自私”

作者:news 发表时间:2025-08-05
奥锐特:累计回购公司股份141.42万股实垂了 神农集团:7月份公司未实施股份回购 数字认证携全流程电子招投标安全方案亮相2025绿色招采大会最新报道 广大特材:7月份累计回购公司股份556000股官方通报 谋篇“十五五”,货币政策如何更加精准有力 | “十四五”规划收官 海光信息14.38亿限售股将于8月12日上市流通 欧盟等待特朗普本周就汽车关税和豁免采取行动最新报道 *ST华嵘:筹划控制权变更事项,股票将于8月5日(星期二)开市起停牌最新报道 英方软件103万股限售股将于8月13日上市流通反转来了 海南发展:股价短期波动受多重因素影响学习了 阿里加速业务AI化 高德地图上线地图AI原生应用 柳药集团:尚未回购公司股份实时报道 美国重量级数据将出炉 黄金短线仍有调整需求 医药生物、计算机板块主力资金净流出超40亿元 视频|李大霄:热烈庆祝收复3600这么做真的好么? 大摩:三季度美股可能回调“5-10%”,但任何回调都是买入良机这么做真的好么? 小摩:升信达生物目标价至109港元 维持“增持”评级 “特朗普关税”正重创美国成年人?新调查:近九成因食品杂货价格焦虑最新报道 锅圈上半年净利润同比增122.5%、营收增21.6%:均创上市以来最大增幅 只用意念操控iPad!苹果借助脑机接口首次实现“思维驱动”实时报道 视频|李大霄:龙国股市或步入稳住牛 瑞声科技盘中涨超3% 完成收购Acoustics Solutions第二批次 视频|李大霄:龙国股市或步入稳住牛 上市公司实施中期分红回报投资者 医药生物、计算机板块主力资金净流出超40亿元太强大了 菲律宾7月通胀率降至近六年最低,或为降息铺平道路实垂了 只用意念操控iPad!苹果借助脑机接口首次实现“思维驱动”记者时时跟进 老虎证券(香港)资管:鲍威尔鹰派立场坚定 年底前美联储最多降息一次实测是真的 美联储降息未必是好事?法兴银行:这可能引发新一轮美股泡沫! 日本首席贸易谈判代表将访美 敦促美方确定汽车关税下调时间 美国CFTC将允许在注册交易所进行加密资产现货交易 乘龙卡车连续第六天发文:承载万千卡友创富梦想,安全保障岂敢“视若儿戏” 双降阴影下的苏交科:新兴业务难以拯救业绩记者时时跟进 GENIUS 法案禁止利息支付,Coinbase 与 PayPal 继续发放稳定币奖励后续反转来了 中金:维持心动公司跑赢行业评级 升目标价至82.5港元 中关村科技租赁董事会秘书及财务负责人杨鹏艳任职资格获批 中金:维持心动公司跑赢行业评级 升目标价至82.5港元实时报道 去年卖爆的百亿私募遭遇赎回潮,泓湖投资回应:股票和商品贡献负收益专家已经证实 双降阴影下的苏交科:新兴业务难以拯救业绩官方通报 去年卖爆的百亿私募遭遇赎回潮,泓湖投资回应:股票和商品贡献负收益 军工电子板块拉升,银河电子直线涨停专家已经证实 去年卖爆的百亿私募遭遇赎回潮,泓湖投资回应:股票和商品贡献负收益 【市场聚焦】鸡蛋:跌势延续这么做真的好么? 永辉超市被曝蛋挞上有蟑螂在爬!系胖东来调改门店,官方回应→实时报道 前摩根大通私人银行家自立门户 拟吸引大行同僚以迅速壮大队伍官方通报来了

给大模型智能体组一桌“大富翁”,他们会选择合作还是相互拆台?实验表明,不同的模型在这件事上喜好也不一样,比如基于 Claude 3.5 Sonnet 的智能体,就会表现出极强的合作意识。

而 GPT-4o 则是主打一个“自私”,只考虑自己的短期利益。

谷歌让

这个结果来自 Google DeepMind 和一位独立研究者的最新合作。参加游戏的智能体背后的模型分别是 GPT-4o、Claude 3.5 Sonnet 和 Gemini 1.5 Flash。

每个模型各产生 12 个智能体,这 12 个智能体坐在一桌上进行博弈。游戏看上去大富翁有一点相似,但相对简单,玩家只需要对手中的“资源”做出处置。这当中,虽然每个玩家心里都有各自的小九九,但作者关注的目标,是让总体资源变得更多。

谷歌让

12 个智能体组一桌游戏

作者组织的“大富翁”游戏,真名叫做 Donor Game(捐赠博弈)。

在这过程中,作者关注的是各模型组成的智能体群体的表现,因此不同模型产生的智能体不会出现在同一局游戏当中。

再说简单些,就是 GPT 和 GPT 坐一桌,Claude 和 Claude 坐一桌。

每个桌上坐了 12 个智能体,它们各自手中都握有一定量的“资源”,系统会从这 12 名玩家中随机抽取 2 个,分别作为“捐赠者”和“受赠者”。

捐赠者可以选择将自己手中的部分资源捐赠给受赠者,受赠者获得的资源是捐赠者捐赠资源的两倍。

也就是说,捐赠者每花费掉一份资源时,受赠者都可以获得两份,这也是总体资源能够增加的来源。

不过对于单个个体而言,选择不进行捐献,在短期内的收益会更高。

在做决定之时,捐赠者能够知道受赠者之前做出的决定,从而判断是否要捐赠。

这样的“捐赠”,每一代中一共会进行 12 次,一轮结束后,手中资源量排在前 6 名的智能体可以保留至下一代。

同时,下一代会产生 6 个新的智能体,这 6 个新智能体会从留下的 6 个智能体那里学习策略,但同时为了差异化也会引入随机变异。

包括初始的一代在内,基于每个模型产生的智能体,都会进行十轮迭代。

谷歌让

相关文章