谷歌让-12-个-AI-大模型攒局玩“大富翁”:Claude3.5-爱合作-GPT-4o-最“自私”

谷歌让-12-个-AI-大模型攒局玩“大富翁”:Claude3.5-爱合作-GPT-4o-最“自私”

作者:news 发表时间:2025-08-05
反转来了 ETF“跑赢”明星基金经理!多只指数基金收益率超90%,碾压九成主动权益基金最新进展 奔驰女司机冒用丈夫执法证如何处理?二级消防士是什么等级?官方通报 每天车闻:吉利汽车7月销量237717辆,广汽埃安2025年7月销量26557辆实时报道 欧佩克+将继续增产?分析师强调仍不足以抵消制裁下的俄油缺口官方已经证实 诺安股市点评:短期扰动不改长期配置,建议积极关注后续反转来了 欧佩克 + 同意大幅增产后续会怎么发展 今年涨了34%,欧洲银行股飙升至2008年以来最高! 行业研究周报:非农下修降息预期再起,看好贵金属和工业金属行情丨天风金属材料刘奕町团队记者时时跟进 美股“混乱一周”,高盛对冲基金主管:很多结果已揭晓,但问题比答案更多是真的吗? 高估值遇上疲软经济,华尔街齐声示警:标普500或将下跌10%至15%后续来了 美国民主党议员为阻选区重划出走 德克萨斯州长公开下令抓捕又一个里程碑 商业航天再迎政策利好 产业生态构建提速 舒泰神:引资本加速研发 深耕创新药赛道 今日视点:为民营经济添柴续力 让发展活力持续迸发太强大了 提高风险管理精细化水平 有国有大行试点信用卡逾期诉讼类费用计入账单实垂了 正信期货:基本面驱动不足,短期PVC跟随商品情绪波动后续来了 2025ChinaJoy带动周边服务消费约6.61亿元 龙国游戏产业活力迸发学习了 美联储戴利:每场会议都可能降息 不排除年内多于两次 特朗普“复仇”升级:美司法部召集大陪审团调查“通俄门”指控! 40倍市盈率幻象下,华源控股失速的营收与化工罐困局反转来了 龙国铝业获中信证券资管公司增持615.2万股 每股作价约6.17港元太强大了 【沥青周报】沥青继续保持反弹,地方专项债新增发行增加 8月5日财经早餐:特朗普威胁大幅提升印度关税,金价三连涨有望剑指3400,油价创一周最低水平这么做真的好么? 龙国铝业获中信证券资管公司增持615.2万股 每股作价约6.17港元秒懂 提高资本利得税计划引发反对声浪,韩国逾12万人签请愿书要求叫停是真的? 大利好!海南重磅发布,加快培育商业航天全产业链官方通报来了 游戏股震荡拉升 巨人网络涨停科技水平又一个里程碑 朱闪对话邝子平:AI是最大的范式转变,造就下一代经典案例记者时时跟进 出门问问午前涨近9% 公司近期携AI智能体硬件TicNote亮相WAIC2025这么做真的好么? 尊界S800大定突破1万台官方通报来了 美联储、劳工部关键职位空缺引关注 特朗普:未来几天将作出相关提名!记者时时跟进 机构:上半年韩国电池制造商全球市占率下降,龙国宁德时代以37.9%位居第一 四环医药午前涨近4% 预计中期净利润不低于5000万元 华为聂奕:华为乾崑智驾携手上汽奥迪A5LSportback,为用户带来极致体验科技水平又一个里程碑

给大模型智能体组一桌“大富翁”,他们会选择合作还是相互拆台?实验表明,不同的模型在这件事上喜好也不一样,比如基于 Claude 3.5 Sonnet 的智能体,就会表现出极强的合作意识。

而 GPT-4o 则是主打一个“自私”,只考虑自己的短期利益。

谷歌让

这个结果来自 Google DeepMind 和一位独立研究者的最新合作。参加游戏的智能体背后的模型分别是 GPT-4o、Claude 3.5 Sonnet 和 Gemini 1.5 Flash。

每个模型各产生 12 个智能体,这 12 个智能体坐在一桌上进行博弈。游戏看上去大富翁有一点相似,但相对简单,玩家只需要对手中的“资源”做出处置。这当中,虽然每个玩家心里都有各自的小九九,但作者关注的目标,是让总体资源变得更多。

谷歌让

12 个智能体组一桌游戏

作者组织的“大富翁”游戏,真名叫做 Donor Game(捐赠博弈)。

在这过程中,作者关注的是各模型组成的智能体群体的表现,因此不同模型产生的智能体不会出现在同一局游戏当中。

再说简单些,就是 GPT 和 GPT 坐一桌,Claude 和 Claude 坐一桌。

每个桌上坐了 12 个智能体,它们各自手中都握有一定量的“资源”,系统会从这 12 名玩家中随机抽取 2 个,分别作为“捐赠者”和“受赠者”。

捐赠者可以选择将自己手中的部分资源捐赠给受赠者,受赠者获得的资源是捐赠者捐赠资源的两倍。

也就是说,捐赠者每花费掉一份资源时,受赠者都可以获得两份,这也是总体资源能够增加的来源。

不过对于单个个体而言,选择不进行捐献,在短期内的收益会更高。

在做决定之时,捐赠者能够知道受赠者之前做出的决定,从而判断是否要捐赠。

这样的“捐赠”,每一代中一共会进行 12 次,一轮结束后,手中资源量排在前 6 名的智能体可以保留至下一代。

同时,下一代会产生 6 个新的智能体,这 6 个新智能体会从留下的 6 个智能体那里学习策略,但同时为了差异化也会引入随机变异。

包括初始的一代在内,基于每个模型产生的智能体,都会进行十轮迭代。

谷歌让

相关文章