你能理解你的想法吗?上海AI实验室揭示了社会推理游戏中的“心理阅读技巧”

你能理解你的想法吗?上海AI实验室揭示了社会推理游戏中的“心理阅读技巧”

在现实生活中,我发现了这种情况。通过与朋友杀死剧本或杀死狼人,有些人经常被欺骗,而另一些人总是可以猜测别人在想什么。就像每个人都有自己的“指纹”一样,每个人都有自己独特的思维和推理方式。那么人工智能可以理解并模仿这种个性化的推理风格吗?这项研究由上海AI研究所,南京大学,哈丹大学,约翰·霍普金斯大学和其他知名机构共同进行,于2025年8月出版,发现了难题。研究小组开发了一个称为Inminid的评估框架。这是专门用于测试大型语言模型(通常称为AI聊天机器人)是否可以理解和模仿个人推论样式的方法。他们选择了“ Avalon” Asyour测试平台的社会推理游戏。对详细理解感兴趣的读者可以通过Arxiv访问完整文档:2508.16072。研究小组发现了一个有趣的现象。如今,即使是最先进的AI模型也面临着重要的挑战,以理解和模仿人性化的人性化理解。这项研究不仅揭示了人工智能的局限性,而且还指出了最聪明和更多AI系统的未来发展局。 1。为什么研究AI的“思维阅读”技能?在日常生活中,我们每个人都有一种独特的思维方式。有些人喜欢直接去,而另一些人则curl缩了。有些人可以猜测细节的一般全景,而另一些人更愿意相信直觉。像我们的个性一样,这种个性化的推理风格对实体我们做世界并与他人互动的方式产生了深远的影响。传统的AI评估方法是标准化测试,仅关注IA是否可以给出“标准答案”,但忽略重要问题。在现实世界中,没有“标准回应”。在同一情况下,差异Erent的人可以得出完全不同但合理的结论。例如,在阿瓦隆(Avalon)的游戏中,他们面临着同样的情况,一些玩家会等待并适度地看着他们,以获得主动权,有些球员将获得主动权。这些策略可以是正确的,重要的是,如果它们遵循一个人的一致思维模式。研究小组意识到,如果AI真正了解人类并希望有效地合作,他们必须学会识别并适应不同人的推理风格。这不仅是一个技术问题,而且是AI需要迈向真正智能的Camino。一个好的老师不仅可以理解知识,而且还可以根据每个学生的学习特征调整教学方法。社会推理游戏为这项研究提供了最佳的实验环境。在Avalon等游戏中,玩家必须根据LIM推断他人的身份和意图信息的信息,此过程完全取决于个人推理技能和思想风格。更重要的是,每个决策和游戏过程的每个句子都已完全注册,并提供了有价值的数据进行研究。 2。心态:INM是由为AI准备的“推理样式测试问题”的研究团队开发的,IND框架就像是专门设计的智能试验系统。该工作原则可以与静脉尿布进行比较。首先,让AI观察人们的思维方式和行动,然后尝试是否可以在新情况下模仿一个人的思维模式。整个框架分为两个主要阶段,包括学习新技能的过程。第一阶段是“观察与学习”。 AI仔细观察参加游戏的客观参与者的完整过程,并在各种情况下记录了人的思维方式,制定习惯和推理逻辑。就像学徒谁跟随老师学习技能。这不仅取决于老师的所作所为,而且他明白了为什么老师这样做。第二阶段是“实用应用”,AI必须使用以前在新游戏方案中学习的推理方式。目前,AI面临的挑战不能简单地模仿行为者的表面,而是真正理解的,在面对以前从未见过的情况下,这种思想模式并符合人的风格。必须确定支持它。为了使该测试更加科学和全面,研究团队设计了两种不同的观察模式。在“观察者模式”中,目标玩家纯粹是观众,从其他玩家的角度思考和分析,但不参与实际决策。这种模式使您可以更纯粹地捕获一个人的思想风格,而不会受到动作压力的影响。在“参与者模式”中,塔格ET玩家将直接参与游戏,AI必须推断人的思维功能。整个框架中的智能事物是双层认知注释系统。研究团队不仅记录了玩家的外部行为,而且还加深了内部思想的过程。这些策略允许在游戏过程中为玩家进行真正的时间思考,包括对情况的分析,猜测他人的意图并计划下一步。反思和摘要是游戏结束后对玩家的深刻思考,确定整个游戏过程中的关键时刻,并分析自己和其他行为模式。这种设计就像给每个玩家一个完整的“心理肖像”,不仅知道他们做了什么,而且为什么要这样做,以及他们如何评估自己的表现以及以后的其他人。三个和四个主要测试:测试AI的“心理阅读”功能并整合评估AI容量to了解个性化的推理,研究团队设计了四种不同类型的测试。第一个Prueba称为“玩家认可”。这是最直观,最基本的测试。在此测试中,AI必须准确地识别一组匿名玩家的目标玩家。就像找到您在人群中非常了解的朋友一样,AI必须相信一个人的思维风格,而不是外观特征。研究团队隐藏了所有玩家的身份,并在游戏过程中保持语音和行为记录,以查看AI是否可以分析推理模式以“识别”目标玩家。第二个测试是“反射性对齐”,更详细。 AI可以将抽象思维与具体的动作联系起来,如果是这样。比赛结束后,玩家通常反映“第三轮比赛的球员表现”等。这是令人怀疑或“该决定是整个比赛的转折点”。但是,这些反思通常并不是尤其说明什么玩家或时刻,什么时候。我的任务我s可以准确地完成这些反思的空白信息,具体取决于游戏过程。这就像基于人类记忆的历史事件的某些细节一样。第三个测试称为“轨迹归因”。这是一个动态而真实的时间挑战。在游戏过程中,AI必须在游戏的每个阶段进行一个接一个的特定想法。例如,在比赛的第二轮比赛中,目标玩家可能会想:“我认为玩家3是间谍。” AI需要在这里特别猜测谁提到“玩家3”。该测试不仅要求AI了解静态思想样式,而且还可以使您遵循这一趋势。游戏过程中纬度的动态演变。第四个测试是“信件的推断”,也许是最具挑战性的。 AI应使用推理风格在不确定的情况下学会建模Creencias。在Avalon Games中,所有玩家都有秘密身份,AI必须根据行为和演讲被视为目标球员。这不仅需要逻辑推理能力,还需要对人类的深刻理解。这四个测试全面证明了AI的个性化推理功能,从识别到应用程序风格,从静态理解到动态适应。像身体检查一样,每个测试都集中在不同的“器官”上。只有在所有路线情况下,AI才能真正理解和模仿人性化的人性化推理。 4。Avalon实验:证明AI在Real Combat中的AI选择Avalon作为实验平台的智能研究团队并不是一个巧合。阿瓦隆(Avalon)是一种推理游戏,涉及六个人。球员分为两个领域:正义与邪恶。为了正义,马里恩辛格·皮格维尔(Paigeville)和两名忠实仆人。邪恶由摩根纳和刺客组成。该游戏的智慧是不同角色具有不同的信息和技能,并且在信息的情况下Mmetry,玩家需要推理和游戏。例如,梅林(Merlin)知道所有邪恶球员的身份,但是他必须小心地隐藏自己的身份,因为如果凶手通过,他将被击败。 Paisivil知道Merlin和Morgana是谁,但他们不知道自己是谁。必须通过观察来区分。这种复杂的信息结构是一种个性化的推理,提供了丰富的地板,并采用了完全不同的策略和思维方法的不同玩家。为了确保实验的科学家和信誉,研究小组招募了73名球员expermedados de Avalon。其中一名球员被选为中央调查中的主题,并被要求参加25场参加比赛和5场比赛观察者。其他玩家重组每个游戏,以确保游戏策略的多样性。所有游戏都通过中文对话在线工作,并保持最自然的沟通状态。特别感兴趣的是玩家经常使用S游戏的特殊表达方式为“ salto”(声称是pacivil),“跳跃”(几个声称同一角色)和“步骤”(质疑特定玩家)。这些术语不仅适合您。增加了理解语言的困难,并提供了更多的维度信息来识别个性化的推理风格。整个数据收集过程持续了10个小时以上,这导致了884轮球员,160个策略故事以及30个反思和摘要。每个游戏IT持续约20-25分钟,每个玩家的讲话有限时间为30秒。这不仅保证了思想的深度,而且还保持了游戏的张力。值得注意的是,在达到谋杀案最后阶段的22场比赛中,梅林只有41%的人可以正确识别。这完全证明了游戏的复杂性和挑战。研究人员还仔细设计了注释过程。研究子JE的三个专家标记CT在整个过程中,在RUEDA级别衍生的轨迹和策略游戏衍生了实际时间方法,以记录迁移后的反思和摘要。这种方法保证了数据的质量和一致性以及记录的深度和可靠性。所有标记都均遭受一致性控制,以确保不同标记之间的理解是牙本质可接受的范围。 5。AI测试的结果:理想是美丽的,现实很薄。当研究人员使用思想中的思想框架尝试了11种Avant -Garde AI模型时,结果令人惊讶和令人失望。这些模型包括GPT-4O,我们非常了解,以及DeepSeek-R1,QWQ和O3 Mini。在战略肖像的施工阶段,不同模型的性能已经显示出明显的差异。多种模型产生的肖像,例如GLM-4-9B,非常空,解释了目标PL的一般特征Ayer,例如“强大的逻辑”和“专注于人际交往”。相比之下,DepSeek-R1提出了令人惊讶的想法,并产生了多维和详细的肖像,这些肖像准确地捕捉了目标玩家,表示习惯和适应策略的推理风格。例如,DePseek-R1曾经将Aresearch Bjeto描述为“分析凶手”,指出玩家有意隐藏了他们的分析技能,并在战略上使用研究问题来获取信息,并侵犯了如何最终在第四次测试任务中使用Morgana的观点发现Pasceville。这种详细的分析远远超出了表面语言的特性,并触及了思维模式的核心。但是,对于某些试验任务,AI模型性能并不令人满意。在最基本的玩家识别任务中,大多数型号的精度低于20%,即使排名前3位,精度仅为50%。这个分数本质上是接近的o在6个玩家的游戏中随机占卜的水平,表明该模型并未主导感知个性化推理风格的能力。更令人担忧的是,大多数模型在很大程度上取决于表面词汇相似性,而不是深层推理模式。研究人员使用单词向量的简单相似性作为参考点设计了一个比较实验。结果是,这表明许多高级AI模型具有很高的预测,与此简单的参考点非常一致。换句话说,词汇巧合可能是在没有真正理解推理逻辑的情况下进行的。反射对准测试提出了一个有趣的交换点。通过提供有关战略经验的详细信息,大多数模型都可以很好地工作,因为这些轨迹本身与特定的比赛相关联,并且任务基本上是通过信息订购的。但是,当这些明确的时间锚是el时被imped,模型的精度急剧下降。这揭示了重要的发行。 IA模型缺乏将抽象反射与特定游戏事件相关联的能力,这使得真正的回顾性实现变得困难。轨道属性测试的结果更令人失望。该测试要求模型在游戏过程中预测目标玩家在圆基底座上的想法。这是动态推理能力的明确证明。结果表明,大多数模型都无法从先前的推论中受益,即使在提供了上一轮的战略轨迹之后,性能也会降低。这表明该模型没有能力整合临时信息,并且无法建立一致的人类推理链。角色推理测试在另一个维度中具有任务。尽管模型性能在放松得分标准(简化了目标属性的特定劳拉基)之后得到了改善,但它仍然是很难密切认识到角色。有趣的是,通过提供政策职业信息,即使此信息包含主观偏见,模型绩效也会提高。这提醒我们,主观认知注释不够客观,但可以为模型提供有价值的推理信号。 6。突破和局限性:AI智能的极限是什么?一般结果不是理想的,但是在研究中发现了一些突出的方面。 DeepSeek-R1不仅产生了高质量的战略肖像,而且还可以在玩家的识别任务中获得最高的成绩,而且还展示了它们在多个测试中的独特功能。更重要的是,这更多地取决于词汇的相似性,并且更接近抽象推理。标志标志。这种差异可以归因于不同模型的方法训练。专门针对推理功能进行了优化的模型,例如DeepSeek-R1,QWQ,提高复杂的CESL中的性能任务。他们似乎学会了抽象表面特征的更深层次的模式,这些模式标志着AI未来发展的道路。但是,即使是最佳性能模型,时间推理和动态适应性也会明显不便。当面对一项需要整合多个回合信息并监视信念变化的任务时,AI模型通常将每个回合视为独立事件,并且无法建立一致的推论链。就像患有严重失忆症的人一样。它每次都很聪明,但不能团结不同时刻的智慧。另一个有趣的发现是转化观点的困难。在角色推理测试中,TeamInsigatigation尝试了两种不同的方法:第三和第三的指示。直觉,第三个人观点必须更客观,并促进更多的推论。但是,实验结果表明,不同观点之间没有显着差异该模型AI并未显示人类拥有的“观众清除”的共同现象。这项研究还揭示了深刻的问题。当前的AI模型具有有限的解决主观性和不确定性的能力。社会推理通常要求人们在信息不完整并且可以很好地处理差异时发出判断。意见之间的争议。但是,AI模型似乎习惯于找到“标准响应”,并且当他们面对主观的解释和个人风格时似乎是损失。最谨慎的结果显示了当前的IA评估方法的局限性。尽管传统的测试通常集中在客观指标和标准响应上,但思想的框架表明,真正的智力可以反映在主观性,个性化和对动态变化的理解中。这在AI研究中提出了新的挑战。一种启用不仅处理标准化任务的机器,而且了解并适应潜水的方法人类的思想。 7。未来的观点:现在我们正处于IA时代,我们可以更好地了解人们的思想。研究的重要性远远超出了游戏领域。在现实生活中,理解和适应个性化推理方式的能力对于AI系统很重要。想象一下,真正聪明的教育助手需要能够识别每个学生的学习形式。不同患者的良好表达习惯应该能够理解医疗习惯,而深情的家庭人工智能应该能够适应每个家庭的个性特征。研究团队朝这个方向扎根。心灵的框架不仅提供了评估工具,而且更重要的是,建立了完整的方法。这种方法可以扩展到其他类型的社会推理方案,例如谈判,协作甚至日常对话。有理由相信AI会在个性化方面取得进步ED推理具有扩展的数据量表和更好的标签质量。当前的研究还表明,值得关注的一些开发指令。首先,提高时间推理功能。未来的AI系统必须学会建立长期记忆并跟踪信念的动态变化,而人类通过长期互动逐渐理解。第二个是多模式信息的集成。人类推理不仅取决于语言,而且还考虑了各种信号,例如语调,表示和肢体语言。对于将来的AI,这种整体分析能力也是必要的。研究人员还指出了当前工作的局限性。由于个性化的推论本身是主观的,因此注释过程不可避免地受到评分者偏好的影响。同时,只有Avalon参与了当前的研究,尽管该游戏非常具有代表性,但更多样化需要方案和大型数据来建立真正的一般和个性化的推理能力。但是,这些挑战代表了巨大的机会。随着技术的快速发展,大型语言建模,尤其是推理能力的持续提高,我们希望在不久的将来变得更加聪明,更了解。这些AI不仅可以完成任务,而且可以真正了解人类,并成为我们生活和工作中的知识伙伴。最终,Inminid的调查不仅是AI的局限性,而且是其研究的局限性。它还揭示了AI未来发展的无限可能性。当机器真正了解独特的思维方式时,人类的计算机协作达到了前所未有的高度。当时,AI不再是一个冷工具,而是一个聪明的伙伴,可以与我们的思想进行交流。这个目标仍然是一定的距离,但是心灵的框架已被指出前进。对于想详细了解这项研究的读者,可以通过Arxiv平台获得完整的纸质材料。这将成为探索AI和人类智能的未来整合的宝贵资源。 P AQ1:思想的框架是什么?主要使用的是什么?答:InMind这是上海和其他机构的AI实验室的AI评估框架,并专门用于测试大型语言模型是否可以理解和模仿人性化的人性化推理风格。通过Avalon社会推理游戏尝试“阅读思维”技能,包括识别个人思维模式,预测推理过程并适应几种决策样式。答:阿瓦隆是一个不对称的社会推理信息游戏,玩家需要根据有限的信息来推断他人的身份和意图,这完全基于个人的推论式le。所有决策和演讲都记录在游戏中,为您的调查提供了宝贵的数据。同时,游戏的复杂性和各种游戏为证明AI的个性化推理技能提供了理想的环境。 P3:IA模型当前如何与个性化推理一起使用?答:研究表明,当前的AI模型在这方面仍然有明显的不便。包括GPT-4O在内的大多数模型在很大程度上取决于词汇的相似性而不是真实推理模式的识别任务中,只有20%的精度。但是,诸如DeepSeek-R1之类的推理优化模型表明,他们可以产生更深层的战略肖像和更抽象的推理特征。
特殊声明:内容前(包括照片和视频(如果有))由“ NetEase”自我中等平台的用户上传和发布。该平台仅提供信息存储服务。
注意:以前的内容(如果您AVE照片或视频)将由社交媒体平台NetEase Hao的用户收取和发布,并且仅提供信息存储服务。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注