清晨好,您是今天最早来到科研通的研友!由于当前在线用户较少,发布求助请尽量完整的填写文献信息,科研通机器人24小时在线,伴您科研之路漫漫前行!

Evaluating large language models in theory of mind tasks

错误的信仰 心理理论 定制 任务(项目管理) 推论 认知心理学 理解力 计算机科学 生成语法 心理学 人工智能 认知 神经科学 管理 政治学 法学 经济 程序设计语言
作者
Michał Kosiński
出处
期刊:Proceedings of the National Academy of Sciences of the United States of America [National Academy of Sciences]
卷期号:121 (45) 被引量:16
标识
DOI:10.1073/pnas.2405460121
摘要

Eleven large language models (LLMs) were assessed using 40 bespoke false-belief tasks, considered a gold standard in testing theory of mind (ToM) in humans. Each task included a false-belief scenario, three closely matched true-belief control scenarios, and the reversed versions of all four. An LLM had to solve all eight scenarios to solve a single task. Older models solved no tasks; Generative Pre-trained Transformer (GPT)-3-davinci-003 (from November 2022) and ChatGPT-3.5-turbo (from March 2023) solved 20% of the tasks; ChatGPT-4 (from June 2023) solved 75% of the tasks, matching the performance of 6-y-old children observed in past studies. We explore the potential interpretation of these results, including the intriguing possibility that ToM-like ability, previously considered unique to humans, may have emerged as an unintended by-product of LLMs' improving language skills. Regardless of how we interpret these outcomes, they signify the advent of more powerful and socially skilled AI-with profound positive and negative implications.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
侯天宇完成签到,获得积分10
15秒前
侯天宇发布了新的文献求助10
36秒前
奋斗的宛白完成签到 ,获得积分10
41秒前
ming123ah完成签到,获得积分10
44秒前
山城完成签到 ,获得积分10
57秒前
CoCo完成签到 ,获得积分10
1分钟前
一程完成签到 ,获得积分10
1分钟前
1分钟前
EIiyah发布了新的文献求助10
1分钟前
陶醉的烤鸡应助HS采纳,获得10
2分钟前
慕青应助科研通管家采纳,获得10
2分钟前
科研通AI5应助科研通管家采纳,获得10
2分钟前
华仔应助jerry采纳,获得10
2分钟前
HUI完成签到,获得积分10
3分钟前
大熊完成签到 ,获得积分10
3分钟前
4分钟前
传奇3应助科研通管家采纳,获得10
4分钟前
TongKY完成签到 ,获得积分10
5分钟前
小白菜完成签到 ,获得积分10
5分钟前
7分钟前
7分钟前
曙光完成签到,获得积分10
8分钟前
iwsaml完成签到,获得积分10
8分钟前
8分钟前
Peppermint完成签到,获得积分10
8分钟前
10分钟前
jerry发布了新的文献求助10
10分钟前
jerry完成签到,获得积分10
10分钟前
10分钟前
顾矜应助正直涔雨采纳,获得10
10分钟前
迷茫的一代完成签到,获得积分10
11分钟前
11分钟前
11分钟前
2534165发布了新的文献求助30
11分钟前
正直涔雨发布了新的文献求助10
11分钟前
11分钟前
正直涔雨完成签到,获得积分20
11分钟前
爱心完成签到 ,获得积分0
11分钟前
souther完成签到,获得积分0
12分钟前
12分钟前
高分求助中
Production Logging: Theoretical and Interpretive Elements 2700
Neuromuscular and Electrodiagnostic Medicine Board Review 1000
Walter Gilbert: Selected Works 500
An Annotated Checklist of Dinosaur Species by Continent 500
岡本唐貴自伝的回想画集 500
Distinct Aggregation Behaviors and Rheological Responses of Two Terminally Functionalized Polyisoprenes with Different Quadruple Hydrogen Bonding Motifs 450
彭城银.延安时期中国共产党对外传播研究--以新华社为例[D].2024 400
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 物理 生物化学 纳米技术 计算机科学 化学工程 内科学 复合材料 物理化学 电极 遗传学 量子力学 基因 冶金 催化作用
热门帖子
关注 科研通微信公众号,转发送积分 3655730
求助须知:如何正确求助?哪些是违规求助? 3218580
关于积分的说明 9724499
捐赠科研通 2927071
什么是DOI,文献DOI怎么找? 1603013
邀请新用户注册赠送积分活动 755904
科研通“疑难数据库(出版商)”最低求助积分说明 733617