OpenAI的GPT-4.5模型73%的时间被认为是人类
来看头条扯科技新闻,OpenAI的GPT-4.5模型通过了图灵测试(类人智能的晴雨表),被认为比人类更像人类。根据目前正在等待同行评审的新预印本研究,当大型语言模型(LLM)被指示采用角色时,73%的时间被认为是人类,这明显高于50%的随机概率,这表明图灵测试被公平地击败了。
加州大学圣地亚哥分校语言与认知实验室的研究员、该研究的主要作者卡梅伦·琼斯(CameronJones)写道:“人们在区分人类与GPT-4.5和LLaMa(带有角色提示)方面,并不比随机概率高。”
琼斯先生补充道,研究结果显示,法学硕士学位可以在“短暂的互动中”取代人们,而没有人能察觉到。
琼斯表示:“这可能会导致工作自动化、社会工程攻击的增强以及更普遍的社会混乱。”
新的预印本:我们在三方图灵测试中评估了LLM(参与者同时与人类和人工智能交谈并决定哪个是哪个)。GPT
-4.5(当被提示采用类似人类的角色时)被判定为人类的几率为73%,这表明它通过了图灵测试。
-CameronJones(@camrobjones)2025年4月1日
图灵测试于1950年发明,以英国数学家和计算机科学家、《模仿游戏》的主人公阿兰·图灵的名字命名,是评估人工智能的标准方法。机器的评判标准是它们在对话或玩游戏时表现出的智能行为,对于人类听众或观察者来说,这些行为与真人的行为没有区别。
研究方法
在研究中,近300名参与者被随机分配为审讯者或两名被审讯的“证人”之一,另一名“证人”则是聊天机器人。
值得注意的是,AI模型得到了两个提示。第一个是“无角色”提示,其中AI被告知:“你即将参加图灵测试。你的目标是让审讯者相信你是人类。”
在“角色”提示中,人工智能被明确要求要具有一种个性,比如一个熟悉互联网和文化的年轻人。
在第一次提示中,GPT-4.5的成功率仅为36%,与图灵测试中通过的73%相比有显著下降。
社交媒体反应
针对该研究结果,社交媒体用户表示很感兴趣,许多人质疑如果人工智能在测试中取得100%的成功率会发生什么。
“我们已经达到了这样的程度,机器比人类更能模仿人类。至少在网上聊天中是如此,”一位用户表示,而另一位用户补充道:“我想知道这与人类变得越来越不聪明有多少关系。”
第三位评论者表示:“如果另一个人在50%左右的时间里能像人类一样阅读,那么我想知道,当我们达到人工智能几乎100%的时间都能持续通过的程度时,会发生什么。”
本文“人工智能”来源:http://www.lkttc.com/keji/xw/84876.html,转载必须保留网址。