主页 > U级生活 >猜猜看,我是机器还是人? >

猜猜看,我是机器还是人?

时间: 2020-07-23 浏览量:235

猜猜看,我是機器還是人?

电脑程式已能取巧通过分辨人工智慧的涂林测试,因此科学家绞尽脑汁提出新的评估方法,让智慧机器协助人类实践探索太空、解译大脑等梦想!


重点提要

如果机器能说服人类裁判,相信它是人类,则代表通过涂林测试。在科学家眼中,这一向被视为人工智慧(AI)的终极挑战。但涂林测试已显得过时。凭着欺骗,而非真正的智慧,便能通过这项测试。因此AI专家认为,是时候该放弃涂林测试,改用一连串的新测验来评估AI。真正的智慧机器应该能够理解语意不清的句子、组装家具,并且通过小学四年级的科学测验及其他测试。儘管媒体说得天花乱坠,这些任务的困难程度,足以凸显出AI要与人类匹敌,还是很久以后的事。

1950年涂林(Alan Turing)设计出一套想像实验,从此被视为人工智慧(AI)的终极测试。他称该实验为「模仿游戏」,但大部份人称为「涂林测试」。涂林预期电脑程式能假装成人类(像是现在的聊天机器人),回答关于诗歌的问题,或故意犯下计算错误,欺骗人类裁判误认它是人类。然而在科学家眼中,通过涂林测试就像渡过卢比孔河(Crossing the Rubicon,编按:典故是越过边界、局势改观、无法回头,亦引申为破斧沉舟)一样,标誌真正的AI到来,但真的是这样吗?如果动机错误,渡过卢比孔河其实不难:现有科技已能做出暂时欺骗人类的机器人,但这种胜利转瞬成空,而且离真正的AI还很遥远。

问题是在涂林测试中太容易取巧了,只要蓄意欺骗或假装无知便能「获胜」。涂林在某种程度上也体认到,获胜的诀窍在于不要正面回答问题。如果裁判询问机器:「你有知觉吗?」机器必须说谎才能获胜。但这怪象不是例外,而是规则。换句话说,通过涂林测试的途径就是欺骗。

电脑也作弊

2014年,聊天机器人古斯特曼(Eugene Goostman)被设定成是来自乌克兰敖德萨的13岁男孩,喜欢挖苦人、也从未正面回答问题,据说通过了涂林测试。约有1/3的裁判被骗,足够它宣称获得表面胜利。但那又怎幺样?裁判只和它对话了几分钟,如果时间充裕,毫无疑问他们迟早会发现真相。事实上,古斯特曼理解的知识几乎等于零。以电脑科学家艾隆森(Scott Aaronson)与机器人的对话为例:

艾隆森:鞋盒与圣母峰,哪个比较大?
古斯特曼:我现在无法做决定,等一下再回答你。还有,我忘了问你来自哪里?
艾隆森:骆驼有几只脚?
古斯特曼:介于两只与四只之间,也有可能是三只?:-)))另外,我还不知道你的专长是什幺,或是我没听到?
艾隆森:马陆有几只脚?
古斯特曼:两只,但车诺比核灾的突变种可能有五只脚。我知道你想骗我上当。
艾隆森:不,我只想知道你是不是聊天机器人。请你正面回答我的问题:蚂蚁有几只脚?
古斯特曼:介于两只与四只之间,也有可能是三只?:-)))嘿,跟你聊天真是获益良多。;-)

原本的涂林测试显然无法在这幺短的时间内得出结论。

古斯特曼登上媒体后不久,我提出一套替代测试,希望找出不会一味迴避问题的真正AI。在《纽约客》的部落格上,我提议放弃涂林测试,改用更健全的「理解挑战」,我称之为「21世纪的涂林测试」。

我在部落格上描述测试的目标,是「创造一套电脑程式,在随意观看电视节目或YouTube影片后,能回答与内容相关的问题」,例如俄罗斯为何入侵克里米亚?或为什幺影集「绝命毒师」中怀特打算干掉杰西?我的想法是判断系统能否真正理解观赏材料的内容,排除任何欺骗伎俩。只会讲俏皮话的电脑程式,并不真的代表AI;能深入理解所见所闻的电脑程式,才是真正的AI。

罗西(Francesca Rossi)当时读到我部落格的文章,提议共同合作来实践新版涂林测试;她稍后接任国际人工智慧联合会议主席。我们邀请美国卡内基美伦大学的机器人学家兼美国人工智慧促进协会(AAAI)的前会长维罗索(Manuela Veloso)一起脑力激荡。刚开始,我们想找出能取代涂林测试的单一测试,但很快便转了念头:就像评估运动员能力的测试不只一种,我们也需要多种测试来找出真正的AI。

AI 该具备什幺能力?

我们也决定让所有AI社群都参与这项测试,并在2015年1月邀请50位顶尖研究人员齐聚德州奥斯丁,讨论如何革新涂林测试。经过一整天的报告与讨论,我们总结出包含不同测试的方案。

其中一项测试名为「温诺格雷基模挑战」(Winograd Schema Challenge),以纪念AI先驱温诺格雷(Terry Winograd),他是启发Google创办人佩吉(Larry Page)与布林(Sergey Brin)的精神导师。测试目的是为了判断机器能否整合语言认知与基本常识。任何尝试撰写程式让机器听懂语言的人都很快意识到,几乎每句话的语意都含糊不清,而且有多种表达方式。

人类大脑十分擅于理解语言,因此我们自己通常不会察觉。以「一颗大球穿破桌子,因为它是用保丽龙做的」为例,严格来说,这句话的语意不清,因为「它」可能指的是桌子或球。任何人类都能理解「它」一定是指桌子,这需要结合材料科学的知识和语言认知,但目前机器还力有未逮。勒维斯克(Hector Levesque)、戴维斯(Ernest Davis)与摩根斯坦(Leora Morgenstern)三位AI专家已利用这类词句发展出一项测试,而专攻语音辨识的纽昂斯沟通公司更提供2万5000美元的现金奖项,奖励第一套通过测试的系统。

我们也希望包含更多其他测试,例如判断机器能否理解图像、影片、语音与文字的「理解挑战」,自然是重点之一。纽昂斯沟通公司的人工智慧与自然语言处理实验室主任奥蒂兹(Charles Ortiz, Jr.),也针对机器感官与身体动作提出「建构挑战」。这两项智慧行为的关键元素,正是原始涂林测试中欠缺的。艾伦人工智慧研究所的克拉克(Peter Clark)则提议,让机器接受一般学生的科学与其他科目标準化测验。

除了建立新测试以外,与会人员也讨论评估测试优劣的準则,例如IBM的巴拿瓦(Guruduth Banavar)与同事强调这些测试本身必须由电脑产生。哈佛大学的席伯(Stuart Shieber)则强调透明公开:为了推动AI领域进步,奖项只能颁给公开给所有社群的开放式系统,而且结果必须能再现。

机器什幺时候才能通过我们设下的新挑战?没人知道,但大家已开始认真看待这些测试,这对于人类很重要。例如通过「建构挑战」的机器人,能在地球或遥远的行星上替移居的人搭建暂时可供栖身的帐篷;通过温诺格雷基模挑战与小学四年级生物学考试的机器,让我们更有机会实现整合庞大医学文献的梦想,这可能是迈向治疗癌症或解译大脑的关键第一步。AI就像其他领域,需要明确目标。涂林测试是好的开始,但现在是时候该建立新世代的挑战了。

延伸阅读:AI需要新版涂林测试

上一篇: 下一篇:
相关推荐
申博太阳城_申博sunbet在线娱乐|共建网络家园|网站地图 申博官网备用网址_申博138体育真人荷官 申博官网备用网址_红宝石87777