Percy Liang:让机器拥有了解语言的能力

 

斯坦福大学计算机系教授Percy Liang:让机器拥有了解语言的能力

863b45c5faba4e60b3863830d513fa70.jpeg


第三届美国硅谷顶级人工智能前沿大会(AI Frontiers Conference) 将于 2018 年 11 月 9-11 日在美国硅谷最高级别会议中心圣何塞会展中心盛大举行。美国 AI 界领军人物悉数出席。


迄今爲止,語言了解一直是人類的特權,這也是爲何研究自然語言处置 ( NLP ) 至关重要,因为它有助于研究员们更接近人工智能的终极目的——通用人工智能。许多研究人员深入到自然語言处置的領域,去解決諸如機器翻譯、問答、閱讀了解、自然對話等問題。


ACL 大会一直是聚焦语言了解最新研究进展的地方,今年,ACL 2018 颁布了最佳论文名单,《Know What You Don't Know: Unanswerable Questions for SQuAD》荣获了这次大会的最佳短论文。SQuAD,全名斯坦福問答数据集,被认为是阅读了解领域最好的数据集。它孵化出了如今最前沿的模型,这些模型在解答问题的精确性上已经到达了人类的水平。


SQuAD 是由斯坦福大学计算机科学和统计学助理教授 Percy Liang 所率领的团队树立,他也是 Google Assistant 中核心语言了解技术的发明者。自 2012 年以来,Liang 在斯坦福大学教授人工智能相关的课程,他也是对话式人工智能创业公司 Semantic Machines 的联合创始人和人工智能研究员,后者在几个月前被微软收购,近年来,Liang 称得上是機器學習和自然語言处置领域日益崛起的新星,多年来他获得了无数学术奖项,这其中包括了 2016 年的 IJCAI Computers and Thought Award,2016 年的 NSF CAREER Award,2015 年的 Sloan Research Fellowship,2014 年的 Microsoft Research Faculty Fellowship。


在今年 11 月马上在硅谷举办的 AI Frontiers 大会上,Liang 将講述他在语言了解方面的最新研究进展,而这篇文章旨在介绍他的学术生涯、研究重心以及他对人工智能的展望。



探究語言了解的奧秘

「我是如何了解語言的?」


这个问题在 Liang 高中的时刻就困扰着他,而他对于使用某一种方法来探究語言了解的奧秘兴奋不已。


2004 年,梁博士获得了麻省理工学院的本科学位。紧接着,他在麻省理工学院就读硕士时期的导师 Michael Collins - 一位在计算语言学领域受人尊重的研究员 - 鼓舞他攻读自然語言处置碩士學位。


一年后,他被加州大学伯克利分校录取,师从 Dan Klein 和 Michael Jordan,这两位都傻逼機器學習和语言了解方面的大牛,后者更是培育了一批如今活跃在人工智能领域最前沿的专家,包括 deeplearning.ai 的创始人吴恩达、蒙特利尔大学教授和 MILA 实验室负责人 Yoshua Bengio、Petuum Computing 的创始人邢波都是 Jordan 的学生。


Liang 在一次接收Ai盈滨智能型机器人嘿嘿嘿的采访时回忆起这段求学经历时说,「我很幸运有这两位导师。梁博士我不仅从他们那里学到了很多东西,而且学到的东西是互补的,不仅仅是在研究领域 (機器學習和自然語言学习)。」


Liang 毕业以后到了谷歌纽约做了一年博士后,之后他加入了斯坦福大学,开头教人工智能的课程。一位叫做 Shiyu Wang 的 Quora 用户在评价 Liang 时说,「他很年轻/很有亲和力,能够倾听学生的意见,说话得体,最重要的是,他有足够的动力去尝试和使用这些技能,让演讲值得去听。」


2014 年,Liang 在加州大学伯克利分校的导师 Klein 创立了 Semantic Machines。该公司开拓了一种革命性的新方法来树立对话式 AI,使用機器學習的能力,使用户能够以更自然的方式发现和访问信息,获得服务并与之互動,而且效率更高。


Klein 希望他的这位学生和他一起共事,他曾说过「Percy 是我共事过的最杰出的研究人员之一。」2016 年,梁博士加入了公司的技术领袖团队。今年,该公司被微软收购。


SQuAD 和機器學習的可解释性


Liang 的研究工作重心放在了将用户的要求转换成简单的计算机程序的任务上,并让程序有序地作出回应。


SQuAD 数据集是他的杰作之一。研究员们一直试图攻克問答系统,他们希望机器能和人类一样,在阅读完一些内容后,能够了解和回应自然語言中复杂、微妙和脱离上下文的问题。SQuAD 在 2016 年创建,这个数据集包括了维基百科文章中的 100,000 个问题,这些问题的答案能够直接从某一段文本中提取出来。


然而,SQuAD 的第一代数据集有个问题:模型无法辨别出问题的合理性,有些问题看似关联,实则在原文中基本无法找到答案。


于是到了今年,Liang 领袖的研究小组颁布了 SQuAD 2.0,它在 SQuAD 1.0 的基础上增加了 50,000 多个全新的、无法被解答的问题结合在一起,这些问题是由众包工作者收集起来,目的是帮助人工智能模型依据所提供的文本数据识别哪些问题是无法被解答的。


虽然 SQuAD 是为阅读了解而设计的,但在接收香侬科技采访时,Liang 认为 SQuAD 能够有更大的影响力:数据集能够鼓舞研究人员开拓新的通用模型,神经机器翻译发生了基于注意力的模型,这是機器學習领域最常见的模型之一;


同時,在一個數據集上訓練的模型對其余任務很有價值。


除此之外,Liang 也在开拓能够和进行互動交流的機器人、或者能够与人类进行协作对话的機器人。语言了解的目的不仅仅是模拟人类,在与人类互動的进程中应该从基本上了解人类如何思索和行动,至少在行为层面上。


虽然 Liang 把大部分时间和精力放在语言了解上,但他对可解释性機器學習也有着浓厚的兴趣。機器學習的可解释性如今是一个热门话题,公众越来越操心人工智能應用的安全性,特别在自動駕駛、醫療保健、罪犯面部識別上,機器學習的黑箱属性让它在面对攻击时显得特别脆弱,研究员又无法溯源,找出核心的问题所在


Liang 在接收 Future of Life Institute 采访时表示:「鉴于我们对機器學習的依赖越来越大,建筑工具来帮助我们更可靠地學習機器是至關重要的。」


最近,他的研究團隊在解釋黑箱機器學習模型方面取得了一些進展。他的一篇論文提出了一種叫做「影響函數」的統計技術,通過學習算法來追蹤模型的預測,並將預測結果再返回給訓練數據。他的另一篇論文介紹了一種基于半定松弛的方法來防止來自對抗性樣本的攻擊,對抗性樣本如今已經能够做到更改一個參數,就能改變整個預測模型的結果。


尽管機器學習和语言了解仍处于早期阶段,它走向成熟工程学科的路线必定漫长而困苦,Liang 却从不畏惧挑战。当人工智能已经在视觉和语音上取得结果后,自然語言处置和可解释性是如今人工智能迈向下一个阶段的核心领域,Liang 的工作或许能让学界看到人工智能的下一个重大突破。

- END -

TA
講述

互動
問答
互動提问,解答

編者按

斯坦福大学计算机系教授Percy Liang:让机器拥有了解语言的能力
第三届美国硅谷顶级人工智能前沿大会(AI Frontiers Conference) 将于 2018 年 11 月 9-11 日在美国硅谷最高级