百度副总裁王海峰:百度在NLP领域都做了什么?

2017-02-10 09:10:00 作者:佚名 分类 : 人工智能

  大家好,我是来自百度公司的王海峰。

  在百度,基于大数据、机器学习和语言学方面的积累,我们研发了知识图谱,我们分析理解query、篇章及情感,我们构建了问答、机器翻译和对话系统。NLP技术已经应用在百度的众多产品上,比如搜索、Feed、o2o和广告等。

  | 知识图谱

  基于不同的应用需求,我们建立了三类知识图谱,包括实体图谱(entity graph)、关注点图谱(attention graph)和意图图谱(intent graph)。

  在实体图谱里,每一个节点都是一个实体,每个节点都有几个属性,在这个例子中,节点之间的连接是实体之间的关系。目前我们的实体图谱已经包含了数亿实体、数百亿属性和千亿关系,这些都是从大量结构化和非结构化数据挖掘出来的。

  除了实体图谱之外,我们还建立了关注点图谱和意图图谱,稍后我在篇章理解和对话系统的部分将给大家介绍。

  | 语言理解

  -Query理解

  基于实体识别、语法和语义分析等技术,我们研发了query、篇章和观点分析和理解技术。接下来,我将进一步介绍query理解。我们结合“依存句法分析(Dependency Parsing)”和“语义理解(Semantic Understanding)”来实现query理解。

  另外,基于语义理解技术,我们可以理解一个query的语义,实现语义级的搜索而不仅仅是字面匹配。

  我们同样开发了基于深度学习的语义理解技术,实现了一个基于深度学习来计算query和文本语义关联。我们使用了超过1000亿的用户数据来训练模型,对于一个query,包括用户点击过的正例和未点击的负例。我们使用了BOW、CNN和RNN模型来学习语言的语义表示。为了提升模型对语义的表征,我们融合进多种句法和语义结构,将“依存关系结构”融合进模型中。

  应用了深度学习模型之后,搜索结果里的前3个都是相关性的。从2013年开始应用DNN模型至今,我们已经对这个模型进行了几十次的升级迭代,DNN语义特征是百度搜索里非常重要的一个特征。

  篇章理解

  用户获取信息另一个重要渠道就是Feed,里面的资讯是个性化的,这其中,篇章理解技术发挥了重要作用。现在,我来为大家介绍一下我们在篇章理解方面的一些工作。

  我们给文档打上各种各样的标签,包括:主题、话题和实体标签。主题标签表示抽象的概念,话题标签表示具体发生的事件,实体标签表示人、地点等实体信息。这些标签,从不同角度描述一个文档的内容,以满足不同应用需求,并与不同的query相关联。

  融合了话题标签和实体标签,我们形成了关注点标签图谱。这种关注点标签能更好地描述用户与文档之间的关系,因为它能同时对用户和文档进行表征。我们也在不同类型的关注点标签之间建立关系,这样我们可以对用户关注点进行推理和计算。在下图所示例子里,“AI”话题与“科技”、“VR”等话题及“乌镇峰会”等事件关联在一起。

  情感分析是篇章理解里另一个有趣的话题。情感分析技术也被称为“观点挖掘”(opinion mining),用来分析人类对各种对象(比如产品、组织机构等)的观点、情感和情绪。下面是我们在“观点挖掘”和“观点摘要”方面的一些工作。以“酒店评价”为例子,我们从已有的在线评论数据中抽取评论句,并进而从中提取用户观点。基于这些观点,我们可以生成标签级的观点摘要和句子级的观点摘要。我们也可以以此为基础来进行酒店推荐。

  | 语言生成

  -自动新闻写作

  自动新闻写作,即从结构化和非结构化数据里生成新闻文章。这里面共涉及四个步骤:

  数据分析(data analysis):确定要生成文章所需包含的关键信息

  文章规划(document planning):确定生成文章的内容和结构

  微观规划(micro-planning):生成单词、语句、段落和标题

  文章实现(surface realization):生成最终的文章内容

  AI 篮球解说员

  我们的AI解说系统,可以像人类解说员一样,生成一场比赛的实时解说并与观众互动。这里面的实现主要包括四个步骤:

  信息搜集(information gathering):从网上实时收集和提取比赛的关键信息

  生成结构化数据(structured data generation):基于不同消息源的比赛信息,生成结构化解说数据

  比赛场景推理(game scene inference):基于比赛数据(比如得分和统计),推断出现场比赛场景

  生成直播解说(live commentary generation):基于解说模型,生成直播解说

  诗歌生成

  语言生成技术还可以应用在另一个方面:中国诗歌生成,而且文采并不比一般诗人差。中国诗歌有超过两千年的历史,是中国文化重要的组成部分,但对普通人来说,作诗还是很有难度的。

  我们提出了两步生成中国诗歌的方法:首先对每一行诗的主题进行规划,然后进行具体诗句的生成。

  举个例子,如果用户想要写一首和春天有关的诗,那么诗歌规划模型就会首先生成一个内容概要,包括春天,桃花,燕和柳这四个主题,然后由RNN模型根据这四个主题生成四句诗,来完成整首诗歌的创作。

  文本摘要

  另外,我们还研发了文本摘要技术。具体来说,包括一般的文摘(general summarization)和基于query的文摘(query summarization)如下表中展示的具体过程:

  文本分析(document analysis):分析文本结构

  句子排序(sentence ranking):通过句子的表层含义和深层含义来实现对句子的排序

  句子选择(sentence selection):从句子重要性、句子间是否连贯,以及去除冗余等角度来考虑如何选择文摘中的句子。

  生成文摘(generation):把选定的句子进行压缩,并整合成最终的结果

  一般文摘和基于query的文摘这两种技术的不同之处在于“句子排序”环节。在基于query的文摘里,我们对query的特征进行计算,以使得最终文摘体现出与query的相关性。

  | 自然语言处理应用系统

  下面介绍三种自然语言处理的应用系统:问答、机器翻译和对话系统。

  问答

  当用户在提出问题时,系统可基于知识图谱加以回答。

  比如,当用户在搜索框内输入“珠穆朗玛峰高度”时,网页就会出现有关珠穆朗玛峰的图片和其高度说明;用户也可以输入“琅琊榜演员表”,那么百度搜索网页上就会直接出现《琅琊榜》的演员表及其照片。

  除了基于知识图谱的问答,我们还设计了一种基于网络的深度问答系统。该系统对网页搜索结果中的内容进行分析,并识别用户问题中的关键词。然后系统会从网页中分析出和问题相关的文档,从中抽取出问题的答案,并展现在搜索结果页的最上方。

  比如,用户可以搜索“糖尿病患者应该吃什么”,那么系统则会回答“饮食建议、饮食禁忌”等内容。这些信息来自于网上的医疗领域数据,经过信息挖掘和匹配,生成答案呈现在用户面前。

  机器翻译

  如今,基于神经网络的机器翻译十分火热,不过,传统的机器翻译方法仍有价值。所以,我们的系统结合了新旧四种方法:

  神经网络机器翻译(neural MT)

  基于规则的机器翻译(rule-based MT)

  基于实例的机器翻译(example-based MT)

  基于统计的机器翻译(statistical MT)

  2015年5月,百度将神经网络机器翻译技术应用到百度在线翻译服务中,推出了全球首个基于深度学习的大规模在线翻译系统。同年,百度还在百度翻译app中上线了离线翻译功能,让用户在没有网络连接的情况下也可以使用翻译服务。

  目前,百度翻译已可支持全球28国语言、756个翻译方向之间的互译,每日翻译次数达1亿以上。

  不仅如此,我们还提供多样化的功能以满足用户的不同需求——除了文字翻译,百度翻译还能进行语音翻译以及利用OCR技术进行图片内容翻译。所以,以后到国外旅行就不用担心语言不通这个问题了。去餐馆吃饭时,只要用手机照一下菜单,立刻就能将其翻译成你所需要的语言。

  同时,我们已经为超过2万个企业和开发者提供百度翻译API,让他们提升自己的产品功能,为用户提供更优质的服务。

  另外,我们还把百度翻译和百度搜索引擎结合在一起——当用户在搜索框内输入外语时,百度搜索引擎会自动识别出翻译需求并将翻译结果显示在搜索结果最上方。

  在2015年的ACL会议上上,百度的智能机器人“小度”还担任了ACL终身成就奖获得者李生教授的同声传译。在问答环节,小度将现场观众提问的英文问题立刻翻译成中文,然后将李教授的中文回答翻译成英文呈现给观众。现场观众(大部分是自然语言处理方面的专家学者)对小度的表现大为赞叹,并对机器翻译目前的成就感到欣喜。

  对话系统

  接下来,我会介绍百度的对话系统。该对话系统能与用户进行多轮交互(multi-turn interaction)。首先,用户的输入经过自然语言理解(NLU)模块,进入对话管理系统。该系统识别出当前的对话状态(dialogue state),并确定下一步的对话行为(dialogue action)。我们的对话策略( policy) 模块,包含通用模型和领域模型,即前者负责处理通用的交互逻辑,后者则处理特定领域的交互逻辑。最后,该系统会为用户生成交互回复。

  接下来我要谈一谈我们的意图图谱技术。与我之前讲过的实体图谱不同,意图图谱的节点代表一个个意图节点。这些“意图”之间的关系包括需求澄清(disambiguation)、需求细化(depth extension)、需求横向延展(breadth extension )等。

  以上,我介绍了百度在NLP领域的诸多工作,包括知识图谱、语言理解、语言生成和几个

  应用系统(包括问答、机器翻译和对话),我们已经将这些技术应用在百度的产品当中,另外我们也通过平台化的方式对更多产品进行支持,比如我们开发的NLPC(NLP Cloud)平台,现在已经可以提供20多种NLP模块,每天被调用超过1000亿次。

相关推荐

最近更新
科普

邮件订阅

软件信息化周刊
比特软件信息化周刊提供以数据库、操作系统和管理软件为重点的全面软件信息化产业热点、应用方案推荐、实用技巧分享等。以最新的软件资讯,最新的软件技巧,最新的软件与服务业内动态来为IT用户找到软捷径。
商务办公周刊
比特商务周刊是一个及行业资讯、深度分析、企业导购等为一体的综合性周刊。其中,与中国计量科学研究院合力打造的比特实验室可以为商业用户提供最权威的采购指南。是企业用户不可缺少的智选周刊!
网络周刊
比特网络周刊向企业网管员以及网络技术和产品使用者提供关于网络产业动态、技术热点、组网、建网、网络管理、网络运维等最新技术和实用技巧,帮助网管答疑解惑,成为网管好帮手。
服务器周刊
比特服务器周刊作为比特网的重点频道之一,主要关注x86服务器,RISC架构服务器以及高性能计算机行业的产品及发展动态。通过最独到的编辑观点和业界动态分析,让您第一时间了解服务器行业的趋势。
存储周刊
比特存储周刊长期以来,为读者提供企业存储领域高质量的原创内容,及时、全面的资讯、技术、方案以及案例文章,力求成为业界领先的存储媒体。比特存储周刊始终致力于用户的企业信息化建设、存储业务、数据保护与容灾构建以及数据管理部署等方面服务。
安全周刊
比特安全周刊通过专业的信息安全内容建设,为企业级用户打造最具商业价值的信息沟通平台,并为安全厂商提供多层面、多维度的媒体宣传手段。与其他同类网站信息安全内容相比,比特安全周刊运作模式更加独立,对信息安全界的动态新闻更新更快。
新闻中心热点推荐
新闻中心以独特视角精选一周内最具影响力的行业重大事件或圈内精彩故事,为企业级用户打造重点突出,可读性强,商业价值高的信息共享平台;同时为互联网、IT业界及通信厂商提供一条精准快捷,渗透力强,覆盖面广的媒体传播途径。
云计算周刊
比特云计算周刊关注云计算产业热点技术应用与趋势发展,全方位报道云计算领域最新动态。为用户与企业架设起沟通交流平台。包括IaaS、PaaS、SaaS各种不同的服务类型以及相关的安全与管理内容介绍。
CIO俱乐部周刊
比特CIO俱乐部周刊以大量高端CIO沙龙或专题研讨会以及对明星CIO的深入采访为依托,汇聚中国500强CIO的集体智慧。旨为中国杰出的CIO提供一个良好的互融互通 、促进交流的平台,并持续提供丰富的资讯和服务,探讨信息化建设,推动中国信息化发展引领CIO未来职业发展。
IT专家网
IT专家新闻邮件长期以来,以定向、分众、整合的商业模式,为企业IT专业人士以及IT系统采购决策者提供高质量的原创内容,包括IT新闻、评论、专家答疑、技巧和白皮书。此外,IT专家网还为读者提供包括咨询、社区、论坛、线下会议、读者沙龙等多种服务。
X周刊
X周刊是一份IT人的技术娱乐周刊,给用户实时传递I最新T资讯、IT段子、技术技巧、畅销书籍,同时用户还能参与我们推荐的互动游戏,给广大的IT技术人士忙碌工作之余带来轻松休闲一刻。