火狐体育官方网站

火狐体育官方网站入口

联系人:林总

手机:13397081699

地址:青云谱区青云谱农场区华东国际工业博览城12栋C309号、C297号


2022年自然语言处理行业研究报告
产品介绍

  自然语言处理是通过构建算法使计算机自动分析、表征人类自然语言的学科。自然语言处理是计算机理解和生成自然语言的过程,自然语言处理技术使计算机具有识别、分析、理解和生成自然语言文本(包括字、词、句和篇章)的能力。

  自然语言处理机制涉及自然语言理解和自然语言生成两个流程:(1)自然语言理解:计算机理解自然语言文本的思想和意图;(2)自然语言生成:计算机用自然语言文本表述思想和意图。

  自然语言理解和分析是一个层次化过程,从词法分析、句法分析、语义分析到语用语境分析层层递进:(1)词法分析:分析词汇的各个词素,从中获得语言学信息;(2)句法分析:分析句子和短语的结构,识别各词语、短语在句中的作用以及相互间的关系;(3)语义分析:找出词义、结构意义及词与结构结合的意义,确定语言所表达的线)语用语境分析:分析语言所存在的外界环境对语言使用者所产生的影响。

  词法分析的主要任务是词性标注和词义标注。词性是词汇的基本属性,词性标注是在给定句子中判断并标注各词的词性,而兼类词和未登录词的词性复杂难以确定,标注兼类词与未登录词的词性是词法分析的重要任务。词义标注是在具体语境中明确各词的词义,如多义词拥有多种意义,但在具体语境中表达的意义是可确定的。在不同的具体语境中解决多义词的义项问题是词义标注的重点。

  句法分析的基本任务是确定句子的语法结构或句子中词汇间的依存关系,包括确定语言的语法体系,明确符合语法规则的句子的语法结构以及通过分析语言单位内成分间的依存关系推导句子的句法结构。

  语义分析通过建立有效的模型使计算机系统能对各个语言单位(包括词汇、句子和篇章等)进行自动语义分析,从而理解自然语言文本的真实语义。根据理解对象的语言单位不同,可将语义分析分为词汇级语义分析、句子级语义分析以及篇章级语义分析。词汇级语义分析关注如何获取或区别单词的语义,句子级语义分析关注整个句子所表达的语义,篇章级语义分析研究篇章文本的内在结构以及理解篇章文本内语言单元(句子、从句或段落)间的语义关系。

  语用指人对语言的具体运用,自然语言用语与语境、语言使用者的知识涵养、言语行为、想法和表达意图密切相关。语用分析是计算机在情景语境和文化语境中研究分析语言使用者的表达用意。

  随着人工智能的深入发展,自然语言处理需求不断提升,众多类型智能应用需要自然语言处理技术帮助其实现智能化,如(1)文本领域的搜索引擎、信息检索、机器翻译、自动摘要、文本分类、意见挖掘、舆情分析、自动判卷系统、信息过滤和垃圾邮件处理等应用;(2)语音领域的语音助手、智能客服、聊天机器人、自动问答、智能解说和智能远程教学与答疑等应用均需自然语言处理技术理解或生成自然语言。

  自动问答应用涉及自然语言的词法、句法、语义等分析问题,是自然语言理解与生成技术应用的集中体现。自动问答系统能自动回答用户提出的问题,反馈给用户基于自然语言表述的答案,不再是简单的基于关键词匹配排序的文档列表,系统在生成答案的操作中需要正确理解用户所提出的问题,抽取用户问题中的关键信息,进而检索语料库或知识库,将可匹配的最佳答案用自然语言的形式反馈给用户,完成自动问答任务。

  信息检索是计算机自主从文档集合中查找用户所需信息的过程。信息检索系统将信息标引、描述以及组织整理后存在于数据库中,将用户输入的检索关键词与数据库中信息的标引词匹配,实现用户的信息检索要求。信息检索要求计算机理解用户输入的自然语言信息,自动将自然语言信息与数据库中的标引信息进行比对,以达成检索任务。如谷歌搜索引擎可通过理解用户输入的自然语言关键词,反馈给用户一个检索目标页面列表,用户可在列表中选择能够满足自己信息需求的页面加以浏览。因为搜索引擎无法通过简单的关键词表达体会用户真正的查询意图,只能将所有可能满足用户需求的结果集合以列表的形式提供给用户。

  情感分析(意见挖掘),是计算机系统自主对文本的情感倾向(如主观/客观,积极/消极,喜欢/讨厌等)进行挖掘和分析的过程。情感分析能帮助商家自动处理用户评论,将分析过的评论按照排序规则进行展示,帮助商家获得广告营销效果,如淘宝、天猫等电商平台、携程、爱彼迎等旅游住宿平台的商家在评论区可设置自动置顶反映积极情绪的用户评论,置后部分反映负面信息的用户评论,达到吸引用户眼球的效果。商家还可通过分析用户发布的信息了解用户喜好,实现精准营销,如新浪微博上的零售商可根据用户发表的微博,微话题等内容了解用户的个人喜好,为用户定制性的推送优惠及新品信息。

  自然语言处理产业链上游市场主体为基础资源提供商,包括硬件供应商(如芯片供应商、服务器供应商和存储供应商等)和软件供应商(如云服务供应商和数据库供应商等);中游市场由自然语言处理算法供应商、自然语言处理解决方案供应商以及自然语言处理应用供应商组成,负责为下游需求端提供服务;下游市场主体为各类型用户,包括企业用户和个人用户,企业用户涉及金融、医疗、教育、出行服务、互联网服务等领域,个人用户则为最终消费者。

  自然语言处理产业链上游市场由基础资源供应商组成,涉及网络设备、服务器、芯片、存储、云服务、数据库等软、硬件供应商,负责为自然语言处理技术和产品开发商提供必要的资源支持。

  现阶段,行业内尚未出现专门用于自然语言处理运算的芯片,核心数据处理芯片CPU无法执行自然语言处理结构化运算,目前适用于自然语言处理的芯片类型有GPU、FPGA、ASIC和DSP。

  GPU解决浮点运算、数据并行计算问题优势明显,可提供高密度运算能力,解决大量数据元素并行问题。但GPU芯片功耗大,依托于X86架构服务器而运行,成本高昂,不适用于广泛的自然语言处理产品方案的开发,在自然语言处理与传统行业数字化进程结合加深的趋势下,采用GPU作为自然语言处理运算芯片的方案不具备成本优势,小型自然语言处理应用项目负担不起高昂成本。

  FPGA具有可编程性,设计者可根据需要的逻辑功能对FPGA电路进行快速烧录,从而改变其出厂设计,灵活性强。但FPGA的设计布线相对固定,各种型号的FPGA芯片逻辑资源相对固定,选定了型号即决定了芯片的逻辑资源上限,无法随意增加运算能力。

  ASIC芯片的运算能力强、规模量产成本低,全定制设计需要设计者完成所有电路的设计,开发周期长,时间成本高昂,主要适用于量大、对运算能力要求较高、开发周期较长的领域。

  DSP内有控制单元、运算单元、各种寄存器以及存储单元,其外围还可以连接若干存储器和一定数量的外部设备,有软、硬件的全面功能,本身是一个微型计算机,运算能力强、速度快、体积小,而且采用软件编程具有高度的灵活性。但目前DSP的性能并未通过实践验证,也未生产出可以与GPU相匹敌的芯片器件,商业化应用仍在研发过程中。

  为满足自然语言处理等人工智能的发展需求,部分针对深度学习的芯片,如TPU、NPU、DPU和BPU等相继面世,但受场景以及性能限制,专用的人工智能芯片发展尚未成熟。目前自然语言处理运算的最佳芯片方案仍以GPU为主导。

  云服务供应商为自然语言处理研发企业提供基础设施平台,解决自然语言处理技术研发厂商的数据存储、运算以及调用问题。由于性价比、部署方式等因素,自然语言处理研发企业较多选用公有云服务。

  目前,公有云服务供应商有:①通过云服务产业链资源优势拓展至公有云服务行业的企业,如电信运营商,网络设备制造商,IDC厂商等,此类企业拥有较强的资金实力,加上本身处在公有云产业链上游,基础设施方面优势明显;②大型互联网企业,如亚马逊,腾讯、阿里巴巴等,此类企业资金实力雄厚,客户认可度高,设施齐备、技术成熟,具备发展公有云业务的有利条件;③传统的软件企业,如Microsoft、Oracle、金蝶等,此类企业的软件产品的市场认可度高,技术积累丰厚,客户资源丰富,有利于向公有云市场拓展。除此之外,行业中存在不少新兴的创业公司,如青云、Ucloud、七牛云等。

  数据是人工智能发展的基石,海量数据为训练人工智能提供原材料。近年来,由学术及研究机构承担建设的公共数据集不断丰富,数据质量不断提高,利于人工智能企业提高智能模型的准确度。例如,可运用于自然语言处理训练的数据集类型不断丰富,维基百科语料库、斯坦福大学问答数据集、亚马孙美食评论集、康奈尔电影对话语料库、经济新闻相关文章等语言集合相继建成,内容覆盖媒体用语、网络用语、电影用语、政府用语等众多自然语言应用场景,有助于自然语言处理研发企业优化用于处理不同领域自然语言的模型的准确度。

  自然语言处理产业链中游市场主体主要有自然语言处理算法提供商、解决方案提供商以及应用产品开发商。目前中国的自然语言处理厂商较多集研发算法、解决方案以及应用产品功能于一身,厂商自主研发自然语言处理算法,形成一整套自然语言处理关键技术方案,并将自主研发的自然语言处理算法以及技术方案内嵌于自有应用产品体系中,典型代表有百度、阿里巴巴和腾讯。

  百度自然语言处理算法研究覆盖面广,涉及深度问答、阅读理解、智能写作、对话系统、机器翻译、语义计算、语言分析、知识挖掘等自然语言处理细分领域。百度积累了解决问句理解、答案抽取、观点分析与聚合等环节的一整套深度问答技术方案,目前已将该套技术方案应用于百度搜索引擎、百度手机浏览器、百度翻译、百度语音助手、小度机器人等多个产品中。百度在自然语言篇章理解方面,形成篇章结构分析、主体分析、内容标签、情感分析等关键技术,且该类关键技术已在百度搜索、百度信息流、糯米等产品中实现应用。阿里巴巴开展自然语言处理技术研究主要为旗下产品服务,如阿里巴巴在其电商平台中构建知识图谱实现智能导购,对电商用户进行兴趣挖掘实现精准营销,在蚂蚁金融、淘宝卖家等客服场景中实现机器人提供客服服务,在跨境电商业务中采用机器翻译服务进行商家商品信息翻译、广告词翻译以及买家采购需求翻译等。

  自然语言处理产业链下游市场主体为各类型用户,包括企业用户和个人用户。企业用户主要购买行业应用,如智能客服产品、舆情分析产品、文本分类产品等,帮助企业用户提升业务处理的智能化水平。目前的B端市场是自然语言处理厂商竞争的焦点,部分应用产品(如智能客服、舆情分析产品等)尝试了商业化运作,市场反馈良好,但众多细分领域市场发展并未成熟,市场空间仍待挖掘。个人用户主要使用手机语音助手、机器翻译软件、信息检索以及互联网搜索等服务。个人用户使用的自然语言处理技术应用产品较多是自然语言处理厂商免费提供的,自然语言处理厂商普遍未在C端市场开发清晰的商业模式。

  以互联网公司为主,长期投资基础设施和技术,同时以场景应用作为流量入口,积累应用,成为主导的应用平台,将成为人工智能生态构建者(如Google、Amazon、Facebook、阿里云等)。

  关键成功因素:大量计算能力投入,积累海量优质多维度数据,建立算法平台、通用技术平台和应用平台,以场景应用为入口,积累用户。

  以软件公司为主,深耕算法平台和通用技术平台,同时以场景应用作为流量入口,逐渐建立应用平台(如Microsoft、IBMWatson等)。

  关键成功因素:深耕算法和通用技术,建立技术优势,同时以场景应用为入口,积累用户。

  以创业公司和传统行业公司为主,基于场景或行业数据,开发大量细分场景应用。

  关键成功因素:掌握细分市场数据,选择合适的场景构建应用,建立大量多维度的场景应用,抓住用户;同时,与互联网公司合作,有效结合传统商业模式和人工智能。

  以垂直领域先行者为主,在垂直领域依靠杀手级应用(如出行场景应用、面部识别应用等)积累大量用户和数据,并深耕该领域的通用技术和算法,成为垂直领域的颠覆者(如滴滴出行、旷视科技等)。

  关键成功因素:在应用较广泛且有海量数据的场景能率先推出杀手级应用,从而积累用户,成为该垂直行业的主导者;通过积累海量数据,逐步向应用平台、通用技术、基础算法拓展。

  以芯片或硬件等基础设施公司为主,从基础设施切入,提高技术能力,向数据、算法等产业链上游拓展。

  关键成功因素:开发具有智能计算能力的新型芯片,如图像、语音识别芯片等,拓展芯片的应用场景;在移动智能设备、大型服务器、无人机(车),机器人等设备、设施上广泛集成运用,提供更加高效、低成本的运算能力、服务,与相关行业进行深度整合。

  我国在人工智能领域密集出台相关法律法规及政策,可以看出在世界主要大国纷纷在人工智能领域出台国家战略,抢占人工智能时代制高点的环境下,中国政府把人工智能上升到国家战略的决心。

  国际化标准化组织(ISO)于2017年成立人工智能委员会,负责涵盖算法偏见、隐私保护等领域的标准研制工作。电气和电子工程师协会(IEEE)在2017年提出了“人权、福祉、问责、透明、慎用”的五项原则,已成为国际上最具影响的AI伦理原则之一。在学术界,牛津大学、剑桥大学和Open AI公司等7家机构于2018年共同发布《人工智能的恶意使用:预测、预防和缓解》,分析了人工智能可能带来的安全威胁并提出应对建议。在企业界,微软、谷歌、IBM等科技企业制定了人工智能开发的伦理原则,脸书也在2019年初联合慕尼黑工业大学建立了AI伦理研究所。

  2019年2月,国家新一代人工智能治理专业委员会成立,并于6月发布了《新一代人工智能治理原则——发展负责任的人工智能》,旨在“更好地协调发展与治理的关系,确保人工智能安全可靠可控,推动经济、社会及生态可持续发展”。同年4月,国家人工智能标准化总体组发布了《人工智能伦理风险分析报告》,提出“人类根本利益原则”和“责任原则”。2019年5月,由科技部和北京市政府指导成立的北京智源人工智能研究院成立了人工智能伦理与安全研究中心,并联合北大、清华、中科院、新一代人工智能产业技术创新战略联盟(发起成员包括百度、阿里、腾讯、华为等)和其他学术机构及产业组织共同发布《人工智能北京共识》,提出了人工智能研发、使用和治理应遵循的“有益于人类命运共同体的构建和社会发展”的15条原则。2019年8月,深圳人工智能行业协会与旷视科技、科大讯飞等数十家企业联合发布《新一代人工智能行业自律公约》。百度、腾讯等主要科技企业也提出了企业自身的AI伦理准则;旷视科技还在制定准则的基础上,成立了人工智能道德委员会,以推动“可持续、负责任、有价值的人工智能生态”。

  范式是建模一类任务的通用框架。过去几年随着神经网络架构逐渐向Transformer统一以及大规模预训练模型的普及,大多数自然语言处理(NLP)任务的建模已经收敛到几种主流的范式。

  NLP任务中广泛使用的范式归为以下7类,即分类(Class)、匹配(Matching)、序列标注(Seq Lab)、阅读理解(MRC)、序列到序列(Seq2Seq)、序列到动作序列(Seq2ASeq)和语言模型((M)LM)。

  分类范式(Class)为文本指定预定义的标签。文本分类通常将文本输入一个基于深度神经网络的编码器来提取特征,然后将其输入一个浅层分类器来预测标签,如????=CLS(ENC(????))。????可以是独热编码,ENC(⋅)通常是卷积网络、循环网络或Transformers,CLS(⋅)常由一个简单的多层感知器和汇聚层实现。

  序列到序列范式(Seq2Seq)是一种通用且功能强大的范式,可以处理各种NLP任务。Seq2Seq范式通常由编码器—解码器框架实现,如????1,⋯,????????=DEC(ENC(????1,⋯,????????))。与Seq Lab不同,这里输入和输出的长度不需要相同。

  语言模型范式(LM)估计给定单词序列出现在句子中的概率。它可以被简单表示为????????=DEC(????1,⋯,????????−1),DEC可以是任何自回归的模型。一种LM的变体ML可以被规范为:????=DEC(ENC(????̃)),????̃由将????的一些词元(token)替换为特殊词元[MASK]得到,????表示待预测的词元。

  传统的文本分类任务可以通过Class范式很好地解决。但其变体(如多标签分类)可能具有挑战性。为此,Yang et al.采用Seq2Seq范式,以更好地捕捉多标签分类任务中标签之间的相互作用。Sun et al.采用Matching范式预测输入对(????,????????)是否匹配,????是原文本,????????是类????的描述。

  自然语言推理(NLI)通常在Matching范式中进行建模,两个输入文本(????????,????????)被编码并互相作用,再连接分类器预测它们的关系。随着BERT等功能强大的编码器出现,NLI任务可以通过将两个文本连接为一个文本在Class范式中解决。

  命名实体识别(NER)可以被分为3类:常规NER、嵌套NER和非连续NER。传统的方法基于Seq Lab、Class和Seq2ASeq来分别解决3个任务。Li et al.提出将常规NER和嵌套NER规范为MRC任务。Yan et al.使用一种基于Seq2Seq范式的统一模型来解决所有3种子任务。

  方面级情感分析(ABSB)是一种细粒度的情感分析,可以分为7种子任务以被不同的范式处理。Mao et al.采用MRC范式处理所有的ABSB子任务。Yan et al.通过将任务的标签转化为词元序列,再使用Seq2Seq范式来处理。

  关系抽取(RE)主要有两个子任务:关系预测和三元组抽取。前者主要通过Class范式解决,而后者常以流水线方式处理:首先使用Seq Lab范式提取实体,再使用Class范式预测实体间关系。Zeng et al.使用Seq2Seq范式处理三元组抽取任务,Levy et al.使用MRC范式处理RE任务。此外,三元组抽取也可以通过转化为多轮对话后用MRC范式处理。

  解决文本摘要任务有两种不同的方法:抽取式摘要和生成式摘要。前者通常使用Seq Lab范式,而后者常通过Seq2Seq范式直接生成。Mc Cann et al.将其规范为一个问答任务,并使用Seq2Seq模型解决;Zhong et al.提出用Matching范式处理抽取式摘要。

  语法分析在机器翻译和问答等应用中有重要作用。基于转移和基于图的方法是两种常用的手段。前者通常使用Seq2ASeq范式,而后者使用Class范式解决。通过将目标树结构线性化为一个序列,该任务可以通过Seq2Seq范式解决。此外,Gan et al.使用MRC范式来解决依存分析任务。

  一些范式已经显示出将各种NLP任务规范为统一框架的潜在能力,提供了将单个模型作为不同NLP任务的统一解决方案的可能性。单个统一模型的优势可以概括为:不再需要大量标注数据、泛化能力强以及部署便捷。

  主要探讨以下4种可能统一不同NLP任务的范式:(M)LM、Matching、MRC和Seq2Seq。将下游任务规范为(M)LM任务是利用预训练语言模型的自然方式。(M)LM可使用无监督数据处理理解和生成任务。另一个可能的统一范式是Matching。Matching的优势在于只需要设计标签描述,工程量较小。但Matching需要大量NLI数据进一步训练,领域迁移受限,且无法做生成任务。MRC范式通过生成任务特定的问题并训练MRC模型,从输入文本中根据问题选择正确的span。MRC的框架模型十分通用,但难以发挥已有训练模型的能力。Seq2Seq是一个通用且灵活的范式,非常适用于复杂任务,但也受限于自回归生成导致较慢的推理速度。

  最近,基于提示的微调(prompt-based tuning)迅速流行起来。相比之下,其他潜在的统一范式没有得到充分的探索。通过预训练或其他技术探索更强大的Matching、MRC或Seq2Seq模型或许应受到更多的重视。

  词法分析和句法分析是自然语言处理的基础任务,可以被应用到许多自然语言处理下游任务中去,例如机器翻译和文本摘要。

  词法分析主要包括词性标注这一任务。词性标注指基于词性含义以及词的上下文来为输入文本中的每个词进行词性标注的过程,常见的词性标签有名词、动词、形容词等。词性标注一般没有直接应用场景,但它却能为许多下游任务提供帮助,例如,在词义消歧任务当中,词义和词性常常是相关联的,比如“翻译”一词既可指职业也可指行为,这两个词义的一大区别即为其词性不同:前者为名词而后者为动词。

  句法分析旨在对输入的文本句子进行分析以得到句子的句法结构。常见的句法分析有依存句法分析和成分句法分析。依存句法分析识别句子中词与词之间的相互依存关系,而成分句法分析识别句子中的层次化短语语法结构。句法分析在诸多自然语言处理下游任务中都有应用,例如在嵌套命名实体识别任务中,由于实体间存在相互嵌套现象,因此非常适合和成分句法分析中的层次化短语语法结构共同建模。

  词法分析:最简单的词性标注器是使用字典中最常见的词性作为当前词的词性,但这种简单的规则只可以解决大约85%的词性标注问题。为了解决词性歧义的问题,研究者们使用机器学习算法进行词性预测。在基于统计方法的时代,研究人员手动提取字词特征,例如字母大小写、前缀、后缀等特征,并使用隐马尔可夫、条件随机场等模型计算可能的标签序列的概率分布,并选择最佳标签序列作为输出。进入神经网络时代后,常见的做法是使用LSTM、Transformer等编码器对输入文本进行编码,并使用Softmax或者CRF进行解码预测,这种方法在基于《华尔街日报》的WSJ数据集上取得了超过97%的准确率。近几年以来,为了进一步提升性能和鲁棒性,研究人员尝试在词性标注模型上展开编码长距离标签依赖关系等工作。

  句法分析:主流的句法分析方法主要分为两种:基于转移的方法和基于图的方法。基于转移的方法通过预测一系列转移操作来构建合法的句法树结构,这种方法需要同时建模缓存区(已经生成的部分树结构)、堆栈区(等待输入的文本序列)和已经预测出来的转移操作序列,其中常见的缓存区和堆栈区的建模方法为stack-LSTM,转移操作序列的建模方法常用LSTM;基于图的方法首先编码输入、给文本局部打分,而后采用动态规划等算法来恢复句法树结构,该种方法采用的主流编码器包括LSTM和Transformer,解码器一般基于最大生成树算法(依存句法分析)或CKY算法(成分句法分析)。近几年来,随着大规模预训练语言模型的出现,BERT、XLNET等预训练语言模型也常被用作句法分析器的编码器。当前最佳的依存句法分析器是基于图的方法,使用BERT后可以在基于《华尔街日报》来标注的宾夕法尼亚大学树库数据集上取得了超过96%的有标签F-1分数;最佳的成分句法分析器亦采用了基于图的方法,在使用BERT的情况下在宾大树库上取得了接近96%的F-1值。与此同时,句法分析领域也有新的模型架构、转移范式不断涌现,例如,Zhang et al.提出了一种可以批处理的基于CRF的成分句法分析器,Yang et al.提出一种基于连结(attach)和并列(juxtapose)的新转移范式。

  联合建模:为了解决错误传播问题、进一步提高词法分析和句法分析模型的表现,一个常见方法是将词性标注和句法分析进行联合建模。具体来说,词性标注、依存句法分析和成分句法分析这三个任务中,任意两个任务或者全部三个任务均可组合起来进行联合建模。研究人员发现,联合建模可以有效提升参与建模的各个任务的准确率,例如,Zhou et al.在宾大树库上进行依存句法分析和成分句法分析的联合建模,在两个任务上的错误率分别比单独建模减少了16%和3%。

  在词法和句法分析任务上,随着在新闻领域(宾大树库所基于的领域)内模型的表现接近理论上限,研究人员们将视线转向了更加具有实用性、同时也富有挑战性的跨领域和多语言场景中去,具体来说,研究人员们试图探究在低资源、零资源的情景下如何使得词法、句法分析器仍旧得以应用,沿着这个研究方向,近期工作包括了跨语言、跨领域词法分析器的设计、新领域树库的构建和跨领域、跨语言句法分析器的构建等工作。

  语义分析(semantic analysis)是生成意义表示并将这些意义指派给语言输入的过程。根据语言输入的粒度不同,语义分析又可进一步分为词汇级语义分析、句子级语义分析和篇章级语义分析。通常,词汇级语义分析主要关注如何区分和获取单个词语的语义,经典任务是词义消歧(Word Sense Disambiguation, WSD),即在特定的语境中,识别出某个歧义词的正确词义;句子级语义分析主要关注解析由词语所组成的句子的语义,根据分析的深浅程度又分为浅层语义分析和深层语义分析,其中浅层语义分析的经典任务是语义角色标注(Semantic Role Labeling, SRL),即识别出给定句子的谓词及谓词的相应语义角色成分。深层语义分析,又称为语义解析,即将输入的句子转换为计算机可识别、可计算的语义表示,语义解析又根据应用情境的不同,可分为自然语言到结构化查询(language to query)、语言到代码(language to code)和语言到机器操作指令(language to instruction);篇章级语义分析主要关注由句子组成的篇章的内在结构并理解各个句子的语义以及句子与句子之间的语义关系,进而理解整个篇章的语义。词语级语义分析是句子、篇章语义分析的基础,句子级语义分析又是篇章语义分析的基础。

  语义分析是自然语言处理的核心任务,其目标是实现对语言输入的语义理解,进而支撑后续的操作和处理。在理论上,语义分析涉及语言学、计算语言学、认知科学、神经科学等多个学科,语义分析的研究和进展可推动多个相关学科的发展。在应用上,语义分析对自然语言处理领域的其他任务都有一定的促进作用。如现代机器翻译,虽然目前的神经机器翻译系统已取得媲美人类甚至超过人类的翻译效果,但要真正达到“信、达、雅”的标准,还需要有语义分析的参与。如现代的语义搜索引擎,从以前的匹配查询与文档转变为了理解用户提交的查询的意图,能够更精准的向用户返回最符合需求的搜索结果。另外,知识获取方面,它与语义分析是相互促进的,一方面,语义分析需要知识的支撑,更大、更全、更准确的知识库对语义分析有着至关重要的作用;另一方面,为了从自由文本中获取更多结构化的知识,语义分析又是必不可少的技术。

  目前,语义分析的研究吸引了国内外大批学者,但大部分都集中于句子级语义分析方向上,词汇级和篇章级的研究工作甚少。主要因为词汇级语义分析,如词义消歧,已发展多年,技术已趋成熟,研究的重心转向句子级的语义分析;而篇章级语义分析由于完全体的篇章理解过于困难,因此衍生了多个与之相关的任务,如篇章的结构分析、话语分割、指代消解、共指消解等,任务分散且偏边缘,导致得到的研究关注很少,进展也缓慢。整体来说,语义分析虽然已取得了一定的进展,但技术还远未成熟完美。

  在深度神经网络模型崛起之前,语义分析领域基于文法和组合规则的模型占据主流。近5年来,随着神经网络模型的兴起,特别是序列到序列模型(Seq2Seq)在自然语言处理多个任务上的成功,如机器翻译,语义分析任务上也开始尝试将语义分析问题建模为序列到序列的问题。近2年,随着像BERT、GPT这样的大规模预训练语言模型的提出,并在自然语言处理的多个任务上面取得SOTA,整个NLP领域都转型采用预训练+精调的新研究范式。为了更好的利用大模型里面的知识,NLP领域还兴起了基于提示语(prompt)的方法浪潮。深度语义分析领域也紧跟整个NLP领域的大潮,与之对应的先后出现了基于序列到序列的语义分析方法面向语义分析的预训练方法和基于大模型受限生成的方法。

  其中基于序列到序列的语义分析方法的核心在于将结构化的语义表示序列化,把语义表示看成一系列的语义单元。相比基于文法和组合规则的方法,Seq2Seq方法非常简单,是端到端的,不需要人工设计特征,也不需要学习文法和组合规则。然而,Seq2Seq的方法也忽略了一个问题,不同于机器翻译,语义分析的目标语言不是一种自然语言,而是一种形式化语言,它具有层次结构,Seq2Seq方法只是简单地将语义表示偏平序列化,忽略了语义表示的层次结构信息,基于此,Dong et al.提出了Seq2Tree的方法,其核心是一个层次化的解码器,解码时不再生成偏平化的语义表示序列,而是生成层次结构化的语义表示,简而言之,用一个层次树结构的形式来表征语义,序列化时,采用层次结构树的广度优先遍历的形式。考虑到Seq2Seq和Seq2Tree方法都忽略了语义表示token之间的紧密联系,Chen et al.提出了一种Seq2Action的方法,该方法采用语义图作为语义表示,然后将语义图进行原子级分解,用设计好的动作序列来表示语义图的构建,进而用编码器-解码器模型框架来生成动作序列,并利用到语义表示token之间存在严格的句法和语义约束,提出了一种受限的解码方法。基于序列到序列的语义分析方法由于其简单而有效的特点,成为了目前语义分析领域最常用的基线模型。

  与其它面向特定任务的预训练模型方法类似,面向语义分析的预训练模型也包含两个关键:收集数据和设计自监督学习任务。针对text-to-sql的语义分析问题,典型的预训练模型是GraPPa,其采用了两种常用的用于text-to-sql问题的数据收集方法,一是从已有的跟表格有关的数据中抽取表格与自然语言对,二是利用同步文法在新采样的表格上自动生成(表格,自然语言,sql)数据对。预训练模型的输入不同于预训练语言模型的输入,这里的输入是将自然语言查询与表格的表头拼接起来的。自监督学习任务方面,为了在表示层面简历自然语言词语与表头的交互,设计掩码任务,即对输入进行随机的掩码,再进行复原,最后计算损失函数。为了进一步在表示层面学习表,通过预测表头的语义标签来实现。由于是预训练模型,使用方面可以像使用BERT一样方便,可适用于所有语义分析模型。

  基于大模型的受限生成的方法启发于像T5在text-to-text任务上的成功,以及GPT在文本生成任务上的成功。考虑到语义分析任务与text-to-text问题的不同:语义分析生成的不是自然语言,而是形式化的语义表示,需要满足一定的文法约束,研究者们引入了一种中间语言:经典句式,它是一种介乎于自然语言与语义表示之间的一种语言,又与自然语言类似,但又符合确定性的文法,它与语义表示之间可以通过同步文法进行确定性的转换。基于经典句式,语义分析可以转换成一种受限的复述生成。即给定输入句子,大模型利用复述生成其经典句式,在解码生成过程中可以利用约束来减小解码空间。这类模型的关键在于解码过程中约束的确定,目前一般采用启发式的基于文法的形式引入约束条件。由于大模型,如T5、BART和GPT在few-shot和zero-shot问题上都表现出色,基于大模型的受限生成语义分析方法在few-shot和无监督的设定下也取得了很好的成绩。

  语义分析技术发展迅速,整体上,紧跟自然语言处理领域的发展大潮,一方面部分方法启发于其他任务的先进技术,如基于序列到序列的语义分析方法,另一方面部分方法也启发了其他领域,如基于受限解码的事件抽取方法。

  目前的面向语义分析的预训练模型由于高质量的标注数据难以获取的问题,预训练模型还只在text-to-sql和code generation等数据相对容易获取的问题上得以实现。接下来,可以尝试同时面向更加通用的语义分析情境,如面向开放域的问答,语言到机器执行指令等,一个预训练模型,适用所有的语义分析任务。

  目前,研究者都已意识到大模型加受限解码在语义分析问题上的威力。但整个过程还需要人工参与,如约束条件需要人来参与设计,用于经典句式与语义表示之间互相转换的同步文法需要人工定义。如何将这些人工参与的部分交给模型自主学习,实现自学习的soft的同步文法和自学习的soft的条件约束是下一步可研究的点。

  目前的大模型与世界没有太多交互。而语义分析任务中有些情境需要与世界进行交互,如基于对话执行查询,基于对话执行指令操作等。如何训练一个面向自然语言理解的能与世界进行交互的大模型,即当世界的状态因为当前的动作发生改变时,大模型能否及时的感知到状态的变化,并在理解下个输入的过程中是基于已更新过的世界状态的,也是一个可探究的点。

  信息抽取(Information Extraction)的目标是从非结构化文本中抽取出结构化的信息,主要包括实体抽取、实体关系抽取(Relation Extraction,RE)、事件抽取(Event Extraction,EE)和事件关系抽取(Event Relation Extraction,ERE)等任务。实体主要是指文本中名词性的短语,比如人名、地名、机构名、时间、日期、数字等。实体抽取也称为命名实体识别(Named Entity Recognition,NER),包括实体的识别和分类。实体识别就是从文本中找出哪个片段是一个实体。实体的分类就是判断找出的实体属于什么类别,比如:人名、地名等。实体关系抽取则是判断两个实体之间的语义关系,比如“姚明”和“上海市”这两个实体之间是“出生于”的关系,而“北京”与“中国”则是“首都”的关系。事件抽取任务是识别特定类型的事件,并把事件中担任既定角色的要素找出来,该任务可进一步分解为4个子任务:触发词识别、事件类型分类、论元识别和角色分类任务。

  信息抽取技术是中文信息处理和人工智能的核心技术,具有重要的科学意义。通过将文本所表述的信息结构化和语义化,信息抽取技术提供了分析非结构化文本的有效手段,是实现大数据资源化、知识化和普适化的核心技术。被抽取出来的信息通常以结构化的形式描述,可以为计算机直接处理,从而实现对海量非结构化数据的分析、组织、管理、计算、查询和推理,并进一步为更高层面的应用和任务(如自然语言理解、知识库构建、智能问答系统、舆情分析系统)提供支撑。

  信息抽取的核心是将自然语言表达映射到目标知识结构上,并转换为可供计算机处理的知识。然而,自然语言表达具有多样性、歧义性和结构性,其中蕴含的知识具有复杂性、开放性以及规模巨大的特点,进而导致信息抽取任务极具挑战性。自上世纪80年代被提出以来,信息抽取一直是自然语言处理的研究热点。

  在早期,大部分信息抽取系统(如MUC评测中的信息抽取系统)都采用基于规则的方法,该类方法依靠人工制定规则,其优点是可预判和解释,但面临着移植性差,很多场景很难甚至无法总结有效的规则。自90年代以来,统计模型成为信息抽取的主流方法,通常将信息抽取任务形式化为从文本输入到特定目标结构的预测,使用统计模型来建模输入与输出之间的关联,并使用机器学习方法来学习模型的参数,经典的方法包括使用条件随机场(CRF)将实体识别问题转化为序列标注问题。近年来,随着深度学习时代来临,研究者主要聚焦于如何使用深度神经网络自动学习有区分性的特征,进而避免使用传统自然语言处理工具抽取特征时存在的错误累积问题。随着研究的深入,特别是大规模预训练语言模型的引入,基于深度神经网络的信息抽取模型在公开数据集上达到了不错的成绩,但是在实际应用场景效果还不尽人意。

  理想设定与实际场景存在巨大鸿沟,近期越来越多的工作针对实际应用中的挑战展开。真实场景中实体、关系、事件具有长尾分布特点,许多关系和实体对的示例较少。对于金融、医疗等垂直领域,缺失标注数据现象更为明显,甚至数据的获取也很困难,而神经网络作为典型的“数据饥渴”模型,在训练样例过少时性能会受到极大影响。针对小样本任务,Ding等发布了包含8种粗粒度和66种细粒度实体类的少样本命名实体识别;Han等发布了小样本关系抽取数据集Few Rel,Gao等在Few Rel数据集的基础上提出了FewRel2.0,增加了领域迁移(domain adaptation)和“以上都不是”检测(noneof-the-above detection)。利用海量无监督数据得到的预训练模型得到有效的语义特征是少量样本快速学习知识的代表性方法,Baldini等使用BERT来对文本关系进行表示,并且提出了Matching the blanks的方法来预训练任务不可知(task agnostic)的关系抽取模型。

  真实场景中的信息抽取还面临着复杂的语境,例如大量的实体间关系是通过多个句子表达的,同一个文档中的多个事件相互影响,文档级的信息抽取最近也收到广泛的关注,代表性的方法是使用图神经网络融合分布在文档中不同位置的实体的信息,并利用图算法进行信息的传递。Quirk等最早尝试构建文档级图,捕获相邻句子之间的关系。Christopoulou等构建以实体、实体提及(Mention)和句子为节点的文档图,并通过图上的迭代算法得到边的表示进行关系分类,之后有大量的研究者采用类似的方法对文档建模。除了使用图网络外,研究者也开始尝试直接使用大规模语言模型建模文档,Xu等将Mention是否在同一个句子中、是否指向同一个实体编码作为实体结构信息送入到BERT编码层。Zhou等提出自适应阈值代替用于多标签分类的全局阈值,并直接利用预训练模型的自注意力得分找到有助于确定关系的相关上下文特征。在大规模预训练语言模型的研究上,研究者也尝试着加入知识增强语义表示,例如ERNIE中字、短语和实体三个级别的遮罩(MASK)训练,Qin等通过对比学习的方式将实体判别、关系判别作为辅助任务帮助模型的训练。

  信息抽取技术研究蓬勃发展,已经成为了自然语言处理和人工智能等领域的重要分支。这一方面得益于系列国际权威评测和会议的推动,如消息理解系列会议(MUC,Message Understanding Conference),自动内容抽取评测(ACE,Automatic Content Extraction)和文本分析会议系列评测(TAC,Text Analysis Conference)。另一方面也是因为信息抽取技术的重要性和实用性,使其同时得到了研究界和工业界的广泛关注。信息抽取技术自身的发展也大幅度推进了中文信息处理研究的发展,迫使研究人员面向实际应用需求,开始重视之前未被发现的研究难点和重点。

  目前的小样本学习设定需要用一个巨大的训练集训练的,测试时只给出N-way Kshot,在这N*K个样本上学习并预测。真实场景下的小样本学习不存在巨大的训练集,从GPT3开始,预训练-提示(Prompt)学习范式受到研究者的关注,该范式将下游任务也建模成语言模型任务,在只给出几条或几十条样本作为训练集,借助与大规模预训练语言模型中蕴含的大量知识,取得了不错的小样本学习效果取得了。此外,相对于传统的Pretrain+Finetune范式,Prompt有得天独厚的,可以摆脱指数级的预训练参数量对巨大计算资源的需求,高效的利用预训练模型。基于上述分析,信息抽取的发展方向之一是利用预训练—提示学习范式进行高效的小样本学习。具体包括:1)提示学习中信息抽取任务模板的设计;2)模板的自动学习与挖掘;3)预训练-提示学习范式进行信息抽取的理论分析。

  目前信息抽取主要针对的是纯文本数据,而常见的文档具有多样的布局且包含丰富的信息,以富文本文档的形式呈现包含大量的多模态信息,从认知科学的角度来说,人脑的感知和认知过程是跨越多种感官信息的融合处理,如人可以同时利用视觉和听觉信息理解说话人的情感、可以通过视觉信息补全文本中的缺失信息等,信息抽取技术的进一步发展也应该是针对多模态的富文档。基于上述分析,信息抽取的发展方向之一是多模态信息的融合。具体包括:1)多模态预训练模型的设计;2)多模态信息抽取框架中跨模态对齐任务设计;3)多模态信息的提取和表示。

  现有的神经网络信息抽取方法依靠深度学习以数据驱动的方式得到各种语义关系的统计模式,其优势在于能从大量的原始数据中学习相关特征,比较容易利用证据和事实,但是忽略了怎样融合专家知识。单纯依靠神经网络进行信息抽取,到一定准确率之后,就很难再改进。从人类进行知识获取来看,很多决策的时候同时要使用先验知识以及证据。数据驱动和知识驱动结合是模拟人脑进行信息抽取的关键挑战。基于上述分析,信息抽取的发展方向之一是构建数据驱动和知识驱动融合抽取技术。具体包括:1)神经符号学习信息抽取框架的构建;2)学习神经网络到逻辑符号的对应关系;3)神经网络对于符号计算过程进行模拟。

  基于知识的NLP,是指利用人类各类型结构化知识(如语言知识图谱、世界知识图谱、常识知识图谱等)提升NLP模型语言处理能力的相关处理方法。通过融合符号表示的人类结构化知识及其带来的认知推理能力,赋予语言深度学习模型更好的可解释性与认知推理能力,突破当前NLP领域中广泛使用的深度学习技术所面临的可解释性差、可扩展性差和鲁棒性差等瓶颈问题。

  完成知识图谱到NLP深度学习模型的融合,涉及知识表示学习、融合知识的预训练语言模型等关键技术。

  离散符号表示的知识图谱,在计算上存在计算效率低下和数据稀疏等挑战问题。近年来,人们提出了基于深度学习的KRL的技术方案,并被广泛研究与应用。

  语言知识图谱的KRL:语言知识图谱,描述的是以形式化和结构化语言表达的语言学知识,可以轻松植入各种NLP系统,代表性有How Net、WordNet等。词表示学习是许多NLP任务的基础步骤,代表性方法有Word2Vec、GloVe等,但这些方法都是将每个词映射成一个向量,不能够解决一词多义的问题。为解决该问题,许多学者提出利用语言知识图谱指导的词表示学习,通过其细粒度语言学知识增强词的语义表示。例如,1)基于How Net义原编码的词表示学习方法(SE-WRL),将每个词看成一组义原的组合,将词义消歧和融合义原、义项、词的Skip-gram词表示学习进行联合建模。2)将词向量改造为语义词典的Retrofitting方法,给出了通过鼓励链接词具有相似的向量表示来使用WordNet等语义词典中的关系信息来细化向量空间表示。近几年随着基于预训练模型的背景表示学习的兴起,相关研究开始聚焦于如何利用语言知识图谱增强词的上下文表示。

  世界知识图谱的KRL:世界知识图谱,指以结构化符号表示的实体及其关系的知识库,代表性有Wiki Data、DBpedia等,其表示学习的核心问题是学习实体和关系的低维分布式表示。相关研究围绕的核心问题有:1)如何度量事实三元组的合理性;2)何种编码模型建模关系交互;3)如何融合异构信息。

  度量函数,用于衡量事实的合理性。目前有两种典型的度量函数:1)基于距离的度量函数,通过计算实体之间的距离来衡量事实的合理性,其中????+????≈????关系的上平移被广泛使用,代表方法有Trans E、Trans H、Trans R等。2)基于语义相似性的度量函数,通过语义匹配来衡量事实的合理性。它通常采用乘法公式????⊤????????≈????,代表方法有RESCAL、Dist Mult、ComplEx等。

  编码模型,即对实体和关系的交互编码使用的具体模型架构,包括线性/双线性模型、分解模型和神经网络模型。线性模型通过将头部实体投影到靠近尾部实体的表示空间中,将关系表述为线性/双线性映射,代表方法有DistMult, ComplEx等。分解模型旨在将关系数据分解为低秩矩阵以进行表征学习,代表方法有RESCAL、Tuck ER等。神经网络模型通过用更复杂的网络结构对关系数据进行编码,如R-GCN、KG-BERT等,其中KG-BERT借鉴PLM思想,用BERT作为实体和关系的编码器。

  异构信息,在知识图谱中除了实体和关系本身信息之外,还包含其他类型信息,如文本描述、实体属性、类别约束、关系路径、视觉信息等。利用这些额外信息增强实体和关系的知识语义表示,主要挑战在于异构信息编码和异构信息融合等问题。KEPLER给出了预训练语言表示和知识表示联合学习的统一模型,如图所示,其通过联合学习不仅能够将事实知识信息更好的嵌入到预训练语言模型中,同时通过预训练语言模型可以得到文本语义增强的知识表示。

  目前PLM主要采用互联网获取的海量通用文本语料训练得到,实现了对文本丰富语义模式的编码,但由于没有自觉运用结构化知识,依然严重缺乏知识运用和推理能力,缺乏可解释性和鲁棒性。为此,许多学者研究了融合结构化知识的PLM及其学习框架,融合方法大致分为以下4种:

  知识增广:从输入端增强模型,有两种主流的方法:一种方式是直接把知识加到输入,另一方法是设计特定模块来融合原输入和相关的知识化的输入表示。目前,基于知识增广的方法已经在不同任务上取得良好效果,如信息检索、问答系统和阅读理解。

  知识支撑:关注于对带有知识的模型本身的处理流程进行优化。一种方式是在模型的底部引入知识指导层来处理特征,以便能得到更丰富的特征信息。例如,使用专门的知识记忆模块来从PLM底部注入丰富的记忆特征。另一方面,知识也可以作为专家在模型顶层构建后处理模块,以计算得到更准确和有效的输出。例如,利用知识库来改进语言生成质量。

  知识约束:利用知识构建额外的预测目标和约束函数,来增强模型的原始目标函数。例如,远程监督学习利用知识图谱启发式标注语料作为新的目标,并广泛用于系列NLP任务,如实体识别、关系抽取和词义消歧。或者利用知识构建额外的预测目标,比如ERNIE, Co LAKE和KEPLER等工作,都是在原始的语言建模之外构建了相应额外的预训练目标。

  知识迁移:则是从参数空间进行考量,获取一个知识指导的假设空间,从而让模型更有效。迁移学习和自监督学习分别关注从标注数据和无标注数据获取迁移学习和自监督学习分别关注从标注数据和无标注数据获取知识。作为一个迁移模型知识的典型范式,微调PLM在绝大多数NLP任务都可以取得良好的效果。在中文信息处理领域,一些中文PLM也相继被提出,如CPM-1、CPM-2、Pan Gu-????等,也都在各种中文任务中展现了良好性能。

  结合国内外相关的研究工作,下面概括性地总结基于知识的NLP的技术趋势。一方面,面向NLP的深度学习技术能够自动学习语义的分布式表示,表达能力强,已在NLP多项重要任务中得到充分验证,为进一步融入知识指导信息的方法研究奠定了坚实基础。另一方面,知识表示与推理技术已经初步具备完整的方法体系,充分利用人类各类型结构化知识赋予了人工智能不同的能力,为提升模型的可扩展性和鲁棒性提供了支撑。

  尽管相关研究进展显著,但部分工作还非常初步,仍然有很多关键问题亟待解决,以下研究问题值得关注:

  更大规模的知识表示:虽然已经出现了Graph Vite、Open KE、DGL-KE等系统工具,但这些工具还主要针对小规模知识图谱,这限制了大规模知识图谱的应用潜力。目前知识图谱的规模越来越大,如Wiki data已经含有了超过9千万实体、14.7亿的关系,而且这种规模仍然呈现快速增长趋势。如何将现有知识表示学习方法适配到亿级实体规模的图谱上仍然是一个挑战。

  PLM的多元知识融合:目前在PLM中融合知识主要是围绕实体、实体关系等相关事实知识图谱,融合的知识类型和知识层次还比较单一,存在知识指导融合度低的问题。面向人类不同层次不同类型的丰富知识体系,探索融合这些多层次多类型知识的PLM框架和学习机制,是PLM技术未来研究的重要方向。

  PLM的持续知识增强:虽然PLM模型已经在多项任务上取得了超越人类的表现,但是现在PLM的模型通用智能水平增长仍遇到瓶颈。在可以预见的未来,PLM模型的性能将持续增长。如何持续学习新知识、新数据提升模型语言处理能力,建立高效的知识持续植入的PLM学习机制,是PLM的关键研究方向。

  PLM的可靠知识编辑:PLM在训练中需要事实知识并将其存储在模型参数中,以用于下游各种任务等,但大量事实知识存在时效性,随着时间推移可能会存在不准确或过时的问题。开发可靠的、无需重新训练的高效方法来修正模型中对应知识,是实现高质量可靠的PLM的关键问题。

  估值方法可以选择市盈率估值法、PEG估值法、市净率估值法、市现率、P/S市销率估值法、EV/Sales市售率估值法、RNAV重估净资产估值法、EV/EBITDA估值法、DDM估值法、DCF现金流折现估值法、NAV净资产价值估值法等。

  数据量、运算力和算法模型是影响自然语言处理行业发展的三大要素。2012年以来,数据量的上涨、运算力的提升和深度学习算法的出现促进了自然语言处理行业的快速发展。互联网、社交媒体、移动设备的普及,使产生并存储的数据量急剧增加,2020年全球将有超500亿的终端与设备联网,产生的数据总量将大于40泽字节,人均每天产生的数据量预计达1.5GB。中国2020年的数据总量将达到全球数据总量的20.0%,联网设备预计从2016年的8.4亿个增长至35.0亿个,连接设备数的快速增长产生了大量的应用数据。数据的爆发式增长有助于优化自然语言处理算法,海量优质的场景数据能够帮助算法模型完成高效精准的识别训练。

  算法是计算机基于其所训练的数据集归纳出的识别逻辑,算法模型的优化可使自然语言处理技术更精准地理解与生成自然语言文本。深度学习算法通过使用复杂结构设计和各种梯度技术,将多重非线性结构变换成多个处理层,实现对大量数据样本的抽象计算,拟合出一个可处理新输入信息的函数模型,解决数据分类或预测问题。基于深层神经网络的深度学习方法从根本上改变了自然语言处理技术的面貌,改变了自然语言处理问题的定义,变更了自然语言处理所使用的数学工具,深度学习的出现突破了传统浅层学习算法的局限,重塑了自然语言处理算法的设计思路,极大地促进自然语言处理研究的发展。

  运算力方面,GPU、FPGA,ASIC等专用芯片的出现,缓解了自然语言数据处理速度难题,解决传统的CPU芯片算力不足问题。新兴的GPU、FPGA、ASIC等具有良好的并行计算能力,芯片性能大幅优于CPU,算力比CPU芯片强数十倍甚至百倍,缩短了模型运算时间,使得自然语言运算模型的进步速度加快。

  金融、医疗、法律等传统行业的业务处理智能化水平要求上涨,加速自然语言处理技术在行业应用中的落地进程。例如,智能问答、资讯舆情分析、文档信息抽取、文档自动生成等应用逐渐在金融领域的智能投研、智能投顾、智能客服和智能运营等场景实现应用。在智能投研场景中,投研人员每天需要通过多渠道搜索大量金融资讯信息以掌握金融市场动态,而金融资讯信息极为丰富(如涉及标的公司重大新闻、公告、财务状况,金融产品信息、宏观经济状况、政策法规变化、社交媒体评论等),数据量庞大,单靠投研人员从浩如烟海的资讯库中搜索并阅读分析相关内容,时间精力耗费严重,工作效率难以提高,在此种情况下,具备资讯分类(按公司、产品、行业范围分类)、情感分析(分析新闻、公司或产品的正负面信息)、自动文摘(分析文章的主要内容)及资讯个性化推荐功能的资讯舆情分析应用逐步受到投研人士和金融机构的推崇,资讯舆情分析应用对海量定性数据自动摘要、归纳、缩简和抽取,为投研人员提供高效的信息展示,大幅缩短投研人员搜索以及摘取资讯的时间,提高其工作效率。

  在法律领域,自然语言处理应用可帮助法律从业人员进行案例搜索、判决预测、法律文书自动生成、法律文本翻译等,实现事件预处理,减少从业人员相关案件处理耗费时间。在医疗领域,病历的辅助录入、医学资料的检索与分析、辅助诊断等医疗步骤可由相关自然语言处理应用辅助进行。现代医学资料浩如烟海,新的医学手段、方法发展迅猛,医生和专家无法及时完全掌握所有的医学发展动态,相关自然语言处理应用可帮助医生快速准确地寻找各种疑难病症的最新研究进展,为医生的诊断提供及时有效的参考。

  随着自然语言处理技术的深入发展,自然语言处理应用有望与更多传统行业实现更深层次的结合,为人类带来更多人工智能效应。

  自然语言处理与语音识别以及图像识别不同,自然语言处理不是单轮处理操作过程,算法模型对单一输入进行单轮分析无法输出结果,自然语言的语义与上下文或前后轮对话语境有关,需要对输入的自然语言进行多轮分析方可得到结果。而目前的深度学习技术,多轮建模发展并不成熟,与语音识别以及图像识别的单轮分析模型的成熟度无法相提并论。

  此外,人类在语言交流过程中,使用的话语表达内容通常暗含常识性表示(如婴儿、小孩以及成人代表不同年龄段人群),话语表达风格反应用语者的个性化特征,不同的人对相同的内容可有不同的表达方式。现阶段的自然语言处理模型未能解决常识问题和个性化问题,如手机语音助手听到“查找附近的餐馆”指令时,可在地图上执行查找附近餐馆的任务,并显示附近餐馆信息,但若发号指令者说“我饿了”,手机语音助手则不会有任何反应,因为语音助手缺乏“饿了需要进食”的常识,而人类听了“我饿了”的话语,反应一定是“需要进食”。众多潜藏在人类意识中的常识,计算机并不具备且无法学习,模型开发者亦不知道将常识知识用在机器问答和机器搜索中的效果如何,业内尚待建立常识知识库,测试训练模型。

  自然语言使用情况复杂,不同场景、不同语种、不同专业的自然用语差异较大,所需要的自然语言处理层次不同,基于某一领域语料库建立的自然语言处理模型不具通用性,应用于其他领域时处理结果明显较差,系统性能显著下降。自然语言模型不具通用性限制了自然语言产品在不同应用领域的推广,大幅减缓了自然语言处理行业的发展进程。

  虽然近年来研究者们针对语言模型、语序模型、语调模型等问题对自然语言处理进行了众多领域自适应的调试,但每种调试方法只能解决单方面的自适应问题,通用性问题仍然无法解决。自然语言处理厂商无法用单一模型解决自然语言处理方面的所有问题,只能根据不同领域,开发相应的自然语言模型,运行相关领域的知识库,处理特定领域的自然语言问题。但在目前行业应用尚未普及,产品商业模式并不清晰的情况下,自然语言处理厂商缺乏动力为少数应用以及各种领域开发专用算法,导致自然语言处理技术难以大范围推广落地。

  自然语言理解结果不准确,限制自然语言处理应用推广。自然语言理解与生成是机器在人工智能、大数据等技术指引下产生的机器行为。机器由于难以拥有生活常识、文化背景和人类风俗习惯知识储备,对于作为文化载体的自然语言,无法结合具体的语言环境、风俗习惯等因素分析语言内容,只能通过系统设定的规则机械地分析源语的语法结构,语言逻辑无法处理,对于复杂句子结构或层层句式嵌套的情况,机器的自然语言理解准确度不高。机器对自然语言长句的理解能力以及全方位体会语用者的真实表达意图的能力无法在短期内得到明显提高,与人类的语言理解能力相比,差距仍然存在较大。自然语言处理应用暂时只能通过完善部分领域的知识库和语料库,优化部分领域内的自然语言处理应用的用户体验。

  早期的静态词向量预训练模型,以及后来的动态词向量预训练模型,特别2018年以来,以BERT、GPT为代表的超大规模预训练语言模型恰好弥补了自然语言处理标注数据不足的缺点,帮助自然语言处理取得了一系列的突破,使得包括阅读理解在内的几乎所有自然语言处理任务性能都得到了大幅提高,在有些数据集上甚至达到或超过了人类水平。

  所谓预训练模型(Pre-trained Models),即首先在一个原任务上预先训练一个初始模型,然后在下游任务(也称目标任务)上继续对该模型进行精调(Fine-tune),从而达到提高下游任务准确率的目的。本质上,这也是迁移学习(Transfer Learning)思想的一种应用。然而,由于同样需要人工标注,导致原任务标注数据的规模往往也是非常有限的。那么,如何获得更大规模的标注数据呢?

  其实文本自身的顺序性就是一种天然的标注数据,通过若干连续出现的词语预测下一个词语(又称语言模型)就可以构成一项源任务。由于图书、网页等文本数据规模近乎无限,这样就可以非常容易地获得超大规模的预训练数据。有人将这种不需要人工标注数据的预训练学习方法称为无监督学习(Unsupervised Learning),其实这并不准确,因为学习的过程仍然是有监督的(Supervised),更准确的叫法应该是自监督学习(Selfsupervised Learning)。

  为了能够刻画大规模数据中复杂的语言现象,还要求所使用的深度学习模型容量足够大。基于自注意力的Transformer模型显著地提升了对于自然语言的建模能力,是近30年来具有里程碑意义的进展之一。要想在可容忍的时间内,在如此大规模的数据上训练一个超大规模的Transformer模型,也离不开以GPU、TPU为代表的现代并行计算硬件。可以说,超大规模预训练语言模型完全依赖“蛮力”,在大数据、大模型和大计算资源的加持下,使自然语言处理取得了长足的进步。如Open AI推出的GPT

火狐体育官方网站| 火狐体育官方网站入口| 新闻中心| 产品中心| 火狐体育官方网站网址下载| 工程案例| 网站地图|