占卜抽签,天涯八卦,花海-雷竞技苹果_雷竞技app苹果版_雷竞技app苹果下载

频道:微博热点 日期: 浏览:285

来自freepik

核算机处理或“了解”天然言语的学科被称为天然言语处理(Natural Language Processing,NLP),是现在人工智能领域十分炽热的分支。

言语,便是咱们每个正常人类每天说的话、写的字、以及其他各种以言语办法记载的内容等等,了解这些,关于咱们人相似乎是自可是然的,甚至不费吹灰之力。可是,关于现在 “全能”的核算机体系来说却是个老大难问题。

咱们太了解自己的言语,就像水对鱼来讲是通明的相同,所以咱们或许很难体会到言语的杂乱程度。下面咱们拿天然言语与人工言语做一番比较,看看核算机了解咱们的言语到底有多么困难。

天然言语与编程(人工)言语

1. 词汇量

天然言语中的词汇比编程言语中的要害词丰厚。在咱们了解的编程言语中,能运用的要害词数量是有限且确认的。比方,C 言语总共有 32 个要害字,Java 言语则有 50 个。尽管咱们能够自在地取变量名、函数名和类名,但这些称号在编译器看来只是差异符号,不含语义信息,也不影响程序的运转成果。但在天然言语中,咱们能够运用的词汇量是无穷无尽的,简直没有意义完全相同的词语。以汉语为例,由国家言语文字作业委员会发布的《现代汉语常用词表(草案)》总共收录了 56 008 个词条。除此之外,咱们还能够随时发明各种类型的新词,而不只限于名词。

2.结构化

天然言语对错结构化的,而编程言语是结构化的。所谓结构化,指的是信息具有清晰的结构联络,比方编程言语中的类与成员、数据库中的表与字段,都能够通过清晰的机制来读写。举个比方,咱们来看看两种言语对同一实践的表述,一些面向方针的编程言语能够如此书写:

class Company(object):
def __init__(self, founder, logo) -> None:
self.founder = founder
self.logo = logo
apple = Company(founder='乔布斯', logo='apple')

所以,程序员能够通过 apple.founder和 apple.logo来获取苹果公司的开创人和标志。像这样,程序言语通过 class Company这个结构为信息供给了层次化的模板,而在天然言语中则不存在这样的显式结构。人类言语是线性的字符串,给定一句话“苹果的开创人是乔布斯,它的 logo 是苹果”,核算机需求分分出如下定论:

  • 这句汉语转换为单词序列后,应该是“苹果 的 开创人 是 乔布斯 , 它 的 logo 是 苹果”;
  • 第一个“苹果”指的是苹果公司,而第二个“苹果”指的是带缺口的苹果 logo ;
  • “乔布斯”是一个人名;
  • 它”指代的是苹果公司;
  • 苹果公司与乔布斯之间的联络是“的开创人是”,与带缺口的苹果 logo 之间的联络为“的logo 是”。

这些定论的得出别离触及中文分词、命名实体辨认、指代消解和联络抽取等天然言语处理使命。这些使命现在的精确率都达不到人类水平。可见,人类觉得很简略的一句话,要让核算机了解起来并不简略。

3.歧义性

天然言语含有许多歧义,这些歧义依据语境的不同而表现为特定的义项。比方汉语中的多义词,只需在特定的上下文中才干确认其意义,甚至存在成心运用无法确认的歧义营建诙谐效果的用法。除了上文“苹果”的两种意思之外,“意思”这个词也有多种意义。比方,下面这则经典的笑话。

他说:“她这个人真有意思(funny)。”她说:“他这个人怪有意思的(funny)。”所以人们认为他们有了意思(wish),并让他向她意思意思(express)。他火了:“我底子没有那个意思(thought)!”她也生气了:“你们这么说是什么意思(intention)?”过后有人说:“真有意思(funny)。”也有人说:“真没意思(孙琪琪nonsense)。”(原文见《生活报》1994.11.13. 第六版)[吴尉天,1999]①

这个比方中特别用英文注解“意思”的不同义项,从旁边面表现了处理中文比处理英文更难。

但在编程言语中,则不存在歧义性②。假如程序员无意中写了有歧义的代码,比方两个函数的签名相同,则会触发编译过错。

① 摘自宗成庆《核算天然言语处理》。
② 编程言语被特意规划为无歧义确实认上下文无关文法,而且能在 O(n) 时间内剖析结束,其间 n 为文本长度。

4.容错性

书刊中的言语即便通过修改的屡次校正,也仍然无法完全避免过错。而互联网上的文本则愈加随性,错别字或病句、不规范的标点符号等随处可见。不过,哪怕一句话错得再离谱,人们仍是能够猜出它想表达的意思。而在编程言语中,程序员有必要确保拼写肯定正确、语法肯定规范,不然要么得到编译器无情的正告,要么形成潜在的 bug。

实践上,差异于规范的新闻领域,怎么处理不规范的交际媒体文本也成为了一个新的课题。

5.易变性

任何言语都是不断开展改变的,不同的是,编程言语的改变要缓慢温文得多,而天然言语则相对敏捷喧闹一些占卜抽签,天边八卦,花海-雷竞技苹果_雷竞技app苹果版_雷竞技app苹果下载。

编程言语由某个个人或安排发明而且担任保护。以 C++ 为例,它的发明者是 Bjarne Stroustrup,它现在由 C++ 规范委员会保护。从 C++ 98 到 C++ 03,再到 C++ 11 和 C++ 14,言语规范的改变是以年为单位的迁越进程,且新版本大致做到了对旧版本的前向兼容,只需少量抛弃掉的特性。

而天然言语不是由某个个人或安排发明或拟定规范的。或许说,任何一门天然言语都是由全人类一同约定俗成的。尽管存在一般话、简体字等规范,但咱们每个人都能够自在发明和传达新词汇和新用法,也在不断地赋予旧词汇以新意义,导致古代汉语和现代汉语相差巨大。此外,汉语不断吸收英语和日语等外语中的词汇,而且也在输出 niubility 等中式英语。这些改变是接连的,每时每刻都在进行,给天然言语处理带来了不小的应战。这也是天然言语分明是人类发明的,却还要称作“天然”的原因。

6.简略性

由于说话速度和听话速度、书写合租的日子速度和阅览速度的约束,人类言语往往简练、干练。咱们常常省掉许多布景常识或常识,比方我云呼充值多少成vip们会对朋友说“老地方见”,而不用指出“老地方”在哪里。关于机构称号,咱们常常运用简称,比方“工行”“地税局”,假定对方了解该简称。假如上文提出一个方针作为论题,则下文常常运用代词。在接连的新闻报丁步东道或许一本书的某一页中,并不需求重复前面的实践,而假定读者现已熟知。这些省掉掉的常识,是沟通两边共有而核算机不一定具有的,这也给天然言语处理带来了妨碍。

比尔盖茨有句话“天然言语了解是人工智能皇冠上的明珠”,广为人知。实践上,说“皇冠上的明珠”或许稍微有些笼统,咱们随意举几个比方你就知道探索者游览沙龙天然言语处理“妥妥”地无处不在了。

比方一

你有个问题,要去某查找引擎搜答案。你在查找框中输入问题,查找框可不是你的人类朋友,瞬间 Get 你的意思——查找引擎要在暗地里张狂剖析你想表达什么意思,这期间就会用到 NLP 的各种技能:中文分词、命名实体辨认、实体链接、指代消解、常识图谱等。

比方二

咱们买东西或许寄快递的时分常常会把自己的“名字手机号地址”一股脑粘贴到一个方框里,体系就会主动分隔,用的也是 NLP。

比方三

你是个英语或日语渣渣,看学术文章(ba gua xin wen)的时分你得找机器帮你翻译,这活儿也得靠 NLP。

比方四

现在给你供给服务的各种人工智能客服,尽管常常被你调戏,可是你得供认,人家根本使命完结得不错。

......

完结上面这些,天然言语处理有许多使命,下面咱们逐个介绍一些常见的天然言语处理使命,了解下天然言语处理的整个微观图景。

天然言语处理的层次

依照处理方针的颗粒度,天然言语处理大致能够分为图 1-2 所示的几个层次。

图1- 2 天然言语处理的层次

1.语音、图画和文本

天然言语处理体系的输入源总共有 3 个,即语音、图画与文本。其间,语音红域小视频和图画尽管正引起越来越大的重视,但受制于存储容量和传输速度,它们的信息总量仍是没有文本多。别的,这两种办法一般通过辨认后转化为文本,再进行接下来的处理,别离称为语音辨认(伊万卡入驻白宫Speech Recognition)和光学字符辨认(Optical Character Recognition)。一旦转化为文本,就能够进行后续的 NLP 使命。所以,文本处理是重中之重。

2占卜抽签,天边八卦,花海-雷竞技苹果_雷竞技app苹果版_雷竞技app苹果下载.中文分词、词性标示和命名实体辨认

这 3 个使命都是环绕词语进行的剖析,所以总称词法剖析。词法剖析的首要使命是将文本分隔为有意义的词语(中文分词),确认每个词语的类别和浅层的歧义消除(词性标示),而且辨认出一些较长的专有名词(命名实体辨认)。对中文而言,词法剖析常常是后续高档使命的根底。在流水线式① 的体系中,假如词法分分犯错,则会触及后续使命。所幸的是,中文词法剖析现已比较老练,根本到达了工业运用的水准。

① 指的是前一个体系的输出是后一个体系的输入,而且前一个体系不依托于后续体系。

词法剖析不只是天然言语处理的根底使命,学会它会成为咱们构建NLP常识体系的根底。引荐阅览HanLP 作者何晗《天然言语处理入门》这本书,内容很务实。

3.信息抽取

词法剖析之后,文本笑傲三千界现已呈现出部分结构化的趋势。至少,核算机看到的不再是一个超长的占卜抽签,天边八卦,花海-雷竞技苹果_雷竞技app苹果版_雷竞技app苹果下载字符串,而是有意义的单词列表,而且每个单词还附有自己的词性以及其他标签。

依据这些单词与标签,咱们能够抽取出一部分有用的信息,从简略的高频词到高档算法提取出的要害词,从公司称号到专业术语,其间词语等级的信息现已能够抽取不少。咱们还能够依据词语之间的核算学信息抽取出要害短语甚至语句,更大颗粒度的文本对用户愈加友爱。

值得一提的是,一些信息抽取算法用到的核算量能够复用到其他使命中,会在相应章节中具体介绍。

4.文本分类与文本聚类

将文本拆分为一系列词语之后,咱们还能够在文章等级做一系列剖析。

有时咱们想知道一段话是褒义仍是贬义的,判别一封邮件是否是垃圾邮件,想把许多文档分门别类地收拾一下,此刻的 NLP 使命称作文本分类。

另一些时分,咱们只想把相似的文本归档到一同,或许扫除重复的文档,而不关心具体类别,此刻进行的使命称作文本聚类。

这两类使命看上去挺相似,实践上分属两种天壤之别的算法门户,后边咱们会别离解说。

5.句法剖析

词法剖析只能得到零星的词汇信息,核算机不知道词语之间的联络。在一些问答体系中,需求得到语句的主谓宾结构。比方“查询刘医师主治的内科患者”这句话,用户真实想要查询的不是“刘医师”,也不是“内科”,而是“患者”。尽管这三个词语都是名词,甚至“刘医师” 离表明目的的动词“查询”最近,但只需“患者”才是“查询”的宾语。通过句法剖析,能够得到如图 1-3 所示的语法信息。

图1- 3 句法剖析成果

咱们发现图 1-3 中果然有根长长的箭头将“查询”与“患者”联络起来,而且注明晰它们之间的动宾联络。上面说到何晗那书中有具体介绍上面这种树形结构,以及句法剖析器的完结办法。

不只是问答体系或查找引擎,句法剖析还常常运用于依据短语的机器翻译,给译文的词语从头排序。比方,中文“我吃苹果”翻译为日文后则是“私は(我)林檎を(苹果)食べる(吃)”,两者词序不同,但句法结占卜抽签,天边八卦,花海-雷竞技苹果_雷竞技app苹果版_雷竞技app苹果下载构共同。

6.语义剖析与华章剖析

相较于句法剖析,语义剖析偏重语义而非语法。它包含词义消歧(确认一个词在语境中的意义,而不是简略的词性)、语义人物标示(标示语句中的谓语与其他成分的联络)甚至语义依存剖析(剖析语句中词语之间的语义联络)。

跟着使命的递进,它们的难度也逐渐上升,归于较为高档的课题。即便是最前沿的研讨,也没有到达能够有用的精确程度。

7.其他高档使命

除了上述“东西类”的使命外,还有许多综合性的使命,与终端运用级产品联络更严密。比方:

● 主动问答,依据常识库或文本中的信息直接答复一个问题,比方微软的Cortana和苹果的Siri;

● 主动摘要,为一篇长文档生成简略的摘要;

● 机器翻译,将一句话从一种言语翻译到另一种言语。

留意,一般认为信息检索(Information Retrieve,IR)是差异于天然言语处理的独立学科。尽管两者具有亲近的联络,但 IR 的方针是查询信息,而 NLP 的方针是了解言语。此外,IR 检索的未必是言语,还能够是以图搜图、听曲搜曲、产品查找甚至任何信息的查找。实践中还存在许多不需求了解言语即可完结检索使命的场景,比方 SQL 中的 LIKE。

作为入门常识,咱们不会评论这些高档使命,但了解天然言语处理的整个微观图景有助于咱们开辟视界,找准定位与方向。

上面咱们比较了天然言语与人工言语的异同,展现了天然言语处理的困难地点,介绍了一些常见的 NLP 使命。下面咱们扼要介绍下进行天然言语处理的几种不同办法。

天然言语处理的门户

1.依据规矩的专家体系

规矩,指仁藤萌乃的是由专家手艺拟定确实认性流程。小到程序员日常运用的正则表达式,大到飞机的主动驾驭仪①,都是固定的规矩体系。

① 差异于轿车的无人驾驭技能,飞机的主动驾驭体系只能处理预订状况,在反常状况下会报警或切换到手动驾驭。 

在天然言语处理的语境下,比较成功的事例有波特词干算法(Porter stemming algorithm),它由马丁•波特在 1980 年提出,广泛用于英文词干提取。该算法由多条规矩构成,每个规矩都是一系列固定的 if then条件分支。当词语满意条件则履行固定的工序,输出固定的成果。摘抄其间一部分规矩为例,收录于表 1-1 中。

表1-1 波特词干算法规矩集(部分)

② 下面的比方中,feed 为特别状况,不是过去式,不履行替换。bled 是 bleed 的过去式,不该履行“去 ed”。sing 不是现在进行时,不该履行“去 ing”。

专家体系要求规划者对所处理的问题具有深化的了解,而且尽量以人力全面考虑一切或许的状况。它最大的缺点是难以拓宽。当规矩数量添加或许多个专家保护同一个体系时,就简略呈现抵触。比方表 1-1 这个仅有 3 条规矩的简略体系,规矩 1 和规矩 2 其实有抵触,相似 feed这样的单词会一起满意这两个规矩的条件,然后引起矛盾。此刻,专家体系一般依托规矩的优先级来处理。比方界说规矩 1 优先于规矩 2,当满意规矩 1 的条件时,则疏忽其他规矩。几十条规矩尚可承受,跟着规矩数量与团队人数的添加,需求考虑的兼容问题也越来越多、越来越杂乱,体系保护本钱也越来越高,无法拓宽。

大多数言语现象比英文词干杂乱得多,咱们现已在上文了解了不少。这些言语现象没有必定遵从的规矩,也在时间改变,使得规矩体系显得生硬、呆板与不稳定。

2.占卜抽签,天边八卦,花海-雷竞技苹果_雷竞技app苹果版_雷竞技app苹果下载依据核算的学习办法

为了下降对专家的依托,自适应灵敏的言语问题,人们运用核算办法让核算机主动学习言语。所谓“核算”,指的是在语料库上进行的核算。所谓语料库,指的是人工标示的女孩写真结构化文本,咱们会在接下来的末节中具体论述。

由于天然言语灵敏多变,即便是言语学专家,也无法总结出完好的规矩。哪怕真的存在完美的规矩集,也难以跟着言语的不断开展而逐渐晋级。由于无法用程序言语描绘天然言语,所以聪明的人们决议以举比方的办法让机器主动学习这些规矩。然后机器将这些规矩运用到新的、不知道的比方上去。在天然言语处理的语境下,“举比方”便是“制造语料库”。

核算学习办法其实是机器学习的别称,而机器学习则是今世完结人工智能占卜抽签,天边八卦,花海-雷竞技苹果_雷竞技app苹果版_雷竞技app苹果下载的干流途径。机器学习在天然言语处理中的重要性十分之大,能够说天然言语处理只是机器学习的一种运用。此处咱们只是用“举例学习”来简略了解下。

3.前史

已然天然言语处理是机器学习的运用层,那么好像人工智能的前史相同,天然言语处理也阅历了从逻辑规矩到核算模型的开展之路。图 1-4 列出了前史上几个重要的时间段。

图1- 4 天然言语处理的前史

20 世纪 50 时代是人工智能与天然言语处理的萌芽期,呈现了许多奠基性的作业。其间最具代表性的是数学家阿兰•图灵在论文 C汉末屠家子omputing Machinery and Intelligence 提出的人工智能的充分条件——图灵测验,以及言语学家乔姆斯基的《句法结构》——认为语句是按某种与语境无关的遍及语法规矩生成的。风趣的是,前驱们的前期估量或理论都过于达观。图灵曾预言在2014 年一台 1 GB 内存的核算机就能以 70% 的概率在 5 分钟内不被识破机器的身份,可是这个达观的预言到今天也没有完结。而乔姆斯基的“遍及语法”则由于对语义的忽视而备受争议,并在后续理论中做了相应批改。无论是人工智能仍是天然言语处理,都是负重致远的课题。

20 世纪 80 时代之前的干流办法都是规矩体系,由专家手艺编写领域相关的规矩集。那时分核算机和核算机言语刚刚发明,从事编程的都是精英学者。他们雄心壮志,认为只需通过编程就能赋予核算机智能。代表性作业有 MIT AI 实验室的 BASEBALL 以及 Sun 公司(2009 年被甲骨文公司收买)的 LUNAR,别离专门答复北美棒球赛事的问题和阿波罗探月带回来的岩石样本问题。这一时期还有许多相似的问答体系,都是首要依托手写规矩的专家体系。以BASEBALL 为例,其间的词性标示模块是这样判别 score 的词性的:“假如语句中不含其他动词,则 score 是一个动词,不然是名词。”接着该体系依托词性上的规矩兼并名词短语、介词短语以及副词短语。语法模块则依据“若最终一个动词是首要动词并坐落 to be 之后”之类的规矩判别被迫句、主语和谓语。然后该体系运用词典上的规矩来将这些信息转化为“特点名 = 特点值”或“特点名 = ?”的键值对,用来表明常识库中的文档以及问句。最终运用相似“若除了问号之外一切特点名都匹配,则输出该文档中问句所求的特点”的规矩匹配问句与答案。如此生硬严厉的规矩导致该体系只能处理固定的问句,无法处理与或非逻辑、比较级与时间段。所以,这些规矩体系被称为“玩具”。为了便利表述这样的规矩逻辑,1972 年人们还特意发明了 Prol骚男的弟弟og(Programming in Logic)言语来构建常识库以及专家体系。

20 世纪 80 时代之后,核算模型给人工智能和天然言语处理领域带来了革命性的开展——人们开端标示语料库用于开发和测验 NLP 模块:198占卜抽签,天边八卦,花海-雷竞技苹果_雷竞技app苹果版_雷竞技app苹果下载8 年隐马尔可夫模型被用于词性标示,1990年 IBM 发布了第一个核算机器翻译体系,1995 年呈现第一个强健的句法剖析器(依据核算)。为了寻求更高的精确率,人们持续标示更大的语料库(TREC 问答语料库、CoNLL 命名实体辨认、语义人物标示与依存句法语料库)。而更大的语料库与硬件的开展又招引人们运用更杂乱的模型。到了 2000 年,许多机器学习模型被广泛运用,比方感知机和条件随机场。人们不再依托呆板的规矩体系,而是希望机器主动学习言语规矩。要进步体系的精确率,要么换用更高档的模型,要么多标示一些语料。从此 NLP 体系能够强健地拓宽,而不再依托专家们手写的规矩。但专家们仍然有用武之地,依据言语学常识为核算模型规划特征模板(将语料表明为便利核算机了解的办法)成为马到成功的办法,这道工序被称为“特征工程”。2010 年依据 SVM 的Turbo 依存句法剖析器在英语宾州树库(Penn Treebank)上取得了 92.3% 的精确率①,是其时最先进的体系。核算模型及完结,它们并非高不可攀的技能,完全能够完结,且在一般的硬件资源下运转起来。

① 精确来讲,是斯坦福规范下疏忽标点符号的 Unlabeled Attachment Score。

2010 年之后语料库规划、硬件核算力都得到了很大进步,为神经网络的复兴发明了条件。但跟着标示数据的添加,传统模型的精确率进步越来越不显着,人们需管式服务要更杂乱的模型,所以深层的神经网络从头回归研讨者的视界。神经网络仍然是核算模型的一种,其理论奠依据 20世纪 50 时代左右。 1951 年,Marvin Lee Minsky 规划了首台模仿神经网络的机器。1958 年, Rosenblatt 初次提出能够模仿人类感知才能的神经网络模型——闻名的感知机。1989 年,Yann LeCun 在贝尔实验室运用美国邮政数据集训练了首个深度卷积神经网络,用于辨认手写数字。只不过限于核算力和数据量,神经网络一直到 2010 年前后才被广泛运用,并被冠以“深度学习”的新术语,以差异于之前的浅层模型。深度学习的魅力在于,它不再依托专家拟定特征模板,而能够主动学习原始数据的笼统表明,所以它首要用于表明学习。

4.规矩与核算

朴实的规矩体系现已日渐式微,除了一些简略的使命外,专家体系现已掉队了。20 世纪 70时代,美国工程院院士贾里尼克在 IBM 实验室开发语音辨认体系时,从前评论道:“我每开除一名言语学家,我的语音辨认体系的精确率就进步一点。”① 这句广为流传的快人快语不免有些尖刻,但公正地讲,跟着机器学习的日炼神劫渐老练,领域专家的效果越来越小了。

① 原话是“Eve青翅隐翅虫ry 文丹妮time I fire a linguist, the performance of the speech recognizer goes up”。

实践工程中,言语学常识的效果有两方面:一是协助咱们规划更简练、高效的特征模板,二是在语料库建设中发挥效果。实践上,实践运转的体系在预处理和后处理的部分仍然会用到一些手写规矩。当然,也存在一些特别事例更便运用规矩特别处理。

5.传统办法与深度学习

尽管深度学习在核算机视觉领域取得了耀眼的成果,但在天然挽妻言语处理领域中的根底使命上发力并不大。这个定论或许有点意外,作为数据科学从业者,用数据阐明问题最合适。表 1-2收录了《华尔街日报》语料库上的词性标示使命的前沿精确率。

表1-小小男儿狼 2 词性标示精确率排行榜

② “作者姓 ( 年份 )”是一种常见的论文引证格局,可通过该信息(必要时参加主题要害词)查找到论文。

截止 2015 年,除了 Bi-LSTM-CRF 以外,其他体系都是传统模型,最高精确率为 97.36%,而 Bi-LSTM-CRF 深度学习模型为 97.55%,只是进步了 0.19%。2016 年,传统体系 NLP4J 通过运用额定数据与动态特征提取算法,精确率能够到达 97.64%。

相似的景象也在句法剖析使命上重演,以斯坦福规范下宾州树库的精确率为例,如表 1-3所示。

表1- 3 句法剖析精确率排行榜

2014 年首个神经网络驱动的句法剖析器还不如传统体系 TurboParser 精确,通过几年的开展精确率总算到达 95.7%,比传统算法进步 3.4%。这个成果在学术界是十分显着的,但在实践运用中并不显着。

另一方面,深度rr4480学习触及许多矩阵运算,需求特别核算硬件(GPU、TPU 等)的加快。现在,一台入门级塔式服务器的价格在 3000 元左右,一台虚拟服务器每月仅需 50 元左右,但仅一块入门级核算显卡就需求 5000 元。从性价比来看,反而是传统的机器学习办法更适合中小企业。

此外,从传统办法到深度学习的搬迁不或许一蹴即至。两者是根底和进阶的联络,许多根底常识和根本概念用传统办法解说会更简略、易懂,它们也会在深度学习中重复用到(比方 CRF与神经网络的结合)。无论是传统模型仍是神经网络,它们都归于机器学习的领域。把握传统办法,不只能够处理核算资源受限时的工程问题,还能够为将来应战深度学习打下坚实的根底。

——本文改编自《天然言语处理入门》

目录

第1章 新手上路

第2章 词典分词

第3章 二元语法与中文分词

第4章 隐马尔可夫模型与序列标示

第5章 感知机分类与序列标示

第6章 条件随机场与序列标示

第7章 词性标示

第8章 命名实体辨认

第9章 信息抽取

第10章 文本聚类

第11章 文本分类

第12章 依存句法剖析

第13章 深度学习与天然言语处理