一、汉语部分实体的抽取模型(论文文献综述)
赵红燕[1](2021)在《基于框架语义表示的关系抽取技术研究》文中进行了进一步梳理关系抽取是信息抽取的关键任务,其目的是从给定的自然语言文本中识别实体与实体之间的关系,并转化为人机可读的结构化形式存储。该任务不仅对知识图谱构建和扩充具有重用的作用,而且在智能搜索、自动问答及知识推理等任务中具有重要的应用价值。传统的关系抽取方法依赖特征工程和关系抽取模式,无法满足动态海量文本关系抽取的需求。近年来,随着深度学习技术在自然语言处理不同任务上的成功应用,深度学习成为关系抽取的主流方法。基于深度学习的关系抽取能够从大规模文本中自动学习关系表达的语义特征和关系模式,在性能上已经显着超越了传统模型,但仍然在语义表示、远程监督噪音、数据不平衡等方面存在着亟待解决的问题。框架语义知识库,从人类认知角度出发,以框架为研究对象,通过词元、框架元素、框架关系等框架语义要素对实体、实体之间的关系以及实体参与的事件等语义场景进行了细粒度的刻画。在基于深度学习的关系抽取模型中,引入框架语义要素实现实体语义场景表示,能够增强实体上下文语义表征,改善关系抽取模型的性能。为此,本文围绕关系抽取的挑战问题,结合框架语义知识,从框架识别及框架语义要素抽取、关系抽取语义表示、远程监督关系抽取噪音以及关系抽取的数据不平衡四个方面展开研究。本文主要研究内容和贡献如下:(1)框架识别与框架语义要素抽取。框架识别是本文所有研究的一个基础性工作,它直接关系到对实体语义场景描述的是否准确。为此,本文提出了一种基于DNN的汉语框架识别模型,利用依存关系及依存词的词向量等特征表示目标词的上下文,通过神经网络自动学习目标词的上下文特征。为了使重要特征获得更大的关注,提出了一种基于两级注意力机制的卷积神经网络框架识别模型。该模型分别在输入层和池化层引入注意力机制,引导模型在学习过程中更关注和目标词密切相关的词和n-gram特征;采用多尺寸的滤波器,捕获不同粒度的特征,模型性能显着好于所有基线模型。在框架识别的基础上,提出了单框架语义要素抽取算法和扩展框架语义要素抽取算法,为基于框架语义关系抽取的相关任务提供技术支持。(2)基于框架语义和序列特征的关系抽取。针对神经关系抽取模型的语义表示问题,提出了一种融合框架语义和序列表示的关系抽取模型。研究了基于注意力机制的单框架语义要素融合方法和基于注意力机制的扩展框架语义要素融合方法;提出了多层次框架语义要素融合模型,在实体对语义场景表示中充分考虑了框架内和框架间的语义信息;在此基础上,提出了一种基于框架语义要素和序列特征相结合的句子表示模型;使用自注意力机制的Transformer神经网络架构建模实体提及之间的长距离依赖,在中英文数据集上均优于所有的基线模型。(3)基于框架语义上下文感知的远程监督关系抽取。针对远程监督关系抽取的噪音问题,提出了一种基于规则的实例选择方法和基于框架语义上下文感知的远程监督关系抽取模型。首先通过基于规则的方法对包中的实例进行选择,为关系抽取模型提供更加干净的训练实例;提出了层次化的框架语义表示模型,通过两层注意力机制使模型在框架语义表示时更加关注对目标关系重要的框架和语义场景,实现了基于框架语义的远程监督关系抽取。实验结果表明提出的方法能够有效降低远程监督关系抽取的噪音问题。(4)基于框架语义和多实例学习的非平衡数据关系抽取。针对关系抽取标注数据不平衡问题,提出了一种基于框架语义和多任务学习的关系抽取模型。该模型在实体上下文表示时引入实体对语义场景的框架表示,旨在从小样本关系实例中学习一种通用的实体上下文表示模式,缓解样本不平衡问题;引入语义场景的表示,增强了正例和负例的区分度,减弱负例对模型性能的影响;针对负样本过多问题,采用多任务学习方法,把关系抽取任务分为关系识别和关系分类两个子任务,使用参数共享机制,联合优化两种任务的目标函数,降低了负样本对关系抽取性能的影响。
邹群盛[2](2021)在《基于多任务学习的临床病历表型谱抽取方法研究》文中指出临床病历是一种重要的数据类型,对于临床分析来说,通常包含有价值和详细的患者信息。近年来,医学领域的自然语言处理已经成为生物医学信息学的一个活跃研究方向。然而,中文临床病历一般以半结构化的文本形式存在,对医学研究造成了一定的困扰。因此,迫切需要对病历文本进行信息抽取,形成结构化病历,有效地利用临床文本。现阶段涌现了大量基于深度学习和预训练模型的方法,在医学命名实体识别领域取得了较好的结果,但多任务学习的相关研究仍较为匮乏。是以,本文结合自然语言处理方法,以人机协同的方式构建了标准数据集,然后实现了细粒度的表型命名实体识别方法,并探索了多任务学习在生物医学命名实体识别领域的实践。本文从以下三个方面介绍:(1)针对现有中文标准数据集缺乏的问题,本文构建了人机协同表型谱标注框架,融合了无监督实体抽取、实体匹配预标注、同源实体抽取模型预标注和基于贪心算法的核心样本筛选等算法。目前,本文基于此框架,已经构建了4个标准数据集,它们分别是TCM-HN、COVID-19、TCM-SX及TCM-HB。其中共包含76,581份病历文本,1,675,200个已标注实体,包含阴性症状、阳性症状和西医疾病等十余种实体类型。本文对标注结果的统计显示,80%的实体由机器标注而成,且审核部分的人工工作量也只占约40%,说明以人机协同的方式标注病历文本,极大地减少了人工标注的工作量。(2)本文以TCM-HN和COVID-19为数据基础,提出了细粒度的表型命名实体识别方法:Phenonizer。该方法利用BERT获得字符级全局上下文表示,结合Bi L-STM提取局部上下文特征,通过CRF捕获实体标签之间的依赖关系。在COVID-19数据集上的结果表明,Phenonizer优于基于随机嵌入、Glo Ve和Word2Vec的方法,F1-score为0.8960。通过比较不同领域的字符嵌入,发现医学语料训练的字符嵌入给模型的F1-score带来了0.0103的提升。此外,本文在两种粒度数据集上对Phenonizer进行了评价,证明了细粒度数据集可以使F1-score略微提高0.005。而且,细粒度数据集使模型能够区分阴阳性症状。最后,本文对Phenonizer的泛化性能进行了测试,F1-score为0.8389,并融合小部分COVID-19数据进行微调,使F1-score提升至0.9097。结果表明,Phenonizer是一种可行的方法,可以有效地提取症状信息,并具有良好的泛化性能。(3)对于多任务学习在Bio NER领域的探索,本文提出了一种级联形式的多任务表型实体抽取方法:CMTL-NER。以W2VM edical-Bi LSTM-CRF和Phenonizer为基础模型,在不影响模型性能的前提下,CMTL-NER减少了模型的参数量和训练时间。本文比较了不同文本长度下,单-多任务模型的性能和训练时间。在CCKS-19数据集上,CMTL-NER的F1-score比单任务模型高0.01;在TCM-HN数据集上,CMTL-NER的F1-score高0.005。此外,CMTL-NER的每轮训练时间都比单任务模型短。最后,本文对经典多任务Bio NER方法MTM-C进行了修改,使其适用中文数据集,并将其作为基线模型。在TCM-HN和TCM-HB数据集上,MTM-C的F1-score都比最优的PhenonizerCM T L-N ER略低0.02,证明了CMTL-NER方法的性能和稳定性。
刘子晴[3](2021)在《中医门诊电子病历关键临床信息抽取方法研究》文中研究指明背景:在信息化浪潮的席卷下,中医门诊电子病历的数量在快速增加。但这些门诊病历数据通常以非结构化文本形式存在,将其转化为临床经验和医学证据需要进行大量加工、处理、和总结,这一过程耗时费力。自然语言处理技术发展至今,对从非结构化文本数据中抽取特定信息已有丰富研究基础,但在通用领域行之有效的模型应用于医学这一特定领域时仍需对现有技术进行领域相关的适应性改进。在实际的中医临床数据处理工作中发现,中医门诊病历中的临床表现重叠交错式表述和相关信息抽取常常是病历结构化工作的难点。这两个任务通常可以用自然语言处理技术中序列标注模型来解决,然而现有方法未能细致解决其中关键问题。目的:此次研究的目的可以概括为:(1)以中医门诊电子病历中的临床表现和临床事件抽取为切入点,深入研究中医领域的关键临床信息抽取任务的特点。(2)结合当前自然语言处理技术的前沿方法,提出适用于中医门诊电子病历文本特点的自然语言处理方法,用于重叠交错式临床表现和中医临床事件的信息抽取。方法:研究首先深入分析了中医电子病历中临床表现和事件特点,在序列标注的任务框架下组织整个研究,首先建立了中医门诊电子病历关键临床信息抽取框架,设定了两类信息抽取的具体目标。其次组织了两个语料库的构建,分别是中医临床表现抽取的中医内科门诊电子病历标注语料库和面向临床事件抽取的中医治疗多囊卵巢综合征门诊电子病历标注语料库。再次,根据中医门诊电子病历中临床表现的记录特点,提出了面向嵌套、非连续和重叠交错式临床表现为目标的两阶段抽取方法,并构建了基于多头机制的联合学习模型完成抽取这一任务。根据中医门诊电子病历中临床事件的记录特点,提出了关系主体、关系客体和关系类型论元三元组为目标的抽取方法,并构建了层叠式指针网络来完成这一任务。最后,利用已标注的两个语料库针对提出的两类方法进行了数据抽取实验,并对结果进行分析。研究所使用的神经网络模型构建基于Pytorch1.4和Tensorflow2.0框架,所有方法均使用准确率(Precision)、召回率(Recall)和两者的调和平均值F1值进行评估。结果:中医门诊电子病历语料库构建结果说明,中医内科门诊病历中的临床表现多以非连续实体和重叠交错实体形式出现。中医妇科门诊病历中的月经事件记录频繁且复杂,各事件要素记录形式多样且完整程度差距较大。事件论元角色关系抽取方面,同一事件要素参与多次论元角色关系的情况较为普遍。所标注的中医内科门诊语料包含2255诊次共43143个临床表述。在所有的临床表述类型中,超过63%的临床表现表述是以非连续的形式记录,由独立症状语素实体构成临床表述占10.91%,由连续多个实体构成的临床表述占18.51%。超过43.81%的临床属于重叠交错表述。所标注的多囊卵巢综合征病历语料库包含783诊次共1487个月经事件,17984个事件要素,14116个论元角色关系。在所有17984个事件主体和论元中有大约30%参与到了两个及以上的论元角色关系构成,其中有近90%的事件要素了重叠1~4次。在所有月经事件记录中记录完整率最高的分别是月经首日日期、月经持续时间、促排卵用药情况和月经量。其中有72.49%记录了月经的持续时间;有66.04%记录了当前的月经是否与用药相关;有60.66%记录了月经量。在所有的论元角色关系中,73.8%为表示事件主体及事件要素的从属关系,26.2%表示月经相关信息及描述词之间的补充说明关系。临床表现抽取实验结果显示,采用标签嵌入策略的多头机制实体关系联合学习模型取召回率81.83%和F1值分别为82.16%,采用标签嵌入策略的流水线模型的准确率上达到84.96%。采用中医临床语料预训练的BERT对流水线方法和联合学习方法均有提升:使用中医语义BERT的流水线抽取模型F1值为72.22%;使用中医语义BERT的联合抽取模型F1值为80.16%。标签嵌入策略则对流水线方法的提升更为明显,采用标签嵌入之前,流水线方法的准确率为74.96%,F1值为72.22%,采用标签嵌入策略后,流水线方法的准确率提升至84.96%,F1值提升至78.51%。采用标签嵌入策略后,采用中医语义BERT作为语言表示的联合学习模型F1值从81.02%提升至82.16%。中医内科门诊的临床表现抽取实验表明,标签嵌入策略对实体关系抽取任务具有较好的提升能力。使用领域相关语料预训练的中医语义BERT在语义特征表示方面优于通用域语料训练的BERT。基于参数共享的联合学习模型不仅可以更好地利用BERT所抽取出的语义信息,而且命名实体抽取模块的性能提升也进一步缩小了错误传递给整体任务所带来的不良影响。临床事件抽取实验结果显示,使用RoBERTa作为语言表示模型的层叠式指针网络抽取模型在采取预计梯度下降法进行对抗训练时取得了最佳抽取效果。该模型在月经事件要素抽取子任务中取得了 89.71%的准确率,92.42%的召回率,F1值为91.05%。在事件抽取最终任务中取得了 76.11%的准确率,79.51%的召回率,F1值为77.78%。采用全词遮罩训练的BERT模型在采用了层叠式展开策略比起随机选择策略在准确度上提升了 3.31%,达到了 88.62%,召回率提升了 0.5%,达到了 92.27%,F1值提升了1.28%,达到了 90.41%。采用RoBERTa表示语言特征的层叠式指针网络在准确率上提升了 2.09%,并取得了最高的F1值74.34%。使用预计梯度下降法使三种语言表示模型的准确率分别提升了 1.16%、1.09%和2.86%。采用预计梯度下降法训练的RoBERTa模型取得了 91.5%的最佳事件要素抽取效果,比基线方法高出了 1.75%。快速梯度法对BERT-wwm-ext的召回率提升高达8.42%。整体而言,增加了预计梯度下降法的RoBERTa模型在实验数据集上取得了最高F1值77.78%。中医妇科门诊病历中的月经事件抽取实验显示,扩大了预训练预料规模的全词遮罩训练任务的双向编码Transformer在各项任务中均比BERT-base有更高的抽取效率。层叠式展开策略在各项任务中均优于随机选择策略。不同的语言表示模型对扰动策略的敏感度不一致,但总体上对抗训练策略对各类模型都具有明显的提升效果。结论:此次研究设计的两阶段抽取法可以有效完成中医内科门诊病历中的临床表现抽取,所构建的多头机制模型在重叠关系识别方面优于基线方法,无需外部NLP工具的任何帮助即可自动捕获语义特征。更适应中医内科门诊电子病历中的临床表现实体抽取。研究所采用的三元组抽取策略适用于中医妇科门诊中的月经事件抽取,所构建的基于层叠式指针网络的联合学习模型适用于中医妇科门诊病历的结构化。
高崇[4](2021)在《数学自然语言处理中的关键技术研究及实现》文中研究指明自然语言处理(Natural Language Process,NLP)是计算机科学和语言学的交叉,是人工智能领域的一个重要分支。近几年来随着计算机运算能力的提高,自然语言处理技术发挥了越来越重要的作用,来帮助解决人们实际生产生活领域中遇到的各方面问题。中文自然语言处理是NLP领域的重要组成部分,随着我国综合国力的不断增强、国际地位的不断提升,汉语也越来越作为一门流行而普及的语言受到世界的关注。中文自然语言处理同样具有一般自然语言处理中的一些共性的问题与难点,如词义消歧、一词多词性等,同时也有一些诸如自动分词的独特问题。如何设计方案让计算机解决中文自然语言处理中的这些难点,并做到准确理解中文文本,需要研究人员的不断深入探索。初等数学文本是一般语言文本的一个特殊分支。一方面它既是规范化的语言描述,有着主谓宾、主体客体等句子主干结构;另一方面它是混合语言而非单一语言文本,并且多为中文和英文组合。因此许多传统的NLP任务在数学文本上,既有着一般文本的共性部分,又体现了有别于单语言文本的特性部分。而在初等数学中英文混合文本上进行自然语言理解的探索,是一个困难但有挑战性的任务,它对语言模型的健壮性、以及诸如分词和实体命名等任务的精确性提出了更高的要求。本文将会探讨自然语言处理在初等数学中英文混合文本理解上的一个最佳实践。本文从自然语言理解现存的问题和相关技术出发,将数学自然语言处理流程分解为一个个小环节,并对其中的关键技术进行了详细的研究与实现。在数学领域的分词和词性标注任务上,本文基于哈工大的LTP模型进行了数学领域的封装和增强;在数学命名实体识别问题上,本文提出了一种基于一阶谓词逻辑依赖的“类型递进”策略,并设计了基于深度学习的中文实体类型边界识别模型,提升了在中英文混合文本上的实体命名效果。本文最终实现的融合模型既能满足高召回率要求,同时针对线上负样例实现快速纠错,能够用来解决初等数学中英文混合文本中的自然语言理解问题。
万文军[5](2020)在《基于实体关系的NL2SQL语法结构构建》文中研究指明自然语言转结构化查询语言(Nature Language To Structured Query Language,NL2SQL)是自然语言接口领域的热点问题之一。当前,由于含嵌套查询SQL语法结构难构建,这一领域研究多针对不含嵌套的简单语句,对于含嵌套子句的复杂查询,处理过程并不理想。然而在日常生活中,含有语义嵌套的查询普遍存在,因此,嵌套查询的SQL语法结构构建,对于NL2SQL技术的工程化具有重要意义。针对NL2SQL任务中,含嵌套查询SQL语法结构构建的问题,本文展开相关研究,并提出相关解决方案。本文一方面基于实体关系的思想,对嵌套查询SQL语法结构进行表示,将语法解析问题转为关系抽取问题;另一方面针对实体关系判定问题,提出基于Bi-LSTM(Bidirectional Long Short-Term Memory)网络的关系抽取模型,同时设计基于SQL语法的关系修正算法,以提升SQL语法结构的准确率。本文主要研究工作包括:(1)针对直接解析嵌套SQL语法结构较困难的问题,提出基于实体关系的SQL语法结构表示方法。设计3类实体间无向连接关系表示SQL语法结构,借助关系抽取算法预测实体关系以构建SQL语法结构,避免直接解析的困难,提升预测准确率。每条查询语句可构建多个关系抽取样本,降低了数据采集和标注成本。(2)针对查询语句中实体关系预测问题,提出基于Bi-LSTM网络的关系抽取模型。模型输入查询语句和数据表的特征表示,采用结合注意力机制的Bi-LSTM网络捕捉双向关键语义信息。实验结果表明,该模型针对嵌套查询中的实体关系抽取效果良好。(3)针对查询语句中词汇表达的多义性问题,提出基于权重的列名向量化表示方法。以列名常用词向量加权平均替代常规列名表示,相比较常规列名向量表示方式,基于权重的列名向量化方法在查准率、查全率和F1值等指标上,有着更高的性能表现。(4)提出基于SQL语法的关系修正算法。在关系连接定义和SQL语法结构的基础上,构造2种语义约束,将查询语句中不同的实体关系进行综合分析,修正部分预测错误的实体关系。实验分析表明,修正算法处理后,针对多条件含嵌套语句,语法结构预测准确率提升了1.3%。
慈祯嘉措[6](2020)在《贫语言资源条件下的藏汉(汉藏)机器翻译关键技术研究》文中认为随着深度学习在自然语言处理研究中取得突破性进展,机器翻译技术也发生了革命性的变化,被广泛应用于人们的生活和工作中。我国作为一个统一的多民族国家,党和政府高度重视少数民族自然语言处理。近年来,我国少数民族自然语言处理相关技术蓬勃发展,尤其是藏语自然语言处理,更是随着科学技术的发展不断地在进步。不论基于统计还是基于神经网络的机器翻译方法,都需要具备大规模的双语或多语语言数据资源作为支撑,对于藏语相关的藏语自然语言处理研究而言,依然存在着数据资源稀缺、理论基础薄弱和技术方法不够成熟等问题,本文希望通过藏汉语言数据资源构建、单语语言模型融合、迭代式回译策略的应用以及跨语言模型预训练等理论和方法的研究,为贫语言资源条件下的藏汉机器翻译提供一个有效的研究思路,同时缓解目前藏汉机器翻译中资源稀缺、翻译性能不理想等问题,为藏区经济社会发展提供语言互译的技术支撑。本文的主要工作和创新点总结如下:针对藏汉语言数据资源匮乏问题,本文提出了一种面向藏汉机器翻译的语言资源构建技术,并构建了一个基于人民日报(藏文版)的藏、汉单语语料库和藏汉双语平行语料库。本文首先使用基于Web的大规模资源获取技术收集藏语单语新闻语料,并通过CNN+Bi-LSTM+CRF的藏文分词技术和Bi-LSTM+CRF的命名实体识别技术识别藏语新闻中的时间、地点、人物、组织机构等命名实体,并将其进行粗翻译,得到对应的汉语命名实体,然后通过汉语命名实体匹配到相对应的汉语新闻并将其进行预处理,通过篇章特征集合的相似度计算和基于Bi-LSTM+Attention模型的跨语言句子相似度计算,对藏汉两种语言的新闻文本进行篇章对齐和句子对齐,最终构建一个具有53.834万句藏语单语、61.759万句汉语单语和53.762万句对的藏汉双语平行语料库。针对藏汉机器翻译中双语平行语言资源缺乏,而藏汉两种语言的单语数据较为丰富的问题,为有效利用资源丰富的藏语单语数据以提高藏汉神经网络机器翻译的性能,本文提出了一种融合单语语言模型的藏汉机器翻译方法。本文首先通过循环神经网络语言模型建模的方法构建藏语单语语言模型,并将其与翻译模型的解码端预输出进行融合处理,利用浅层融合和深层融合的方式,将翻译模型生成的词和语言模型生成的词重新进行加权排序,使源语言与目标语言产生映射关系,最终输出目标语言。通过这种融合单语语言模型的藏汉机器翻译建模方法,可有效提升贫语言资源条件下的藏汉机器翻译的性能,经实验,这种方法在相同资源条件下,比原有的Transformer基线系统提升了3.4(藏-汉)和4.7(汉-藏)个BLEU值。针对贫资源条件下藏汉机器翻译性能不佳的问题,提出了一种迭代式回译策略的藏汉机器翻译方法。本文首先通过资源构建技术和实验室原有数据资源构建一个Transformer初始系统,对较大规模的单语语料(正向)进行翻译,得到源端是正确的句子,目标端是翻译生成的句子,然后通过平行句对过滤机制构建具有较强监督信息的伪藏汉双语平行语料,将其加入到翻译模型的训练中,然后进行回译(反向),通过相同的方式得到目标端是正确的句子,而源端是翻译生成的句子,经多次迭代实验,在初始系统原有的性能指标上,提升了6.7(藏-汉)和9.8(汉-藏)个BLEU值。针对藏汉平行数据资源规模和领域受限,对监督式神经网络机器翻译模型的适应性较差的问题,提出了一种跨语言模型建模的藏汉机器翻译方法。本文首先构建了一个以Transformer为基线系统的藏汉机器翻译系统,通过对藏、汉掩码语言模型的预训练和藏汉跨语言翻译模型的建模,建立了富资源(汉)和贫资源(藏)之间的映射关系,然后将带有详细的语言信息和位置信息标签的藏汉双语句子以文本流的形式作为输入,通过这种预训练方式优化基线模型的性能,经实验表明,BLEU值分别提升了8.1(Transformer Base+MLM和Transformer Base)和5.7(Transformer Base+MLM和SMT)。本文一方面通过对藏汉语言资源构建和相关技术的研究,构建面向藏汉机器翻译的语言资源库,另一方面通过研究贫语言资源条件下的藏汉机器翻译理论和方法研究,优化和改进藏汉机器翻译的性能,取得了一些成果,为今后藏汉机器翻译研究提供了一个可借鉴的思路和方法。
孙玉轩[7](2020)在《古汉语知识图谱的构建方法研究》文中研究表明高速发展的自然语言处理技术已越来越频繁地在生活中应用,人们通过这种技术进行兴趣推荐、机器翻译以及制作问答系统等。现今自然语言处理应用都集中于英语或现代汉语上,但在古汉语的应用上还比较匮乏。之所以研究力度还不够是因为古汉语的和现代汉语之间存在一定的差别,大部分古汉语文本都是无结构化的数据,且同一个人物在同一部作品中存在使用不同名称的问题,如何将无结构化的古汉语文本转换并解决一人多名的问题是本文的重点。同时本文还提出了一种新型神经网络模型进行实体间的关系抽取,可以用于对古汉语知识图谱进行知识扩充。本文的研究重点在于古汉语数据的处理并根据获得的数据构建知识图谱,课题选取的语料为中国的古典文化着作,古汉语文本属于无结构化的数据,需要先对其进行数据清洗,将处理后的数据存储于图数据库中并实现查询或其他功能。我们使用小说作为原始语料,首先对其中的每一个句子进行分词,对分词之后的语句进行命名实体识别,之后利用第三方知识库对识别实体之后的数据进行关系标注获得结构化数据。该数据集由实体、实体间的关系以及实体所存在的语境构成,我们去除引入的部分噪声数据。之后在本实验中提出了一种算法,解决结构化文本中存在的一人多名问题。本文另一项工作是提出了一种新型的神经网络结构BLSTM-CNN运用在关系抽取任务中,模型的思想主要来源于双向长短期记忆网络和卷积神经网络,实验证明该模型在实体关系分类中表现优异,在经典的关系抽取任务SemEval2010task8上取得了非常理想的效果,优于如今广泛使用且取得最好效果的基于自注意力机制的双向LSTM模型。之后将这种神经网络模型应用于清洗后的古汉语数据集进行关系预测任务。最后利用抽取结构化数据中的三元组,建立知识图谱,并对古汉语间的实体关系进行可视化展示。
曹明辉[8](2020)在《面向旅游服务的智能标注及知识图谱构建系统》文中指出随着互联网技术的不断更新和进步,网络信息也在呈指数迅猛增长,如何从海量的网络数据中提取出有价值的信息,并有效地利用起来,受到了人工智能领域的研究者们热切关注,近年来层出不穷的海量数据处理及存储技术相继被提出,其中最为引人瞩目的莫过于知识图谱。知识图谱目前已经在智能问答系统和智能推荐等应用中得到广泛的使用。然而,旅游领域的知识图谱却十分缺少,使得旅游信息不能够得到很有效地利用,这无疑减缓了智慧旅游的发展。针对目前互联网旅游数据量巨大,但并没有得到高效利用的现状,本文以海南地区为例,主要基于旅游游记,从旅游游记中提取出和旅游有关的知识内容,构建一个在现实生活中可供人们使用的旅游知识图谱。首先,基于Scrapy框架构建爬虫系统,从目前主流的旅游网站获取关于海南地区的旅游游记信息。通过对游记数据进行清洗等预处理工作后,进行词频统计分析,挖掘出人们在旅游中切实关注的内容主题,根据分析结果,定义旅游实体及实体关系,构建命名实体识别和关系抽取数据集,用于深度学习模型训练,以便后续对非结构化的游记数据进行旅游实体抽取和关系抽取。其次,使用Protege本体编辑工具进行旅游本体编辑,对获取到的三元组知识进行编辑,接着使用Neo4j数据库,对模式层的本体和数据层的三元组进行存储,再采用实体链接技术对数据进行实体对齐,最后对知识图谱周期性更新的方法进行介绍和探讨,从而实现一个完整的知识图谱构建系统。在构建实体识别和关系抽取数据集时,发现现有标注工具仍然需要大量的人工操作,这无疑令标注数据变得低效,故本论文设计了智能标注系统,快速实现数据标注,减少人工标注成本。最后,为了对构建的旅游知识图谱进行应用,以便用户从中获取需要的信息,本论文特设计了基于知识库的智能问答系统,知识库问答系统主要采用深度学习技术实现知识问答,并设计智能旅游问答助手,以微信公众号的方式呈现给用户,用户可以直接使用自然语言进行提问,问答系统通过对问句进行处理,最后返回相应的答案给用户。
贾承勋[9](2020)在《面向汉越神经机器翻译的伪平行语料生成方法研究》文中研究表明神经机器翻译要想取得了良好的翻译效果,需要大规模的训练数据,而低资源语言由于训练数据稀缺导致其翻译性能不佳。汉语-越南语是典型的低资源语言对,训练数据不足极大的影响了汉越神经机器翻译的性能。目前利用现有小规模数据进行数据增强是提升低资源语言神经机器翻译性能较为有效的方法,当前已经有多种进行数据扩展的相关研究,例如基于词的替换、单语数据回译和基于枢轴语言三种生成式方法,但这些方法依然存在相应的问题,为了提高生成式数据扩展方式在汉越翻译任务上的应用,本文主要在以下三个方面开展了进一步的研究:(1)提出一种基于短语替换的汉越伪平行句对生成方法。考虑到汉越词级替换中易存在一词多译问题,所以对基于更大粒度的替换进行了研究,提出了一种基于短语替换的汉越伪平行句对生成方法。利用小规模双语数据进行短语抽取构建短语对齐表,并通过在维基百科中抽取的汉越实体词组对其进行扩充,在对双语数据的汉语和越南语分别进行短语识别后,利用短语对齐表中与可替换短语相似性较高的短语对进行替换,以此实现短语级别的数据扩充,并将生成的伪平行句对与原始数据一起训练最终的汉越神经机器翻译模型。(2)提出一种融合单语语言模型的汉越伪平行语料生成方法。考虑到汉语和越南语单语数据的可利用性,我们在回译方法的基础上,将利用大量单语数据训练的目标语言的语言模型与神经机器翻译模型进行融合,在回译过程中通过语言模型融入语言特性,以此生成更规范质量更优的伪平行数据,并将生成的语料添加到原始小规模语料中训练最终汉越翻译模型。在汉-越翻译任务上的实验结果表明,通过融合语言模型生成的伪平行数据可以更有效地提升汉-越神经机器翻译的性能。(3)提出一种基于枢轴语言的汉越神经机器翻译伪平行语料生成方法。伪平行数据生成方法主要有基于词的替换、单语数据回译和枢轴翻译三种。目前的研究集中于三种方法的分别使用,缺少方法间融合利用方面的研究工作,针对此问题,利用英语作为枢轴语言,在汉到英到越正向枢轴的基础上,融入利用稀有词构建的汉-英和英-越双语词典,将汉语单语数据通过模型翻译成英语数据,再利用英-越模型将其翻译成越南语数据,其次进行越到英到汉反向枢轴翻译将越南语单语数据翻译为汉语,以此在两个方向上生成汉越伪平行数据,并利用语言模型对生成的伪平行数据进行筛选。汉-越翻译任务上的实验结果表明,提出的融入双语词典的正反向枢轴方法,能够产生质量更优的伪平行语料,进而提升汉越神经机器翻译任务的性能。(4)构建了汉越伪平行语料库并对其进行测评。通过以上三种方法生成汉越伪平行语料,针对在资源稀缺情况下汉越伪平行数据的最佳利用方案进行测评,对伪平行数据与原始数据的比例及伪平行数据质量对系统性能的影响进行了探索。
陈睿[10](2020)在《基于图结构的语音智能交互关键技术研究》文中认为随着科学技术与社会的进步以及人工智能技术的快速发展,人机交互已不单纯依赖于键盘、鼠标或者显示器的方式进行,由于人机之间通过语音的方式进行交互更符合人类的沟通习惯,同时也更加便捷,所以通过语音的方式控制计算机系统的行为越来越受到人们的青睐,此类系统一般基于人工智能技术实现,故称为语音智能交互系统,语音智能交互及相关技术是计算机系统未来发展的重要分支。语音智能交互系统目前分为闲聊型与任务型两种类型,任务型交互系统以完成具体任务为目标,旨在通过语音的形式接收用户向计算机发出的指令,然后借助一系列算法分析用户真实需求,最后对用户做出有效响应,语音智能交互系统的响应形式不局限于语音,也可以是动作的执行结果、界面的更新等多种形式。本文旨在针对语音智能交互系统的关键技术进行研究,主要工作集中于对语义理解模块与对话管理模块的分析与设计,首先对车载领域下的语音交互过程以及相关内容进行分析,然后对其特点进行总结,再然后通过多组对比实验得出可以满足需求的解决方案,最后针对该系统进行设计与实现。该系统中,语义理解模块的核心功能是关键信息抽取,本文提出词槽序的概念,利用词槽序模型可以较准确地从用户输入的短句中抽取出系统感兴趣的内容,但是词槽序模型的本质是基于模板的方法,它拥有一定的泛化能力但不是很强,经过实验发现神经网络模型可以较好地弥补词槽序模型的上述缺陷,所以在词槽序模型的基础之上又进一步提出使用词槽序与Bi-LSTM-CRF网络混合模型的方式执行关键信息抽取任务这一方案。会话管理模块的核心功能是意图识别以及对会话上下文的管理,针对意图识别任务,本文提出词槽序与TEXTCNN网络混合模型,该模型可在一定程度上缓解本文的研究领域内无优质训练数据集这一问题。针对会话上下文管理这一任务,本文提出基于规则的解决方案,该方案使系统拥有了一定的多轮交互能力。
二、汉语部分实体的抽取模型(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、汉语部分实体的抽取模型(论文提纲范文)
(1)基于框架语义表示的关系抽取技术研究(论文提纲范文)
中文摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景及意义 |
1.1.1 研究背景 |
1.1.2 研究意义 |
1.2 关系抽取研究现状 |
1.2.1 基于模式的关系抽取 |
1.2.2 基于传统机器学习的关系抽取 |
1.2.3 基于深度学习的关系抽取 |
1.3 关系抽取的挑战问题 |
1.4 框架语义分析及其应用研究现状 |
1.4.1 框架语义分析研究现状 |
1.4.2 框架语义应用研究现状 |
1.5 研究内容和组织结构 |
1.6 本章小结 |
第二章 框架识别及框架语义要素抽取 |
2.1 引言 |
2.2 基于DNN的汉语框架识别模型 |
2.2.1 算法模型 |
2.2.2 实验与分析 |
2.3 基于两级注意力机制的卷积神经网络框架识别模型 |
2.3.1 算法模型 |
2.3.2 实验与分析 |
2.4 框架语义要素抽取 |
2.4.1 单框架语义要素抽取算法 |
2.4.2 扩展框架语义要素抽取算法 |
2.5 本章小结 |
第三章 基于框架语义和序列表示的关系抽取 |
3.1 引言 |
3.2 多层次框架语义要素融合模型 |
3.2.1 基于注意力的单框架语义要素融合模型 |
3.2.2 基于注意力的扩展框架语义要素融合模型 |
3.3 多视角句子表示模型 |
3.3.1 基于序列的句子表示模型 |
3.3.2 基于框架语义的句子表示模型 |
3.3.3 融合框架语义和序列特征的句子表示模型 |
3.4 融合多源信息的关系抽取模型 |
3.4.1 算法模型 |
3.4.2 实验与分析 |
3.5 本章小结 |
第四章 基于框架语义上下文感知的远程监督关系抽取 |
4.1 引言 |
4.2 远程监督实例选择 |
4.2.1 线索词抽取 |
4.2.2 实例选择 |
4.3 融合多粒度框架语义要素的关系抽取模型 |
4.3.1 句子上下文编码器 |
4.3.2 语义场景编码器 |
4.3.3 包上下文编码器 |
4.3.4 关系分类器和训练 |
4.4 实验与分析 |
4.4.1 数据集和评价指标 |
4.4.2 实验设置 |
4.4.3 基线模型 |
4.4.4 实验结果 |
4.5 本章小结 |
第五章 基于框架语义及多任务学习的非平衡数据关系抽取 |
5.1 引言 |
5.2 上下文表示学习 |
5.2.1 实体的上下文表示 |
5.2.2 语义场景上下文表示 |
5.3 基于多任务学习的关系抽取模型 |
5.3.1 算法模型 |
5.3.2 结果预测 |
5.4 实验与分析 |
5.4.1 数据集与评价指标 |
5.4.2 实验设置 |
5.4.3 实验结果 |
5.5 本章小结 |
第六章 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
攻读博士学位期间取得的研究成果 |
致谢 |
个人简况及联系方式 |
(2)基于多任务学习的临床病历表型谱抽取方法研究(论文提纲范文)
致谢 |
摘要 |
ABSTRACT |
1 引言 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.3 本论文主要工作 |
1.4 本论文结构安排 |
2 命名实体识别与多任务学习相关研究与方法 |
2.1 命名实体识别相关研究 |
2.2 命名实体识别方法 |
2.2.1 早期方法 |
2.2.2 传统机器学习方法 |
2.2.3 深度学习方法 |
2.3 多任务学习相关研究 |
2.4 多任务学习在命名实体识别领域的应用 |
2.5 本章小结 |
3 基于人机协同的标准数据集构建 |
3.1 数据集概况 |
3.2 无监督实体抽取 |
3.2.1 无监督实体抽取框架介绍 |
3.2.2 基于词频-逆文档频率的无监督实体抽取 |
3.3 实体匹配预标注 |
3.3.1 实体匹配预标注框架介绍 |
3.3.2 基于汉语逆向最大匹配算法的精准匹配 |
3.3.3 基于正则表达式的模糊匹配 |
3.4 同源实体抽取模型预标注 |
3.5 基于贪心算法的核心样本筛选 |
3.6 实验结果及分析 |
3.7 本章小结 |
4 中文临床病历的细粒度表型命名实体识别 |
4.1 细粒度表型命名实体识别研究方法 |
4.1.1 深度神经网络结构 |
4.1.2 多粒度的症状提取 |
4.2 实验数据集及设定 |
4.2.1 数据集介绍 |
4.2.2 数据预处理 |
4.2.3 评价指标 |
4.2.4 实验设定 |
4.3 实验结果及分析 |
4.3.1 基于新冠肺炎数据的实体抽取 |
4.3.2 正常模型与退化模型之间的比较 |
4.3.3 案例分析 |
4.3.4 泛化性能 |
4.4 本章小结 |
5 基于多任务学习的表型实体识别 |
5.1 基于多任务学习的表型实体识别研究方法 |
5.1.1 级联形式的多任务表型实体识别 |
5.1.2 融合异源数据的多任务表型实体识别 |
5.2 实验数据集及设定 |
5.2.1 数据集介绍 |
5.2.2 数据预处理 |
5.2.3 评价指标 |
5.2.4 实验设定 |
5.3 实验结果及分析 |
5.3.1 单-多任务模型结果对比 |
5.3.2 基线对比实验结果对比 |
5.4 本章小结 |
6 总结与展望 |
6.1 研究内容总结 |
6.2 不足及未来展望 |
参考文献 |
作者简历及攻读硕士学位期间取得的研究成果 |
学位论文数据集 |
(3)中医门诊电子病历关键临床信息抽取方法研究(论文提纲范文)
答辩委员会名单及评定意见 |
摘要 |
Abstract |
引言 |
第一章 绪论 |
1.1 研究背景 |
1.2 研究目的及意义 |
1.3 研究内容 |
1.4 研究创新点 |
1.5 论文组织结构 |
第二章 中医门诊电子病历临床信息抽取问题分析 |
2.1 中医门诊病历中的临床表现抽取 |
2.1.1 序列标注模型的局限 |
2.1.2 复杂命名实体识别 |
2.2 中医门诊病历中的临床事件抽取 |
2.2.1 月经事件定义 |
2.2.2 事件三元组定义 |
2.3 本章小结 |
第三章 信息抽取技术国内外研究现状 |
3.1 复杂命名实体抽取方法研究现状 |
3.1.1 嵌套实体抽取 |
3.1.2 非连续实体抽取 |
3.1.3 两阶段的复杂实体抽取 |
3.2 实体关系抽取方法研究现状 |
3.2.1 基于流水线模型的关系抽取方法 |
3.2.2 基于联合学习的实体关系抽取方法 |
3.3 事件抽取方法研究现状 |
3.3.1 事件抽取方法 |
3.3.2 医学事件抽取 |
3.3.3 中文医学事件抽取 |
3.3.4 中医事件抽取 |
3.4 本章小结 |
第四章 中医门诊电子病历信息抽取方法模型 |
4.1 序列标注方法模型 |
4.1.1 语言表示模型 |
4.1.2 语义特征抽取与编码器 |
4.1.3 经典序列标注模型 |
4.1.4 模型性能评估指标 |
4.2 面向中医临床表现抽取的两阶段方法 |
4.2.1 联合抽取模型整体框架 |
4.2.2 面向中医的预训练双向编码语言表示模型 |
4.3 基于层叠式指针网络的月经事件抽取模型 |
4.3.2 语言特征抽取与表示 |
4.3.3 指针网络抽取关系三元组 |
4.4 本章小结 |
第五章 中医门诊电子病历语料库构建 |
5.1 中医内科门诊电子病历语料库构建 |
5.1.1 复杂临床表现抽取标注框架 |
5.1.1.1 实体类型设定 |
5.1.2 实体关系定义 |
5.1.3 语料标注 |
5.2 中医门诊治疗多囊卵巢综合征语料库构建 |
5.2.1 月经事件标注框架 |
5.2.2 实体类型设定 |
5.2.3 实体关系设定 |
5.2.4 语料标注 |
5.3 本章小结 |
第六章 中医门诊电子病历关键临床信息抽取实验 |
6.1 临床表现抽取实验 |
6.1.1 实验数据集 |
6.1.2 流水线抽取基线方法 |
6.1.3 实验结果与讨论 |
6.2 临床事件抽取实验 |
6.2.1 实验数据集 |
6.2.2 模型训练 |
6.2.3 实验结果与讨论 |
6.3 本章小结 |
结语 |
参考文献 |
附录 |
在校期间发表论文情况、参与课题与获奖情况 |
致谢 |
统计学审核证明 |
(4)数学自然语言处理中的关键技术研究及实现(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 研究工作的背景与意义 |
1.2 自然语言处理研究现状 |
1.3 数学自然语言处理难点 |
1.4 本文的主要贡献与创新 |
1.5 本论文的相关结构安排 |
第二章 相关技术研究与发展史 |
2.1 知识表示技术 |
2.2 图数据库技术 |
2.3 汉语的歧义问题 |
2.4 语言模型发展史 |
2.4.1 基于统计学习的语言模型 |
2.4.2 基于深度学习的语言模型 |
2.5 中文分词发展史 |
2.5.1 基于词表的机械分词方法 |
2.5.2 基于统计学习的分词方法 |
2.5.3 基于深度学习的分词方法 |
2.6 词性标注发展史 |
2.7 命名实体识别发展史 |
2.8 指代消解发展史 |
2.9 关系抽取发展史 |
2.10 本章小结 |
第三章 数学自然语言处理流程设计 |
3.1 数学知识表示 |
3.1.1 基于三元组的数学知识表示 |
3.1.2 基于Neo4j的数学知识图谱 |
3.2 前期工作 |
3.2.1 混合语言文本预处理 |
3.2.2 语言技术平台LTP |
3.2.3 数学分词方法 |
3.2.4 数学词性标注方法 |
3.3 数学命名实体识别方法 |
3.3.1 数学命名实体表示 |
3.3.2 变量引入与类型补全 |
3.3.3 基于一阶谓词逻辑的类型递进 |
3.3.4 基于依存分析的一阶谓词依赖判定 |
3.3.5 基于类型递进的数学命名实体识别 |
3.3.6 基于深度学习的数学实体类型识别 |
3.4 数学关系抽取方法 |
3.4.1 向量化表示与特征提取 |
3.4.2 基于向量相似度的关系匹配 |
3.5 数学指代消解方法 |
3.6 本章小结 |
第四章 系统测试与结果分析 |
4.1 MathNLP流水线模型 |
4.1.1 预处理部分 |
4.1.2 数学分词模型 |
4.1.3 数学词性标注模型 |
4.1.4 变量引入和类型补全 |
4.1.5 命名实体抽取结果 |
4.1.6 关系三元组抽取结果 |
4.2 实体类型边界识别模型 |
4.2.1 数据采集与自动生成 |
4.2.2 模型训练和结果对比 |
4.2.3 集外新实体自动发现 |
4.3 融合模型实体命名批量测试 |
4.4 本章小结 |
第五章 全文总结与展望 |
5.1 全文总结 |
5.2 后续工作展望 |
致谢 |
参考文献 |
攻读硕士学位期间取得的成果 |
(5)基于实体关系的NL2SQL语法结构构建(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 研究背景与研究意义 |
1.2 国内外研究现状 |
1.2.1 SQL语法构建研究现状 |
1.2.2 关系抽取研究现状 |
1.3 研究内容 |
1.4 论文结构 |
第2章 相关知识 |
2.1 受限汉语查询语言 |
2.2 NLP任务预处理相关技术 |
2.2.1 分词处理 |
2.2.2 词性标注 |
2.3 常用文本表示方法 |
2.3.1 One-Hot编码 |
2.3.2 Word2Vec编码 |
2.4 LSTM神经网络 |
2.4.1 循环神经网络 |
2.4.2 LSTM神经网络 |
2.5 本章小结 |
第3章 基于实体关系的SQL语法结构表示 |
3.1 SQL语法结构 |
3.2 SQL语法结构预测目标 |
3.3 基于实体关系的SQL语法结构表示 |
3.4 基于实体关系的SQL语法结构预测流程 |
3.5 本章小结 |
第4章 基于Bi-LSTM的嵌套查询实体关系抽取方法 |
4.1 问题描述 |
4.2 基于Bi-LSTM网络的关系抽取模型 |
4.2.1 模型架构设计 |
4.2.2 查询语句的特征表示方法 |
4.2.3 基于注意力机制的中间层 |
4.2.4 Dropout层 |
4.2.5 输出层 |
4.3 语法结构无向图 |
4.4 实验结果与分析 |
4.4.1 实验数据 |
4.4.2 参数设置 |
4.4.3 特征选择 |
4.4.4 不含修正的GSC-ER算法关系抽取性能分析 |
4.4.5 不含修正的GSC-ER算法语法结构预测性能分析 |
4.5 本章小结 |
第5章 基于SQL语法的嵌套查询实体关系修正算法 |
5.1 未修正的SQL语法结构无向图 |
5.2 修正约束 |
5.3 基于SQL语法的修正算法 |
5.4 SQL语法结构生成 |
5.5 实验结果与分析 |
5.5.1 修正步骤对于关系抽取预测结果的影响 |
5.5.2 修正步骤对于SQL语法结构预测结果的影响 |
5.5.3 数据集规模影响实验 |
5.5.4 错误结果分析 |
5.6 本章小结 |
第6章 总结和展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
攻读学位期间发表论文与研究成果清单 |
致谢 |
(6)贫语言资源条件下的藏汉(汉藏)机器翻译关键技术研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景和意义 |
1.1.1 研究背景 |
1.1.2 研究意义 |
1.2 藏汉机器翻译中存在的问题 |
1.3 本文主要研究内容与贡献 |
1.4 论文的结构安排 |
第二章 机器翻译概述 |
2.1 引言 |
2.2 国内外研究历史和现状 |
2.2.1 外-汉(汉-外)机器翻译 |
2.2.2 国内少数民族机器翻译 |
2.2.3 国外机器翻译 |
2.3 相关技术简述 |
2.3.1 基于规则的机器翻译 |
2.3.2 基于统计的机器翻译 |
2.3.3 神经网络机器翻译 |
2.4 本章小结 |
第三章 面向藏汉机器翻译的语言资源构建方法研究 |
3.1 引言 |
3.2 相关研究 |
3.2.1 国外语言资源构建历史与现状 |
3.2.2 国内语言资源构建历史与现状 |
3.3 藏汉双语语言资源构建方法相关理论 |
3.3.1 基于web的藏语单语语言资源构建技术 |
3.3.2 藏文分词研究 |
3.3.3 藏文命名实体识别研究 |
3.3.4 藏汉双语跨语言对齐研究 |
3.4 本章实例分析 |
3.5 本章小结 |
第四章 融合单语语言模型的藏汉机器翻译方法研究 |
4.1 引言 |
4.2 相关研究 |
4.3 相关理论方法 |
4.3.1 藏语单语语言模型构建方法 |
4.3.2 藏语单语语言模型融合策略 |
4.4 实验与分析 |
4.4.1 数据处理 |
4.4.2 实验 |
4.4.3 实验分析 |
4.5 本章小结 |
第五章 基于迭代式回译策略的藏汉机器翻译方法研究 |
5.1 引言 |
5.2 相关研究 |
5.3 相关理论方法 |
5.3.1 迭代式回译策略 |
5.3.2 平行句对过滤机制 |
5.4 实验与分析 |
5.4.1 数据准备 |
5.4.2 藏汉平行句对过滤实验 |
5.4.3 迭代式回译实验 |
5.5 本章小结 |
第六章 基于跨语言模型建模的藏汉机器翻译方法研究 |
6.1 引言 |
6.2 相关研究 |
6.3 相关理论方法 |
6.3.1 语言模型 |
6.3.2 翻译语言模型建模 |
6.4 实验与分析 |
6.4.1 语料处理及规模 |
6.4.2 藏汉双语跨语言模型的建立 |
6.4.3 实验分析 |
6.5 本章小结 |
第七章 总结与展望 |
7.1 总结 |
7.2 展望 |
参考文献 |
附录1 图目录 |
附录2 表格目录 |
攻读博士学位期间的研究成果 |
(7)古汉语知识图谱的构建方法研究(论文提纲范文)
摘要 |
Abstract |
1 绪论 |
1.1 研究现状 |
1.2 面向古汉语文本的知识图谱构建模型 |
1.2.1 自动分词 |
1.2.2 命名实体识别 |
1.2.3 关系抽取 |
1.2.4 知识图谱的构建方法 |
1.2.5 可视化的设计与实现 |
1.3 构建古汉语知识图谱的意义 |
1.4 论文的整体架构 |
2 文本的实体识别与关系抽取 |
2.1 序列标注与命名实体识别 |
2.1.1 长短期记忆网络结构简介 |
2.1.2 双向LSTM与 CRF的组合 |
2.1.3 从CNN到 ID-CNN(Iterated Dilated CNN)与CRF的组合 |
2.2 关系分类 |
2.2.1 自然语言处理中的注意力机制 |
2.2.2 关系抽取任务中双向LSTM的应用 |
2.2.3 文本分类算法TextCNN的原理和方法 |
2.3 本章小结 |
3 关系分类任务与BLSTM-CNN模型 |
3.1 任务SemEval2010_task8 的简单介绍 |
3.2 基于英文数据集SemEval2010_task8 的实体关系抽取任务 |
3.2.1 Attention-based Bi-LSTM结构的简单介绍 |
3.2.2 BLSTM-CNN的模型结构与特点 |
3.2.3 BLSTM-CNN+ attention模型 |
3.3 模型的参数及针对SemEval2010_task8 的实验 |
3.3.1 超参数的设置 |
3.3.2 评价指标 |
3.3.3 实验结果 |
3.4 本章小结 |
4 古汉语文本处理 |
4.1 古汉语文本的命名实体识别任务与关系抽取任务的文本格式化 |
4.1.1 数据准备 |
4.1.2 文本的命名实体识别 |
4.1.3 文本格式化以及关系标注 |
4.2 古汉语关系分类实验 |
4.3 可视化设计与实现 |
4.3.1 三元组的提取 |
4.3.2 可视化实现与关系图谱展示 |
4.4 本章小结 |
结论 |
参考文献 |
攻读硕士学位期间发表学术论文情况 |
致谢 |
(8)面向旅游服务的智能标注及知识图谱构建系统(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景 |
1.2 知识图谱简介 |
1.2.1 知识图谱介绍 |
1.2.2 知识图谱研究现状 |
1.3 本文主要工作 |
1.4 论文结构安排 |
第二章 相关技术及理论基础 |
2.1 爬虫系统相关技术介绍 |
2.1.1 Scapy框架 |
2.1.2 MongoDB |
2.2 智能标注系统相关介绍 |
2.2.1 Django框架 |
2.2.2 Vue框架 |
2.2.3 现有开源标注工具介绍 |
2.3 本体概述及构建工具 |
2.3.1 本体论概述 |
2.3.2 Protégé工具介绍 |
2.4 深度学习相关模型 |
2.4.1 长短期记忆神经网路 |
2.4.2 BERT |
2.4.3 ALBERT |
2.5 本章小结 |
第三章 实体识别和关系抽取数据集构建 |
3.1 研究背景与意义 |
3.2 旅游数据采集及预处理 |
3.2.1 爬虫系统设计 |
3.2.2 数据采集步骤 |
3.2.3 数据预处理 |
3.3 实体及关系类型定义 |
3.4 数据标注存储及扩增 |
3.4.1 数据标注 |
3.4.2 数据扩增技术 |
3.5 本章小结 |
第四章 旅游知识图谱构建 |
4.1 知识图谱构建技术架构 |
4.2 旅游领域本体构建 |
4.2.1 Protégé构建Schema |
4.3 知识抽取 |
4.3.1 实体抽取 |
4.3.2 关系抽取 |
4.4 知识融合 |
4.4.1 基于距离度量的实体对齐方法 |
4.4.2 基于BERT的孪生网络实体对齐方法 |
4.4.3 实体对齐模型 |
4.5 知识存储 |
4.6 本章小结 |
第五章 智能标注系统及知识图谱问答系统 |
5.1 智能标注系统 |
5.1.1 系统需求分析 |
5.1.2 系统架构 |
5.1.3 系统设计 |
5.2 知识图谱问答系统 |
5.2.1 基于旅游知识图谱的智能问答模型 |
5.2.2 基于微信客户端的旅游问答助手 |
5.3 本章小结 |
第六章总结与展望 |
6.1 总结 |
6.2 未来工作与展望 |
参考文献 |
致谢 |
攻读学位期间取得的研究成果 |
(9)面向汉越神经机器翻译的伪平行语料生成方法研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.2.1 神经机器翻译研究现状 |
1.2.2 低资源语言数据增强研究现状 |
1.2.3 机器翻译评价准则 |
1.3 面临的主要问题 |
1.4 主要的研究内容 |
1.5 本文的组织结构 |
第二章 汉越双语语料获取 |
2.1 引言 |
2.2 汉越双语数据获取 |
2.2.1 相关知识介绍 |
2.2.2 汉越数据获取流程 |
2.3 数据清洗 |
2.4 汉越双语数据集 |
2.5 本章小结 |
第三章 基于短语替换的汉越伪平行句对生成 |
3.1 引言 |
3.2 相关工作 |
3.3 基于短语替换的汉越伪平行句对生成 |
3.3.1 基于短语替换的伪平行句对生成框架流程 |
3.3.2 短语对齐表构建 |
3.3.3 短语识别 |
3.3.4 替换规则 |
3.3.5 基于语言模型困惑度的伪平行句对筛选 |
3.4 实验与分析 |
3.4.1 实验设置 |
3.4.2 实验结果与分析 |
3.4.3 译文对比分析 |
3.5 本章小结 |
第四章 融合单语语言模型的汉越伪平行语料生成 |
4.1 引言 |
4.2 相关工作 |
4.3 单语数据生成伪平行数据方法 |
4.3.1 伪平行数据生成框架 |
4.3.2 融合语言模型的伪平行数据生成方法 |
4.3.3 基于语言模型困惑度的数据筛选 |
4.4 实验与分析 |
4.4.1 数据准备及实验设置 |
4.4.2 实验结果与分析 |
4.4.3 译文对比分析 |
4.5 本章小结 |
第五章 基于枢轴语言的汉越神经机器翻译伪平行语料生成 |
5.1 引言 |
5.2 相关工作 |
5.3 汉越伪平行数据生成方法 |
5.3.1 融入双语词典的枢轴方法 |
5.3.2 反向枢轴方法 |
5.3.3 融入双语词典的正反向枢轴方法 |
5.3.4 基于语言模型的伪平行数据筛选 |
5.4 实验及结果分析 |
5.4.1 实验数据及设置 |
5.4.2 实验结果 |
5.4.3 实验对比分析 |
5.5 本章小结 |
第六章 汉越伪平行语料测评 |
6.1 引言 |
6.2 汉越伪平行语料生成结果 |
6.3 伪平行语料评测方法 |
6.3.1 比例分析 |
6.3.2 质量分析 |
6.3.3 最佳利用方案 |
6.4 本章小结 |
第七章 总结与展望 |
7.1 论文总结 |
7.2 研究展望 |
致谢 |
参考文献 |
附录 A (攻读硕士学位期间的学术成果) |
附录 B (攻读硕士学位期间参与的项目) |
(10)基于图结构的语音智能交互关键技术研究(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 研究工作的背景与意义 |
1.2 国内外研究现状 |
1.3 本文的主要研究内容 |
1.4 本论文的结构安排 |
第二章 相关理论和技术 |
2.1 词向量 |
2.1.1 WORD2VEC |
2.1.2 NODE2VEC |
2.2 循环神经网络 |
2.2.1 前向传播 |
2.2.2 反向传播 |
2.3 长短期记忆神经网络 |
2.3.1 结构描述 |
2.3.2 反向传播 |
2.4 文本相似度 |
2.4.1 莱文斯坦距离 |
2.4.2 JARO相似度 |
2.4.3 余弦相似度 |
2.4.4 音形码技术 |
2.5 网页排名算法 |
2.6 本章小结 |
第三章 关键信息抽取 |
3.1 模板抽取 |
3.1.1 领域短句 |
3.1.2 领域短句分析 |
3.1.2.1 领域实体名称收集 |
3.1.2.2 构建短句图结构 |
3.1.3 模板提取实验 |
3.1.3.1 模板提取算法描述 |
3.1.3.2 模板提取结果 |
3.2 基于模板的关键信息抽取 |
3.2.1 模板基础数据准备 |
3.2.2 模型分析 |
3.3 基于词槽序的关键信息抽取 |
3.3.1 任务分析与描述 |
3.3.2 图结构 |
3.3.3 基于图结构的词槽序模型 |
3.3.3.1 模型工作方式 |
3.3.3.2 词槽打分与抽取流程 |
3.3.3.3 词槽序筛选流程 |
3.3.4 词槽序模板 |
3.3.5 模型分析 |
3.4 基于神经网络的关键信息抽取 |
3.4.1 数据准备 |
3.4.2 评估指标 |
3.4.3 循环神经网络模型 |
3.4.4 长短期记忆神经网络模型 |
3.4.5 级联神经网络模型 |
3.4.6 实验与结果分析 |
3.5 模型分析 |
3.5.1 模板模型的不足 |
3.5.2 神经网络模型的不足 |
3.5.3 词槽序模型的优势 |
3.6 本章小结 |
第四章 对话管理 |
4.1 单短句意图识别 |
4.1.1 任务描述 |
4.1.2 数据准备 |
4.1.3 文本模板模型 |
4.1.3.1 关键词匹配法 |
4.1.3.2 正则表达式匹配法 |
4.1.3.3 模型对比 |
4.1.4 基于图结构的词槽序模型 |
4.1.4.1 动作类型与规则模板 |
4.1.4.2 模型工作方式 |
4.1.4.3 模型结果分析 |
4.1.5 神经网络模型 |
4.1.5.1 长短期记忆神经网络模型 |
4.1.5.2 文本卷积神经网络模型 |
4.1.6 模型对比分析 |
4.2 意图管理 |
4.2.1 槽管理 |
4.2.2 意图更新 |
4.3 动作执行器 |
4.4 对话管理 |
4.5 本章小结 |
第五章 系统设计与实现 |
5.1 系统架构 |
5.1.1 客户端架构 |
5.1.2 服务端架构 |
5.2 智能交互 |
5.2.1 基于图结构的关键信息抽取模块 |
5.2.2 基于图结构的意图识别模块 |
5.2.3 对话管理模块 |
5.3 通讯录匹配模块 |
5.3.1 问题描述 |
5.3.2 算法实现 |
5.4 系统实现以及运行效果 |
5.5 本章小结 |
第六章 全文总结与展望 |
6.1 全文总结 |
6.2 后续工作展望 |
致谢 |
参考文献 |
附录 A 音形码查询表 |
四、汉语部分实体的抽取模型(论文参考文献)
- [1]基于框架语义表示的关系抽取技术研究[D]. 赵红燕. 山西大学, 2021(01)
- [2]基于多任务学习的临床病历表型谱抽取方法研究[D]. 邹群盛. 北京交通大学, 2021(02)
- [3]中医门诊电子病历关键临床信息抽取方法研究[D]. 刘子晴. 广州中医药大学, 2021(02)
- [4]数学自然语言处理中的关键技术研究及实现[D]. 高崇. 电子科技大学, 2021(01)
- [5]基于实体关系的NL2SQL语法结构构建[D]. 万文军. 山东工商学院, 2020(02)
- [6]贫语言资源条件下的藏汉(汉藏)机器翻译关键技术研究[D]. 慈祯嘉措. 青海师范大学, 2020(02)
- [7]古汉语知识图谱的构建方法研究[D]. 孙玉轩. 大连理工大学, 2020(02)
- [8]面向旅游服务的智能标注及知识图谱构建系统[D]. 曹明辉. 北京邮电大学, 2020(05)
- [9]面向汉越神经机器翻译的伪平行语料生成方法研究[D]. 贾承勋. 昆明理工大学, 2020(07)
- [10]基于图结构的语音智能交互关键技术研究[D]. 陈睿. 电子科技大学, 2020(07)