专利 一种基于本体知识库的自然语言领域数据集自动标注方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210080781.4 (22)申请日 2022.01.24 (71)申请人中科合肥智慧农业协同创新研究院地址 230031 安徽省合肥市长丰县双凤开发区金江路32 号合肥智慧农业协同创新研究院 (72)发明人王儒敬　李志远　胡宜敏　金洲　王雪　史杨　张佳妹　张永恒　 (74)专利代理机构合肥国和专利代理事务所 (普通合伙) 34131 专利代理师张祥骞 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/242(2020.01) G06F 40/186(2020.01)G06F 40/268(2020.01) G06F 40/295(2020.01) (54)发明名称一种基于本体知识库的自然语言领域数据集自动标注方法 (57)摘要本发明涉及一种基于本体知识库的自然语言领域数据集自动标注方法，与现有技术相比解决了自然语言领域数据集需人工标注的缺陷。本发明包括以下步骤：本体知识库的准备和预处理；本体知识库本体属性和本体关系的抽取；领域用户自然语言表述习惯的建模；构建自然语言模板库；结合本体知识库信息填充自然语言模板并根据任务类型自动标注数据。本发明利用本体知识库中的本体信息、本体关系信息，融合本体知识库领域相关用户自然语言表述习惯语义，自动标注数据集，解决了没有充分利用本体知识库，人工进行数据标注方法的费时、费力问题。权利要求书3页说明书8页附图4页 CN 114444512 A 2022.05.06 CN 114444512 A 1.一种基于本体知识库的自然语言领域数据集自动标注方法，其特征在于，包括以下步骤： 11)本体知识库的准备和预处理：根据自然语言处理任务所属垂直领域类型，选择本体知识库作为构建自然语言处理数据集的基础；利用本体开发工具加载所述本体知识库； 12)本体知识库本体属性和本体关系的抽取：统计加载的本体知识库信息，作为自动标注数据集的基础先验知识；本体知识库信息包括本体信息、本体关系信息； 13)领域用户自然语言表述习惯的建模：收集本体知识库领域的文献、网站、规范书构建语料库，对语料库语料文本进行词性标注，作为语料的用户自然语言表述习惯，利用词性结构复杂度，通过二重筛选抽取得到本体知识库领域用户自然语言表述习惯语义； 14)构建自然语言模板库：根据用户自然语言表述习惯语义，以本体关系信息作为先验知识，构建自然语言模板库； 15)结合本体知识库信息填充自然语言模板并根据任务类型自动标注数据：遍历本体知识库本体信息，利用本体信息作为先验知识填充自然语言模板库，根据自然语言处理任务不同实现自动标注，生成任务型数据集。 2.根据权利要求1所述的一种基于本体知识库的自然语言领域数据集自动标注方法，其特征在于，所述本体知识库本体属性和本体关系的抽取包括以下步骤： 21)统计加载的本体知识库本体信息、本体关系信息及本体知识库中的所有实例信息，其包括实例名、实例类别，将其作为本体知识库的本体信息； 22)统计加载的本体知识库的关系信息，包括本体关系类型、本体关系数量、满足本体关系的知识，将其作为所述本体知识库本体关系信息； 23)本体知识库的本体信息通过本体信息完整度筛选得到的有效本体集合，本体信息完整度定义为：给定本体E，其信息完整度e由公式(1)计算得到：所述公式(1)中的ful lname表示本体E的名称； 24)本体知识库的本体关系信息通过关系表征系数筛选得到的有效本体关系集合，关系表征系数用来确定关系在所述本体知识库中的重要性；关系表征系数定义为：对于给定有向关系R，存在本体A、 B满足关系R，即A ‑[R]‑>B；那么所述给定有向关系的表征系数r通过公式(2)计算得到：所述公式(2)中， count(R)表示所述给定有向关系R的统计数量， Ri表示所述给定本体知识库的关系集合中的第i个有向关系， i＝{1,2, …,N}， N表示所述关系集合大小， R[A&B] 表示A、 B中至少有一个本体在所述给定本体知识库中由公式(1)计算得到的信息完整度为 0，即本体信息不完整。 3.根据权利要求1所述的一种基于本体知识库的自然语言领域数据集自动标注方法，其特征在于，所述领域用户自然语言表述习惯的建模包括以下步骤：权　利　要　求　书 1/3 页 2 CN 114444512 A 231)收集本体知识库领域的文献、网站、规范书，构建本体知识库领域的语料库，其用于分析、抽取本体知识库领域用户的自然语言表述习惯，作为先验知识； 32)利用本体知识库本体信息构建完备特征词典：通过将本体知识库本体关系信息及其同义词、短语添加至特征词典，构建成本体知识库完备特征词典； 33)利用本体知识库完备特征词典对语料库中的文本进行词性标注，词性标注结果即为文本的词性结构，以词性结构作为文本的用户自然语言表述习惯； 34)对用户自然语言表述习惯进行筛选：利用TF‑IDF算法选择在语料库中文本文件的关键词性结构， TF ‑IDF计算如公式(3)所示：所述公式(3)中， expi表示任意词性结构， files表示语料库中的所有文本文件， file| express表示包含所述给定词性结构express的文本文件， TF表示给定词性结构express在所述语料库给定所述文本中出现频率； IDF为所述语料库中的总文本数除以包含所述给定词性结构express的文本总数得到的商，再对商取对数得到， TF ‑IDF值是TF与所述IDF的乘积； 35)对用户自然语言表述习惯进一步筛选，利用词性结构复杂度滤除结构简单、语义不明确的词性结构，获取所述本体知识库领域相关用户自然语言表述习惯语义；所述词性结构复杂度解释为：对于给定词性结构，统计其包含的词性总数N，词性种类数C，那么其词性结构复杂度p由公式(4)计算得到： p＝C*log(1+N/C),N/C≥1 (4) 所述词性结构复杂度的特征表现为： 351)当给定词性结构所包含词性总数N不变时，给定词性结构所包含的词性种类数越多，即C越大，词性结构越复杂；反之，词性结构越简单； 352)当给定词性结构所包含词性种类数C不变时，给定词性结构所包含的词性总数越多，即N越大，词性结构越复杂；反之，词性结构越简单。 4.根据权利要求1所述的一种基于本体知识库的自然语言领域数据集自动标注方法，其特征在于，所述构建自然语言模板库包括以下步骤： 41)从本体知识库选定本体关系，并从完备特征词典中选择与选定本体关系同义的词或短语，添加了限定词，作为模板先验知识； 42)从用户自然语言表述习惯语义中选定词性结构作为模板的词性结构； 43)用模板先验知识按照模板的词性结构构造模板，模板的待填充项为本体知识库本体实例信息，即要求模板语义为选定的本体关系信息； 44)重复41)步 ‑43步)，直至本体知识库所有本体关系均有对应模板，则自然语言模板权　利　要　求　书 2/3 页 3 CN 114444512 A 3

专利 一种基于本体知识库的自然语言领域数据集自动标注方法

专利一种基于本体知识库的自然语言领域数据集自动标注方法