(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210080781.4
(22)申请日 2022.01.24
(71)申请人 中科合肥智慧农业协同创新研究院
地址 230031 安徽省合肥市长 丰县双凤开
发区金江路32 号合肥智慧农业协同创
新研究院
(72)发明人 王儒敬 李志远 胡宜敏 金洲
王雪 史杨 张佳妹 张永恒
(74)专利代理 机构 合肥国和专利代理事务所
(普通合伙) 34131
专利代理师 张祥骞
(51)Int.Cl.
G06F 40/30(2020.01)
G06F 40/242(2020.01)
G06F 40/186(2020.01)G06F 40/268(2020.01)
G06F 40/295(2020.01)
(54)发明名称
一种基于本体知识库的自然语言领域数据
集自动标注方法
(57)摘要
本发明涉及一种基于本体知识库的自然语
言领域数据集自动标注方法, 与现有技术相比解
决了自然语言领域数据集需人工标注的缺陷。 本
发明包括以下步骤: 本体知识库的准备和预处
理; 本体知识库本体属性和本体关系的抽取; 领
域用户自然语 言表述习惯的建模; 构建自然语言
模板库; 结合本体知识库信息填充自然语言模板
并根据任务类型自动标注数据。 本发 明利用本体
知识库中的本体信息、 本体关系信息, 融合本体
知识库领域相关用户自然语言表 述习惯语义, 自
动标注数据集, 解决了没有充分利用本体知识
库, 人工进行 数据标注方法的费时、 费力问题。
权利要求书3页 说明书8页 附图4页
CN 114444512 A
2022.05.06
CN 114444512 A
1.一种基于本体知识库的自然语言领域数据集自动标注方法, 其特征在于, 包括以下
步骤:
11)本体知识库的准备和预处理: 根据自然语言处理任务所属垂直领域类型, 选择本体
知识库作为构建自然语言处 理数据集的基础; 利用本体开发工具加载 所述本体知识库;
12)本体知识库本体属性和本体关系的抽取: 统计加载的本体知识库信息, 作为自动标
注数据集的基础先验知识; 本体知识库信息包括本体信息、 本体关系信息;
13)领域用户自然语言表述习惯的建模: 收集本体知识库领域的文献、 网站、 规范书构
建语料库, 对语料库语料文本进 行词性标注, 作为语料的用户自然语言表述习惯, 利用词性
结构复杂度, 通过二重 筛选抽取得到本体知识库领域用户自然语言表述习惯语义;
14)构建自然语言模板库: 根据用户自然语言表述习惯语义, 以本体关系信息作为先验
知识, 构建自然语言模板库;
15)结合本体知识库信息填充自然语言模板并根据任务类型自动标注数据: 遍历本体
知识库本体信息, 利用本体信息作为先验知识填充自然语言模板库, 根据自然语言处理任
务不同实现自动标注, 生成任务型 数据集。
2.根据权利要求1所述的一种基于本体知识库的自然语言领域数据集自动标注方法,
其特征在于, 所述本体知识库本体属性和本体关系的抽取包括以下步骤:
21)统计加载的本体知识库本体信息、 本体关系信 息及本体知识库中的所有实例信息,
其包括实例名、 实例类别, 将其作为本体知识库的本体信息;
22)统计加载的本体知识库的关系信息, 包括本体关系类型、 本体关系数量、 满足本体
关系的知识, 将其作为所述本体知识库本体关系信息;
23)本体知识库的本体信息通过本体信息完整度筛选得到的有效本体集合, 本体信息
完整度定义 为: 给定本体E, 其信息 完整度e由公式(1)计算得到:
所述公式(1)中的ful lname表示本体E的名称;
24)本体知识库的本体关系信息通过关系表征系数筛选得到的有效本体关系集合, 关
系表征系数用来确定关系在所述本体知识库中的重要性;
关系表征系数定义为: 对于给定有向关系R, 存在本体A、 B满足关系R, 即A ‑[R]‑>B; 那么
所述给定有向关系的表征系数r通过公式(2)计算得到:
所述公式(2)中, count(R)表示所述给定有向关系R的统计数量, Ri表示所述给定本体
知识库的关系集合中的第i个有向关系, i={1,2, …,N}, N表示所述关系集合大小, R[A&B]
表示A、 B中至少有一个本体在所述给定本体知识库中由公式(1)计算得到的信息完整度为
0, 即本体信息不完整。
3.根据权利要求1所述的一种基于本体知识库的自然语言领域数据集自动标注方法,
其特征在于, 所述领域用户自然语言表述习惯的建模 包括以下步骤:权 利 要 求 书 1/3 页
2
CN 114444512 A
231)收集本体知识库领域的文献、 网站、 规范书, 构 建本体知识库领域的语料库, 其用于
分析、 抽取本体知识库领域用户的自然语言表述习惯, 作为先验知识;
32)利用本体知识库本体信息构建完备特征词典: 通过将本体知识库本体关系信息及
其同义词、 短语添加至特 征词典, 构建成本体知识库完备 特征词典;
33)利用本体知识库完备特征词典对语料库中的文本进行词性标注, 词性标注结果即
为文本的词性结构, 以词性结构作为文本的用户自然语言表述习惯;
34)对用户自然语言表述习惯进行筛 选:
利用TF‑IDF算法选择在语料库 中文本文件的关键词性结构, TF ‑IDF计算如公式(3)所
示:
所述公式(3)中, expi表示任意词性结构, files表示语料库中的所有文本文件, file|
express表示包含所述给定词性结构express的文本文件, TF表示给定词性结构express在
所述语料库给定所述文本中出现频率; IDF为所述语料库中的总文本数除以包含所述给定
词性结构express的文本总数得到的商, 再对商取对数得到, TF ‑IDF值是TF与所述IDF的乘
积;
35)对用户自然语言表述习惯进一步筛选, 利用词性结构复杂度 滤除结构简单、 语义不
明确的词性结构, 获取 所述本体知识库领域相关用户自然语言表述习惯语义;
所述词性结构复杂度解释为: 对于给定词性结构, 统计其包含的词性总数N, 词性种类
数C, 那么其词性结构复杂度p由公式(4)计算得到:
p=C*log(1+N/C),N/C≥1 (4)
所述词性结构复杂度的特 征表现为:
351)当给定词性结构所包含词性总数N不变时, 给定词性结构所包含的词性种类数越
多, 即C越大, 词性结构越复杂; 反 之, 词性结构越简单;
352)当给定词性结构所包含词性种类数C不变时, 给定词性结构所包含的词性总数越
多, 即N越大, 词性结构越复杂; 反 之, 词性结构越简单。
4.根据权利要求1所述的一种基于本体知识库的自然语言领域数据集自动标注方法,
其特征在于, 所述构建自然语言模板库包括以下步骤:
41)从本体知识库选定本体关系, 并从完备特征词典中选择与选定本体关系同义的词
或短语, 添加了限定词, 作为模板先验知识;
42)从用户自然语言表述习惯语义中选 定词性结构作为模板的词性结构;
43)用模板先验知识按照模板的词性结构构造模板, 模板的待填充项为本体知识库本
体实例信息, 即要求模板语义 为选定的本体关系信息;
44)重复41)步 ‑43步), 直至本体知识库所有本体关系均有对应模板, 则自然语言模板权 利 要 求 书 2/3 页
3
CN 114444512 A
3
专利 一种基于本体知识库的自然语言领域数据集自动标注方法
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:46上传分享