全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111654758.3 (22)申请日 2021.12.3 0 (71)申请人 永中软件股份有限公司 地址 214135 江苏省无锡市震泽路18号无 锡 (国家) 软件园飞鱼座D幢 (72)发明人 夏振涛 谈辉 李艳 朱立烨  石雁  (74)专利代理 机构 苏州简理知识产权代理有限 公司 32371 专利代理师 庞聪雅 (51)Int.Cl. G06F 40/205(2020.01) G06F 40/216(2020.01) G06F 40/284(2020.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称 一种事件角色的标注方法和计算机设备、 计 算机可读存 储介质 (57)摘要 本发明提供一种事件角色的标注方法, 其包 括如下步骤: S1, 字符编码: 将句子中的各个字符 进行切分编码, 作为模型的输入部分; S2, 特征抽 取: 使用双向LS TM编码, 将其转换为向量码, 得到 句子中每个字符的特征表示; S3, 事件、 论元、 角 色预测得分: 使用多层感知机MLP网络确定事件、 论元以及角色, 分别计算其MLP得分; S4, 优化概 率: 对模型进行训练, 优化句子中事件 ‑论元‑角 色三元组的概率。 本发明具有 提高事件提取的准 确性和效率 等优点。 权利要求书1页 说明书4页 附图1页 CN 114492377 A 2022.05.13 CN 114492377 A 1.一种事 件角色的标注方法, 其特 征在于, 包括如下步骤: S1, 字符编码: 将句子中的各个字符进行切分编码, 作为模型的输入部分; S2, 特征抽取: 使用双向LSTM(Long  short‑term memory)编码, 将其转换为向量码, 得 到句子中每 个字符的特 征表示; S3, 事件、 论元、 角色预测得分: 使用多层感知机MLP网络确定事件、 论元以及角色, 分别 计算其MLP得分; S4, 优化概率: 对模型进行训练, 优化句子中事 件‑论元‑角色三元组的概 率。 2.根据权利要求1所述的事件角色的标注方法, 其特征在于, S1中, 给定句子S=c0,c1, c2,…,cn, c0是在句子首部增 加的一个虚根节点, 用于预测事 件。 3.根据权利要求1所述的事件角色的标注方法, 其特征在于, S1中, 模型的输入部分包 括字符嵌入c har embedding和BERT embedding, 其可表示 为 其中字符嵌入char  embedding用word2vec模型得到, BERT  embedding用BERT模型得 到。 4.根据权利要求1所述的事件角色的标注方法, 其特征在于, S2中, 取BiLSTM输出向量 的第一个位置作为事件特征表示 对于所有候选论元, 通过在相应论元span内对 BiLSTM输出采用均 值运算来表示特征 角色特征表示是事 件特征表示 和论文特 征 的拼接。 5.根据权利要求4所述的事件角色的标注方法, 其特征在于, 事件、 论元以及角色的MLP 得分分别为: 6.根据权利要求5所述的事件角色的标注方法, 其特征在于, 基于span的模型目标是预 测事件‑论元‑角色 其中P是候选事件集合, A={(ci,…,cj)|1≤i≤j≤n}是 候选论元, R是候选论元角色集合, 模 型的优化目标是优化句子中事件 ‑论元‑角色三元 组的 概率, 即 其中, 是事件‑论元‑角色三元组的得分。 7.一种计算机设备, 包括存储器和处理器, 所述存储器存储有计算机程序, 其特征在 于: 所述处 理器执行所述计算机程序时实现权利要求1至 6中任一项所述方法的步骤。 8.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于: 所述计算机程序被 处理器执行时实现权利要求1至 6中任一项所述方法的步骤。权 利 要 求 书 1/1 页 2 CN 114492377 A 2一种事件角色的标注方 法和计算机设 备、 计算机可 读存储 介质 技术领域 [0001]本发明涉及计算机技 术领域, 具体涉及一种事 件角色标注模型的标注方法。 背景技术 [0002]事件角色标注任务是标注出句子中的事件(句子中的事件可能是单事件也可能是 多事件)、 涉及该事件的论元、 以及论元在该事件中扮演的角色。 在NLP领域中, 和该想法相 似的任务是事件抽取。 在事件抽取过程中, 一个事件往往被更形式化的定义为包含了事件 触发词(表 示事件的核心词)、 事件类型、 事件论元(事件的参与者)和事件论元角色(事件论 元在事件中充当的角色), 因此事 件抽取任务 就是识别出 上述事件要素并进行 结构化组织。 [0003]在给定的事件角色标注数据集中, 未经过分词, 使用斯坦福分词器对数据分词后, 发现数据集中存在891条分词错误, 例如句子 “转租了一间餐饮店, 在办营业执照时, 但在注 消税务证时有 笔房屋使用税, 请问一下这段由他还 是我出?”, 其中一个实体为 “税务证”, 分 词后为“转租/了/一/间/餐饮店 /, /在/办/营业/执照/时/, /但/在/注消/税务/证时/有笔/ 房屋/使用税/, /请 /问/一下/这段/由/他/还 是/我/出/? ”, 可以发现, 实体 “税务证”中字符 “证”分到了“证时”, 这样就不能在句子中搜索到实体 “税务证”。 [0004]因此, 有必要提供一种新的技 术方案。 发明内容 [0005]为解决现有技术中存在的技术问题, 本发明公开了一种事件角色的标注方法, 具 体技术方案如下 所述: [0006]本发明提供一种事 件角色的标注方法, 包括如下步骤: [0007]S1, 字符编码: 将句子中的各个字符进行切分编码, 作为模型的输入部分; [0008]S2, 特征抽取: 使用双向LSTM(Long  short‑term memory)编码, 将其转换为向量 码, 得到句子中每 个字符的特 征表示; [0009]S3, 事件、 论元、 角色预测得分: 使用多层感知 机MLP网络确定事件、 论元以及角色, 分别计算 其MLP得分; [0010]S4, 优化概率: 对模型进行训练, 优化句子中事 件‑论元‑角色三元组的概 率。 [0011]进一步地, S 1中, 给定句子S=c0,c1,c2,…,cn, c0是在句子首部增加的一个虚根节 点, 用于预测事 件。 [0012]进一步地, S1中, 模型的输入部分包括字符嵌入char  embedding和BERT   embedding, 其可表示 为 [0013] [0014]其中字符嵌入char  embedding用word2v ec模型得到, BERT  embedding用BERT模 型 得到。说 明 书 1/4 页 3 CN 114492377 A 3

.PDF文档 专利 一种事件角色的标注方法和计算机设备、计算机可读存储介质

文档预览
中文文档 7 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共7页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种事件角色的标注方法和计算机设备、计算机可读存储介质 第 1 页 专利 一种事件角色的标注方法和计算机设备、计算机可读存储介质 第 2 页 专利 一种事件角色的标注方法和计算机设备、计算机可读存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 21:46:38上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。