(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111654758.3
(22)申请日 2021.12.3 0
(71)申请人 永中软件股份有限公司
地址 214135 江苏省无锡市震泽路18号无
锡 (国家) 软件园飞鱼座D幢
(72)发明人 夏振涛 谈辉 李艳 朱立烨
石雁
(74)专利代理 机构 苏州简理知识产权代理有限
公司 32371
专利代理师 庞聪雅
(51)Int.Cl.
G06F 40/205(2020.01)
G06F 40/216(2020.01)
G06F 40/284(2020.01)
G06N 3/04(2006.01)G06N 3/08(2006.01)
(54)发明名称
一种事件角色的标注方法和计算机设备、 计
算机可读存 储介质
(57)摘要
本发明提供一种事件角色的标注方法, 其包
括如下步骤: S1, 字符编码: 将句子中的各个字符
进行切分编码, 作为模型的输入部分; S2, 特征抽
取: 使用双向LS TM编码, 将其转换为向量码, 得到
句子中每个字符的特征表示; S3, 事件、 论元、 角
色预测得分: 使用多层感知机MLP网络确定事件、
论元以及角色, 分别计算其MLP得分; S4, 优化概
率: 对模型进行训练, 优化句子中事件 ‑论元‑角
色三元组的概率。 本发明具有 提高事件提取的准
确性和效率 等优点。
权利要求书1页 说明书4页 附图1页
CN 114492377 A
2022.05.13
CN 114492377 A
1.一种事 件角色的标注方法, 其特 征在于, 包括如下步骤:
S1, 字符编码: 将句子中的各个字符进行切分编码, 作为模型的输入部分;
S2, 特征抽取: 使用双向LSTM(Long short‑term memory)编码, 将其转换为向量码, 得
到句子中每 个字符的特 征表示;
S3, 事件、 论元、 角色预测得分: 使用多层感知机MLP网络确定事件、 论元以及角色, 分别
计算其MLP得分;
S4, 优化概率: 对模型进行训练, 优化句子中事 件‑论元‑角色三元组的概 率。
2.根据权利要求1所述的事件角色的标注方法, 其特征在于, S1中, 给定句子S=c0,c1,
c2,…,cn, c0是在句子首部增 加的一个虚根节点, 用于预测事 件。
3.根据权利要求1所述的事件角色的标注方法, 其特征在于, S1中, 模型的输入部分包
括字符嵌入c har embedding和BERT embedding, 其可表示 为
其中字符嵌入char embedding用word2vec模型得到, BERT embedding用BERT模型得
到。
4.根据权利要求1所述的事件角色的标注方法, 其特征在于, S2中, 取BiLSTM输出向量
的第一个位置作为事件特征表示
对于所有候选论元, 通过在相应论元span内对
BiLSTM输出采用均 值运算来表示特征
角色特征表示是事 件特征表示
和论文特 征
的拼接。
5.根据权利要求4所述的事件角色的标注方法, 其特征在于, 事件、 论元以及角色的MLP
得分分别为:
6.根据权利要求5所述的事件角色的标注方法, 其特征在于, 基于span的模型目标是预
测事件‑论元‑角色
其中P是候选事件集合, A={(ci,…,cj)|1≤i≤j≤n}是
候选论元, R是候选论元角色集合, 模 型的优化目标是优化句子中事件 ‑论元‑角色三元 组的
概率, 即
其中,
是事件‑论元‑角色三元组的得分。
7.一种计算机设备, 包括存储器和处理器, 所述存储器存储有计算机程序, 其特征在
于: 所述处 理器执行所述计算机程序时实现权利要求1至 6中任一项所述方法的步骤。
8.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于: 所述计算机程序被
处理器执行时实现权利要求1至 6中任一项所述方法的步骤。权 利 要 求 书 1/1 页
2
CN 114492377 A
2一种事件角色的标注方 法和计算机设 备、 计算机可 读存储
介质
技术领域
[0001]本发明涉及计算机技 术领域, 具体涉及一种事 件角色标注模型的标注方法。
背景技术
[0002]事件角色标注任务是标注出句子中的事件(句子中的事件可能是单事件也可能是
多事件)、 涉及该事件的论元、 以及论元在该事件中扮演的角色。 在NLP领域中, 和该想法相
似的任务是事件抽取。 在事件抽取过程中, 一个事件往往被更形式化的定义为包含了事件
触发词(表 示事件的核心词)、 事件类型、 事件论元(事件的参与者)和事件论元角色(事件论
元在事件中充当的角色), 因此事 件抽取任务 就是识别出 上述事件要素并进行 结构化组织。
[0003]在给定的事件角色标注数据集中, 未经过分词, 使用斯坦福分词器对数据分词后,
发现数据集中存在891条分词错误, 例如句子 “转租了一间餐饮店, 在办营业执照时, 但在注
消税务证时有 笔房屋使用税, 请问一下这段由他还 是我出?”, 其中一个实体为 “税务证”, 分
词后为“转租/了/一/间/餐饮店 /, /在/办/营业/执照/时/, /但/在/注消/税务/证时/有笔/
房屋/使用税/, /请 /问/一下/这段/由/他/还 是/我/出/? ”, 可以发现, 实体 “税务证”中字符
“证”分到了“证时”, 这样就不能在句子中搜索到实体 “税务证”。
[0004]因此, 有必要提供一种新的技 术方案。
发明内容
[0005]为解决现有技术中存在的技术问题, 本发明公开了一种事件角色的标注方法, 具
体技术方案如下 所述:
[0006]本发明提供一种事 件角色的标注方法, 包括如下步骤:
[0007]S1, 字符编码: 将句子中的各个字符进行切分编码, 作为模型的输入部分;
[0008]S2, 特征抽取: 使用双向LSTM(Long short‑term memory)编码, 将其转换为向量
码, 得到句子中每 个字符的特 征表示;
[0009]S3, 事件、 论元、 角色预测得分: 使用多层感知 机MLP网络确定事件、 论元以及角色,
分别计算 其MLP得分;
[0010]S4, 优化概率: 对模型进行训练, 优化句子中事 件‑论元‑角色三元组的概 率。
[0011]进一步地, S 1中, 给定句子S=c0,c1,c2,…,cn, c0是在句子首部增加的一个虚根节
点, 用于预测事 件。
[0012]进一步地, S1中, 模型的输入部分包括字符嵌入char embedding和BERT
embedding, 其可表示 为
[0013]
[0014]其中字符嵌入char embedding用word2v ec模型得到, BERT embedding用BERT模 型
得到。说 明 书 1/4 页
3
CN 114492377 A
3
专利 一种事件角色的标注方法和计算机设备、计算机可读存储介质
文档预览
中文文档
7 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共7页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 21:46:38上传分享