说明:收录25万 73个行业的国家标准 支持批量下载
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210177253.0 (22)申请日 2022.02.24 (71)申请人 北京交通大 学 地址 100044 北京市海淀区西直门外上园 村3号 (72)发明人 张春 张宁 贺璐 (74)专利代理 机构 北京市商 泰律师事务所 11255 专利代理师 黄晓军 (51)Int.Cl. G06F 40/242(2020.01) G06F 40/295(2020.01) G06F 40/30(2020.01) G06F 40/216(2020.01) G06N 3/08(2006.01)G06N 5/04(2006.01) (54)发明名称 一种融合词典与字符特征的字符序列识别 方法 (57)摘要 本发明提供了一种融合词典与字符特征的 字符序列识别方法。 该方法包括: 获取输入序列 中的每个字符匹配的词典中的三类词典匹配词, 将输入字符序列的每个字符嵌入向量与该字符 对应的三类词典匹配词集 嵌入向量进行拼接, 得 到词典增强的字符嵌入向量; 将词典增强的字 符 嵌入向量与三类词典匹配词进行拼接后, 送入 Transformer的编码层, Transformer的编码层输 出待解码信息; 将待解码信息输入至条件随机场 CRF解码层进行解码, 得到输入序列的标注结果。 本发明的方法通过综合词典的匹配词在字符嵌 入、 模型推理阶段对字符特征的交互、 匹配词以 及字符的位置信息增强的向量表 示, 从而有效地 增强模型对文本句子在嵌入过程 以及推理过程 中对语义信息的表示与理解。 权利要求书2页 说明书7页 附图1页 CN 114662476 A 2022.06.24 CN 114662476 A 1.一种融合词典与字符特 征的字符序列识别方法, 其特 征在于, 包括: 获取输入序列中的每个字符匹配的词典中的三类词典匹配词, 将输入字符序列的每个 字符嵌入向量与该字符对应的三类词典匹配词集嵌入向量进 行拼接, 得到词典增强的字符 嵌入向量; 将所述词典增强的字符嵌入向量与所述三类词典匹配词进行拼接后, 送入 Transformer的编码层, Transformer的编码层输出待解码信息; 将所述待解码信息输入至条件随机场CRF解码层进行解码, 得到所述输入序列的标注 结果。 2.根据权利要求1所述的方法, 其特征在于, 所述的获取输入序列中的每个字符匹配的 词典中的三类词典匹配词, 将输入字符序列的每个字符嵌入向量与该字符对应的三类词典 匹配词集嵌入向量进行拼接, 得到词典增强的字符嵌入向量, 包括: 给定输入序列为C=[c1, c2, c3, ..., cn], 输入序列C中的第i个字符为ci, 通过预定义的 字符表对字符ci进行标记并输入至BERT编码器, 得到 字符ci的字符嵌入向量 分别表示与字符ci对应的该字符在词首、 词中、 词尾的三类词典匹配词集嵌入 向量, B、 M、 E 分别表示该字符在词首、 词中、 词尾的三类匹配词集, 令词集Z=B|M|E, 词集R= B∪M∪E, 则 具体计算如下: 其中, weight(w)表示匹配词w在某一类词集中的权重, num(w)表示匹配词w在语料中出 现的频数, e(w)表示匹配词w的嵌入表示, e表示词典的查找 表; 将字符嵌入向量 与对应的三类匹配词嵌入向量 进行拼接, 将拼接结果作为 第i个词典增强的字符嵌入向量 词典增强的字符序列 3.根据权利要求2所述的方法, 其特征在于, 所述的将所述词典增强的字符嵌入向量与 所述三类词典匹配词进行拼接后, 送入Transformer的编码层, Transformer的编码层输出 待解码信息, 包括: 将词典增强的字符序列xrep经过线性降维后, 与字符ci对应的词首、 词中、 词尾的三类匹 配词集B、 M、 E进行拼接后, 分别加上开始位置嵌入向量pstart以及结束位置嵌入向量pend, 得 到词典增强模 型的输入xdec, 字符序列的开始 位置与结束位置相同, 每个匹配词的开始位置 即为该词第一个字符所在的位置, 结束位置即为该词最后一个字符所在的位置, 计算如下: xdec=[xrepW1; e(w1), e(w2), e(w3), ..., e(wk)]+pstart+pend 其中, W1表示模型参数, p表示 位置信息的查找 表; 将xdec输入至Transformer的编码结构, Transformer的编码结构输出待解码信息A。 4.根据权利要求3所述的方法, 其特征在于, 所述的将所述待解码信 息输入至条件随机 场CRF解码层进行解码, 得到所述输入序列的标注结果, 包括: 将待解码信息A输入至CRF解码层进行解码预测, 将CRF获取的概率最大的序列作为所权 利 要 求 书 1/2 页 2 CN 114662476 A 2述输入序列C的标签序列y; 标签序列y=[y1, y2, y3, ..., yn], Y表示所有可能的标签序列集合, 标注序列y概率计算 如下: 其中, Wy, y′, by, y′是依据标签对(y, y ′)的训练参数, θ表示模型 所有的可训练参数。权 利 要 求 书 2/2 页 3 CN 114662476 A 3
专利 一种融合词典与字符特征的字符序列识别方法
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 SC 于
2024-02-18 22:33:27
上传分享
举报
下载
原文档
(645.0 KB)
分享
友情链接
GB-T 21053-2023 信息安全技术 公钥基础设施 PKI系统安全技术要求.pdf
奇安信 2020年网络安全应急响应分析报告 2021.pdf
SY-T 5329-2022 碎屑岩油藏注水水质指标技术要求及分析方法.pdf
GB-T 34310-2017 运动竞赛场所基本术语.pdf
JR-T0213-2021 金融网络安全 Web 应用服务安全测试通用 规范.pdf
GB-T 5155-2022 镁及镁合金热挤压棒材.pdf
DB2310-T 114-2023 地理标志产品 响水大米 牡丹江市.pdf
GW0102-2014 国家电子政务外网 信息安全标准化规范性要求.pdf
T-CEC 621.1—2022 电力系统外绝缘用硅橡胶老化评估及修复技术 第1 部分:硅橡胶清洗修复剂技术条件.pdf
GB-T 38186-2019 商用车辆自动紧急制动系统 AEBS 性能要求及试验方法.pdf
GB-T 30902-2014 无机化工产品 杂质元素的测定 电感耦合等离子体发射光谱法(ICP-OES).pdf
GB-T 33822-2017 纳米磷酸铁锂.pdf
GB-T 40064-2021 节能技术评价导则.pdf
DB53-T 1088-2022 鳄梨(牛油果)果品质量等级 云南省.pdf
GB-T 38702-2020 供应链安全管理体系 实施供应链安全、评估和计划的最佳实践 要求和指南.pdf
信通院 物联网金融研究报告-2022年.pdf
齐齐哈尔市民用建筑节能管理办法.pdf
GB-T 39254-2020 增材制造 金属制件机械性能评价通则.pdf
T-GSA 2—2018 信息化项目软件开发费用测算规范.pdf
T-CESA 1149—2021 人工智能芯片应用 面向病理图像分析辅助诊断系统的技术要求.pdf
1
/
11
评价文档
赞助2.5元 点击下载(645.0 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。