说明:收录25万 73个行业的国家标准 支持批量下载
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210175343.6 (22)申请日 2022.02.25 (71)申请人 深圳TCL新技术有限公司 地址 518052 广东省深圳市南 山区西丽 街 道中山园路10 01号国际E城D4栋9 楼 (72)发明人 不公告发明人 (74)专利代理 机构 深圳紫藤知识产权代理有限 公司 44570 专利代理师 何艳 (51)Int.Cl. G06F 40/58(2020.01) G06F 40/30(2020.01) G06F 40/247(2020.01) G06F 16/73(2019.01) (54)发明名称 词语相似度确定方法、 装置、 存储介质及计 算机设备 (57)摘要 本申请公开了一种词语相似度确定方法、 装 置、 存储介质及计算机设备, 该方法应用于计算 机设备中, 包括: 基于同义词词林确定第一词语 所对应的第一义项集合和第二词语所对应的第 二义项集合, 并确定第一义项集合中处于叶子结 点的第一义项在叶子结点中的第一同义词义项 集合, 以及确定第二义项集合中处于叶子结点的 第二义项在叶子结点中的第二同义词义项集合, 根据各第一义项和各第二义项、 以及第一同义词 义项集合中的各第一同义词义项与第二同义词 义项集合中的各第二同义词义项, 确定各第一义 项和各第二义项之间的义项相似度, 根据义项相 似度来确定第一词语和第二词语 之间的相似度。 本申请实施例提高了词语相似度确定的准确性。 权利要求书3页 说明书18页 附图7页 CN 114548124 A 2022.05.27 CN 114548124 A 1.一种词语相似度确定方法, 其特 征在于, 包括: 获取需确定相似度的第一词语和第二词语; 基于同义词词林确定第一词语所对应的第一义项集合和第二词语所对应的第二义项 集合; 基于同义词词林确定第一义项集合中处于叶子结点的第一义项在所述叶子结点中的 同义词义项集合, 作为第一同义词义项集合, 以及确定第二义项集合中处于叶子结点的第 二义项在所述叶子结点中的同义词义项集 合, 作为第二同义词义项集 合; 根据所述第 一义项集合中各第 一义项和所述第 二义项集合中的各第 二义项、 以及所述 第一同义词义项集合中的各第一同义词义项与第二同义词义项集合中的各第二同义词义 项, 确定各第一 义项和各第二 义项之间的义项相似度; 根据所述 义项相似度确定所述第一词语和所述第二词语之间的相似度。 2.根据权利要求1所述的词语相似度确定方法, 其特征在于, 所述根据 所述第一义项集 合中各第一义项和所述第二义项集合中的各第二义项、 以及所述第一同义词义项集合中的 各第一同义词义项与第二同义词义项集合中的各第二同义词义项, 确定各第一义项和各第 二义项之间的义项相似度的步骤, 包括: 根据所述第 一义项集合中各第 一义项和所述第 二义项集合中的各第 二义项、 以及所述 第一同义词义项集合中的各第一同义词义项与第二同义词义项集合中的各第二同义词义 项, 确定各第一 义项和各第二 义项之间的义项共同特 征和义项差异特 征; 根据所述义项共同特征和所述义项差异特征确定各第一义项和各第二义项之间的义 项相似度。 3.根据权利要求2所述的词语相似度确定方法, 其特征在于, 所述根据 所述第一义项集 合中各第一义项和所述第二义项集合中的各第二义项、 以及所述第一同义词义项集合中的 各第一同义词义项与第二同义词义项集合中的各第二同义词义项, 确定各第一义项和各第 二义项之间的义项共同特 征和义项差异特 征的步骤, 包括: 确定所述第一义项集合中各第一义项和所述第二义项集合中的各第二义项之间的第 一相似度; 确定所述第一同义词义项集合中的各第一同义词义项与第二同义词义项集合中的各 第二同义词义项之间的第二相似度; 根据所述第一相似度和所述第二相似度确定各第一义项和各第二义项之间的义项共 同特征; 基于各第一义项和各第 二义项的最短路径长度, 确定各第 一义项和各第 二义项之间的 义项差异特 征。 4.根据权利要求3所述的词语相似度确定方法, 其特征在于, 所述根据 所述第一相似度 和所述第二相似度确定各第一 义项和各第二 义项之间的义项共同特 征的步骤, 包括: 将第二相似度按照从高到低的顺序排列, 并获取 前预设数量的目标第二相似度; 获取第一超参数以及预设数量的第 二超参数, 所述第 二超参数与所述目标第 二相似度 一一对应, 所述第一超参数和预设数量的所述第二超参数相加之后的和为 一; 利用所述第一超参数、 所述第二超参数分别与所述第一相似度、 所述目标第二相似度 进行加权求和, 以得到各第一 义项和各第二 义项之间的义项共同特 征。权 利 要 求 书 1/3 页 2 CN 114548124 A 25.根据权利要求3所述的词语相似度确定方法, 其特征在于, 所述基于各第 一义项和各 第二义项的最短路径长度, 确定各第一义项和各第二义项之间的义项差异特征 的步骤, 包 括: 获取各第一义项和各第 二义项的最短路径长度、 各第 一义项和各第 二义项的最近公共 父结点; 获取所述最近公共父结点所对应的层数权重, 以及确定所述最近公共父结点的直接孩 子数、 各第一 义项和各第二 义项所在的所述 最近公共父 结点的分支 距离; 根据所述最短路径长度、 所述层数权重、 所述直接孩子数和所述分支距离确定各第一 义项和各第二 义项之间的义项差异特 征。 6.根据权利要5所述的词语相似度确定方法, 其特征在于, 所述获取各第 一义项和各第 二义项的最短路径长度的步骤, 包括: 根据第一词语所对应的各第一义项与所述第二词语所对应的各第二义项的最近公共 父结点和叶子结点中是否存在所述第一词语或者所述第二词语来确定各第一义项和各第 二义项的最短路径长度。 7.根据权利要求6所述的词语相似度确定方法, 其特征在于, 所述根据第 一词语所对应 的各第一义项与所述第二词语所对应的各第二义项的最近公共父结点和叶子结点中是否 存在所述第一词语或者所述第二词语来确定各第一义项和各第二义项的最短路径长度的 步骤, 包括: 当所述第一词语所对应的第一义项和所述第二词语所对应的第二义项的最近公共父 结点中包括所述第一词语或者所述第二词语, 则所述第一义项和所述第二义项的最短路径 长度为所述最近公共父结点与所述第二义项 所对应的分支结点的路径长度, 或者为所述最 近公共父 结点与所述第一 义项所对应的分支结点的路径长度; 当所述第一词语所对应的第一义项和所述第二词语所对应的第二义项仅在叶子结点 中出现, 则所述第一义项和所述第二义项的最短路径长度为所述第一义项 所对应的叶子结 点到所述最近公共父结点之 间的路径长度、 与所述第二义项 所对应的叶子结点到所述最近 公共父结点之间的路径长度之和; 当所述第一词语所对应的第一义项与所述第二词语所对应的第二义项的最近公共父 结点中不包括第一词语或者第二词语, 但第一词语或者第二词语既在叶子结点中出现, 同 时也在非最近公共父结点中出现, 则所述第一义项和所述第二义项的最短路径长度为所述 第一义项 所对应的叶子结点到所述最近公共父结点之 间的路径长度、 与所述第二义项 所对 应的叶子结点到所述 最近公共父 结点之间的路径长度之和; 当所述第一词语所对应的第一义项与所述第二词语所对应的第二义项不仅在所述最 近公共父结点中出现, 同时也在对应的叶子结点中出现, 则所述第一义项和所述第二义项 的最短路径长度为所述第一义项所对应的叶子结点到所述最近公共父结点之间的路径长 度、 与所述第二 义项所对应的叶子结点到所述 最近公共父 结点之间的路径长度之和。 8.一种词语相似度确定装置, 其特 征在于, 包括: 获取模块, 用于获取需确定相似度的第一词语和第二词语; 第一义项确定模块, 用于基于同义词词林确定第 一词语所对应的第 一义项集合和第 二 词语所对应的第二 义项集合;权 利 要 求 书 2/3 页 3 CN 114548124 A 3
专利 词语相似度确定方法、装置、存储介质及计算机设备
文档预览
中文文档
29 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共29页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 SC 于
2024-02-18 22:33:26
上传分享
举报
下载
原文档
(1.2 MB)
分享
友情链接
GB-T 39725-2020 信息安全技术 健康医疗数据安全指南.pdf
tc260 网络安全标准实践指南 数据分类分级指引 2022 .pdf
DB31-T 444-2022 排水管道电视和声呐检测评估技术规程 上海市.pdf
GB-T 35286-2017 信息安全技术 低速无线个域网空口安全测试规范.pdf
GB-T 35273-2019 信息安全技术 个人信息安全规范.pdf
GB-T 39842-2021 集成电路 IC 卡封装框架.pdf
T-CTSA 0011—2022 虚拟演出交互实验平台测试规范.pdf
T-GCHA 1.5—2018 定制家居产品 人造板定制衣柜 第5部分:客户服务规范.pdf
NB-T 10333-2019 水电工程场内交通道路设计规范.pdf
GA-T 460.1-2020 居民身份证卡体材料及打印薄膜技术规范 第1部分:制卡用垫平层白色PETG薄膜.pdf
T-GZBD 10—2022 大数据容灾备份建设指南.pdf
DB6101-T 3189-2024 检验检测数据管理规范 数据安全 西安市.pdf
GB-T 25064-2010 信息安全技术 公钥基础设施 电子签名格式规范.pdf
DB32-T 4535-2023 固定污染源废气 颗粒物快速监测技术规范 江苏省.pdf
GB-T 25122.3-2018 轨道交通 机车车辆用电力变流器 第3部分:机车牵引变流器.pdf
GB-T 22522-2021 测量螺纹用米制系列量针.pdf
GB-T 31392-2022 煤矿矿井水利用技术导则.pdf
GM-T 0032-2014 基于角色的授权与访问控制技术规范.pdf
T-QGCML 264—2022 智能数字化血糖监测系统通用技术要求.pdf
GM-T 0006-2012 密码应用标识规范.pdf
1
/
29
评价文档
赞助2.5元 点击下载(1.2 MB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。