说明:收录25万 73个行业的国家标准 支持批量下载
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210226403.2 (22)申请日 2022.03.09 (71)申请人 杭州网看科技有限公司 地址 310051 浙江省杭州市滨江区滨安路 1197号7幢1902室 (72)发明人 丁峰 (51)Int.Cl. G06F 16/31(2019.01) G06F 16/35(2019.01) G06F 16/36(2019.01) G06F 40/242(2020.01) G06F 40/284(2020.01) G06N 20/00(2019.01) (54)发明名称 一种基于NLP技术的单词频率排序及词汇表 分析的方法 (57)摘要 本发明属于语 言学习技术领域, 公开了一种 基于NLP技术的单词频率排序及词汇表分析的方 法, 包括: 收集语料库数据集; 清洗数据、 格式化 数据、 统计数据中的词汇, 以频率为参数, 利用排 序算法, 得到单词频率排序信息; 利用NLP技术进 行单词聚类分析, 分析单词类别属性, 构建过滤 工具; 利用机器学习方法和NLP技术训练数据集, 得到单词向量模 型, 利用单词向量模 型实时的分 析计算所有单词的关联单词及语境词汇表。 本方 案利用NLP技术, 通过机器学习来训练、 提炼大规 模数据集语料库生成词典的单词频率排序、 单词 聚类、 语境词汇表等, 以此构建词典的创新功能, 来帮助学习者提高学习效率, 解决使用者背词典 效率和目标问题, 帮助使用者掌握大量相关词 汇。 权利要求书1页 说明书3页 CN 114610837 A 2022.06.10 CN 114610837 A 1.一种基于N LP技术的单词频率 排序及词汇 表分析的方法, 其特 征在于: 包括: 收集语料库数据集; 清洗数据、 格 式化数据、 统计数据中的词 汇, 以频率为参数, 利用排序算法, 得到单词频 率排序信息; 利用NLP技术进行单词聚类分析, 分析 单词类别属性, 构建过 滤工具; 利用机器学习方法和NLP技术训练数据集, 得到单词向量模型, 利用单词向量模型实时 的分析计算所有单词的关联 单词及语境词汇 表。 2.根据权利要求1所述的一种基于NLP技术的单词频率排序及词汇表分析的方法, 其特 征在于: 所述语料库数据来源于网页数据、 书籍词汇、 新闻数据、 知识库数据。 3.根据权利要求1所述的一种基于NLP技术的单词频率排序及词汇表分析的方法, 其特 征在于: 所述单词类别属性包括单词 词干、 变形、 简写、 感情色彩、 口语、 书面语。 4.根据权利要求1所述的一种基于NLP技术的单词频率排序及词汇表分析的方法, 其特 征在于: 所述单词的关联 单词包括近邻词汇、 近似词汇、 反义词汇。权 利 要 求 书 1/1 页 2 CN 114610837 A 2一种基于NLP技术的单词频率排序及词 汇表分析的方 法 技术领域 [0001]本发明涉及语言学习技术领域, 具体为一种基于NLP技术的单词频率排序及词汇 表分析的方法。 背景技术 [0002]随着机器学习及自然语言处理技术的发展, 一些具备翻译、 发音、 阅读等功能的软 件工具普遍出现, 可有效帮助 理解外语文章和词句 。 然而, 即便是当前的智能时代, 基本的 “词典”工具还是必备的, 利用自然语言处理技术可以让词典类产品更 “智能”, 帮助语言学 习者高效学习和掌握大量重点词汇。 [0003]传统纸质词典按照 “字母排序 ”查单词, 但是使用者有两个困境: [0004](1)查单词的时候, 查到的单词不知其重要性, 是否值得花精力记 忆学习; [0005](2)背单词时候一般是从a开始背起, 然而按照这样字母排序, 会有大量的 “生僻 词”夹杂其中耗费精力。 [0006]而现在的软件词典利用搜索技术, 无需再借助于字母排序, 但是使用者依 旧有以 下困境: [0007](1)查到单词不知重要性; [0008](2)背词典不能 “按图索骥 ”; [0009](3)独立的各种高频 单词表也 不具备客观指标, 是与词典孤立的单词表。 [0010]因此, 以上传统产品方法并没有充分利用技术来数据化和自动化的解决学词 典、 背词典的效率问题。 发明内容 [0011]本发明的目的是为了解决现有技术中存在的缺点, 而提出的一种基于NLP技术的 单词频率 排序及词汇 表分析的方法。 [0012]为实现上述目的, 本发明提供如下技 术方案: [0013]一种基于N LP技术的单词频率 排序及词汇 表分析的方法, 包括: [0014]收集语料库数据集; [0015]清洗数据、 格式化数据、 统计数据中的词汇, 以频率为参数, 利用排序算法, 得到单 词频率排序信息; [0016]利用NLP技术进行单词聚类分析, 分析 单词类别属性, 构建过 滤工具; [0017]利用机器学习方法和NLP 技术训练数据集, 得到单词向量模型, 利用单词向量模型 实时的分析计算所有单词的关联 单词及语境词汇 表。 [0018]作为本发明进一步的方案: 所述语料库数据来源于网页数据、 书籍词汇、 新闻数 据、 知识库数据。 [0019]作为本发明进一步的方案: 所述单词类别属性包括单词词干、 变形、 简写、 感情色 彩、 口语、 书面语。说 明 书 1/3 页 3 CN 114610837 A 3
专利 一种基于NLP技术的单词频率排序及词汇表分析的方法
文档预览
中文文档
5 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共5页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 08:51:46
上传分享
举报
下载
原文档
(240.9 KB)
分享
友情链接
DB42-T 1946-2022 工业锅炉燃油燃气燃烧器节能等级评价方法 湖北省.pdf
GB-T 36626-2018 信息安全技术 信息系统安全运维管理指南.pdf
GB-T 14602-2014 电子工业用气体 氯化氢.pdf
DB22-T 2256-2018 杂交粳稻不育系鉴定规程 吉林省.pdf
信通院 数据安全技术与产业发展研究报告-2021年.pdf
GM-T 0123-2022 时间戳服务器密码检测规范.pdf
T-CSTM 00838—2022 材料基因工程 材料数据标识 MID.pdf
GB-T 16508.7-2022 锅壳锅炉 第7部分:安装.pdf
GB-T 32124-2015 磷石膏的处理处置规范.pdf
法律法规 证券期货行政执法当事人承诺制度实施办法.pdf
GB-T 42129-2022 数据管理能力成熟度评估方法.pdf
GB-T 30069.1-2013 金属材料 高应变速率拉伸试验 第1部分 弹性杆型系统.pdf
DB15-T 835-2015 磷石膏改良碱化土壤技术规程 内蒙古自治区.pdf
GB-T 24162-2022 汽车用压缩天然气金属内胆纤维环缠绕气瓶定期检验与评定.pdf
GB-T 41072-2021 表面化学分析 电子能谱 紫外光电子能谱分析指南.pdf
ISO-IEC 27007 英文版 2022.pdf
T-CAQI 157—2020 检验检测机构合规性评价指南.pdf
GB-T 24369.3-2017 金纳米棒表征 第3部分:表面电荷密度测量方法.pdf
MT-T 244.1-2020 煤矿窄轨车辆连接件 连接链.pdf
GB-T 32919-2016 信息安全技术 工业控制系统安全控制应用指南.pdf
1
/
3
5
评价文档
赞助2.5元 点击下载(240.9 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。