说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210226403.2 (22)申请日 2022.03.09 (71)申请人 杭州网看科技有限公司 地址 310051 浙江省杭州市滨江区滨安路 1197号7幢1902室 (72)发明人 丁峰  (51)Int.Cl. G06F 16/31(2019.01) G06F 16/35(2019.01) G06F 16/36(2019.01) G06F 40/242(2020.01) G06F 40/284(2020.01) G06N 20/00(2019.01) (54)发明名称 一种基于NLP技术的单词频率排序及词汇表 分析的方法 (57)摘要 本发明属于语 言学习技术领域, 公开了一种 基于NLP技术的单词频率排序及词汇表分析的方 法, 包括: 收集语料库数据集; 清洗数据、 格式化 数据、 统计数据中的词汇, 以频率为参数, 利用排 序算法, 得到单词频率排序信息; 利用NLP技术进 行单词聚类分析, 分析单词类别属性, 构建过滤 工具; 利用机器学习方法和NLP技术训练数据集, 得到单词向量模 型, 利用单词向量模 型实时的分 析计算所有单词的关联单词及语境词汇表。 本方 案利用NLP技术, 通过机器学习来训练、 提炼大规 模数据集语料库生成词典的单词频率排序、 单词 聚类、 语境词汇表等, 以此构建词典的创新功能, 来帮助学习者提高学习效率, 解决使用者背词典 效率和目标问题, 帮助使用者掌握大量相关词 汇。 权利要求书1页 说明书3页 CN 114610837 A 2022.06.10 CN 114610837 A 1.一种基于N LP技术的单词频率 排序及词汇 表分析的方法, 其特 征在于: 包括: 收集语料库数据集; 清洗数据、 格 式化数据、 统计数据中的词 汇, 以频率为参数, 利用排序算法, 得到单词频 率排序信息; 利用NLP技术进行单词聚类分析, 分析 单词类别属性, 构建过 滤工具; 利用机器学习方法和NLP技术训练数据集, 得到单词向量模型, 利用单词向量模型实时 的分析计算所有单词的关联 单词及语境词汇 表。 2.根据权利要求1所述的一种基于NLP技术的单词频率排序及词汇表分析的方法, 其特 征在于: 所述语料库数据来源于网页数据、 书籍词汇、 新闻数据、 知识库数据。 3.根据权利要求1所述的一种基于NLP技术的单词频率排序及词汇表分析的方法, 其特 征在于: 所述单词类别属性包括单词 词干、 变形、 简写、 感情色彩、 口语、 书面语。 4.根据权利要求1所述的一种基于NLP技术的单词频率排序及词汇表分析的方法, 其特 征在于: 所述单词的关联 单词包括近邻词汇、 近似词汇、 反义词汇。权 利 要 求 书 1/1 页 2 CN 114610837 A 2一种基于NLP技术的单词频率排序及词 汇表分析的方 法 技术领域 [0001]本发明涉及语言学习技术领域, 具体为一种基于NLP技术的单词频率排序及词汇 表分析的方法。 背景技术 [0002]随着机器学习及自然语言处理技术的发展, 一些具备翻译、 发音、 阅读等功能的软 件工具普遍出现, 可有效帮助 理解外语文章和词句 。 然而, 即便是当前的智能时代, 基本的 “词典”工具还是必备的, 利用自然语言处理技术可以让词典类产品更 “智能”, 帮助语言学 习者高效学习和掌握大量重点词汇。 [0003]传统纸质词典按照 “字母排序 ”查单词, 但是使用者有两个困境: [0004](1)查单词的时候, 查到的单词不知其重要性, 是否值得花精力记 忆学习; [0005](2)背单词时候一般是从a开始背起, 然而按照这样字母排序, 会有大量的 “生僻 词”夹杂其中耗费精力。 [0006]而现在的软件词典利用搜索技术, 无需再借助于字母排序, 但是使用者依 旧有以 下困境: [0007](1)查到单词不知重要性; [0008](2)背词典不能 “按图索骥 ”; [0009](3)独立的各种高频 单词表也 不具备客观指标, 是与词典孤立的单词表。 [0010]因此, 以上传统产品方法并没有充分利用技术来数据化和自动化的解决学词 典、 背词典的效率问题。 发明内容 [0011]本发明的目的是为了解决现有技术中存在的缺点, 而提出的一种基于NLP技术的 单词频率 排序及词汇 表分析的方法。 [0012]为实现上述目的, 本发明提供如下技 术方案: [0013]一种基于N LP技术的单词频率 排序及词汇 表分析的方法, 包括: [0014]收集语料库数据集; [0015]清洗数据、 格式化数据、 统计数据中的词汇, 以频率为参数, 利用排序算法, 得到单 词频率排序信息; [0016]利用NLP技术进行单词聚类分析, 分析 单词类别属性, 构建过 滤工具; [0017]利用机器学习方法和NLP 技术训练数据集, 得到单词向量模型, 利用单词向量模型 实时的分析计算所有单词的关联 单词及语境词汇 表。 [0018]作为本发明进一步的方案: 所述语料库数据来源于网页数据、 书籍词汇、 新闻数 据、 知识库数据。 [0019]作为本发明进一步的方案: 所述单词类别属性包括单词词干、 变形、 简写、 感情色 彩、 口语、 书面语。说 明 书 1/3 页 3 CN 114610837 A 3

.PDF文档 专利 一种基于NLP技术的单词频率排序及词汇表分析的方法

文档预览
中文文档 5 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共5页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于NLP技术的单词频率排序及词汇表分析的方法 第 1 页 专利 一种基于NLP技术的单词频率排序及词汇表分析的方法 第 2 页 专利 一种基于NLP技术的单词频率排序及词汇表分析的方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:51:46上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。