全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111630171.9 (22)申请日 2021.12.28 (71)申请人 北京金堤科技有限公司 地址 100098 北京市海淀区知春路6 5号院1 号楼B座20层20 01号 (72)发明人 刘阳 崔圣君 郭韩钰 冷小萱  (74)专利代理 机构 北京英创嘉友知识产权代理 事务所(普通 合伙) 11447 代理人 贺晓蕾 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 40/289(2020.01) G06K 9/62(2022.01) (54)发明名称 行业类别的确定方法、 装置、 存储介质和电 子设备 (57)摘要 本公开涉及一种行业类别的确定方法、 装 置、 存储介质和电子设备, 涉及电子信息技术领 域, 该方法包括: 获取目标 企业文本信息; 在目标 企业文本信息中提取第一企业关键词; 将第一企 业关键词与预先确定的关键词库进行匹配, 将匹 配失败的第一企业关键词进行 组合或拆 分, 得到 第二企业关键词; 将预测样本输入基于关键词库 确定的分类模型, 得到目标企业的行业类别; 其 中, 预测样本包括第二企业关键词。 经过组合或 拆分后得到第二企业关键词 能体现出更强的行 业特征。 将第二企业关键词输入至基于关键词库 训练的分类模型, 从而得到目标企业的行业类 别。 这样, 能够有效提高对目标企业行业分类的 准确性。 权利要求书2页 说明书11页 附图5页 CN 114297347 A 2022.04.08 CN 114297347 A 1.一种行业类别的确定方法, 其特 征在于, 所述方法包括: 获取目标企业文本信息; 在所述目标企业文本信息中提取第一企业关键词; 将所述第一企业关键词与 预先确定的关键词库进行匹配, 将匹配失败的第 一企业关键 词进行组合或拆分, 得到第二企业关键词; 将预测样本输入基于所述关键词库确定的分类模型, 得到目标企业的行业类别; 其中, 所述预测样本包括所述第二企业关键词。 2.根据权利要求1所述的方法, 其特 征在于, 所述分类模型通过以下 方式训练得到: 获取行业文本信息和与行业类别对应的企业文本信息; 所述行业文本信息中包括: 若 干所述行业类别及与各个所述行业类别对应的行业特 征信息; 从所述行业特 征信息中提取 行业关键词; 从所述企业文本信息中提取第三企业关键词; 根据所述行业类别及其对应的行业关键词和第三企业关键词, 生成所述关键词库; 根据所述关键词库训练所述分类模型。 3.根据权利要求2所述的方法, 其特征在于, 所述从所述行业特征信 息中提取行业关键 词, 包括: 按照预设的行业无用词库去除所述行业特 征信息中的无用词; 根据标点符号切分去除无用词后的所述行业特 征信息, 得到若干行业特 征文本; 根据所述若干行业特 征文本, 生成所述行业关键词。 4.根据权利要求3所述的方法, 其特征在于, 所述根据所述若干行业特征文本, 生成所 述行业关键词, 包括: 针对各个所述行业特征文本: 确定所述行业特征文本的字符长度 是否大于或者等于预 设长度阈值, 如果是, 对 所述行业特征文本进 行分词, 得到所述行业关键词, 否则, 确定所述 行业特征文本为所述行业关键词。 5.根据权利要求2所述的方法, 其特征在于, 所述从所述企业文本信 息中提取第 三企业 关键词, 包括: 按照不同切分粒度切分所述企业文本信息, 得到所述第三企业关键词。 6.根据权利要求5所述的方法, 其特征在于, 在所述按照不同切分粒度切分所述企业文 本信息之前, 进一 步包括: 按照预设的企业无用词库去除所述企业文本信息中的无用词; 所述按照不同切分粒度切分所述企业文本信息, 包括: 按照不同切分粒度切分去除无用词后的所述企业文本信息 。 7.根据权利要求5或6所述的方法, 其特征在于, 所述根据所述行业类别及其对应的行 业关键词和第三企业关键词, 生成所述关键词库, 包括: 计算所述企业文本信息的行业类别对应的行业关键词与不同切分粒度的第三企业关 键词的相似度; 根据所述相似度, 在不同切分粒度中选 定目标切分粒度; 将所述目标切分粒度的第 三企业关键词及其对应的行业关键词均作为目标关键词, 将 所述目标关键词及其对应的行业类别添加到所述关键词库。权 利 要 求 书 1/2 页 2 CN 114297347 A 28.根据权利要求7所述的方法, 其特征在于, 在所述将目标关键词及其对应的行业类别 添加到所述关键词库之后, 进一 步包括: 从所述目标关键词中抽取实体词; 针对各个所述行业类别: 根据 所述实体词, 对所述行业类别下的目标关键词进行聚类, 得到若干关键词集 合; 根据所述若干关键词集 合, 确定所述行业类别的种子关键词; 所述根据所述关键词库训练所述分类模型, 包括: 根据所述种子关键词及其对应的行业类别, 训练所述分类模型。 9.根据权利要求8所述的方法, 其特征在于, 所述根据所述若干关键词集合, 确定所述 行业类别的种子关键词, 包括: 针对各个所述关键词集合: 统计所述关键词集合中各个目标关键词在所述行业文本信 息和各个企业文本信息中出现的次数之和; 确定次数之和最大的目标关键词为所述种子关 键词。 10.根据权利要求7所述的方法, 其特征在于, 在所述将目标关键词及其对应的行业类 别添加到所述关键词库之后, 进一 步包括: 针对各个所述行业类别: 对所述关键词库中的目标关键词进行去重; 所述根据所述关键词库训练所述分类模型, 包括: 根据去重后的所述目标关键词及其对应的行业类别, 训练所述分类模型。 11.根据权利要求1所述的方法, 其特征在于, 所述预测样本还包括匹配成功的第一企 业关键词。 12.一种行业类别的确定装置, 其特 征在于, 所述装置包括: 获取模块, 用于获取目标企业文本信息; 提取模块, 用于在所述目标企业文本信息中提取第一企业关键词; 匹配模块, 用于将所述第一企业关键词与预先确定的关键词库进行匹配, 将匹配失败 的第一企业关键词进行组合或拆分, 得到第二企业关键词; 分类模块, 用于将预测样本输入基于所述关键词库确定的分类模型, 得到目标企业的 行业类别; 其中, 所述预测样本包括所述第二企业关键词。 13.一种非临时性计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 该程序 被处理器执行时实现权利要求1至1 1中任一项所述方法的步骤。 14.一种电子设备, 其特 征在于, 包括: 存储器, 其上存 储有计算机程序; 处理器, 用于执行所述存储器 中的所述计算机程序, 以实现权利要求1至11中任一项所 述方法的步骤。权 利 要 求 书 2/2 页 3 CN 114297347 A 3

.PDF文档 专利 行业类别的确定方法、装置、存储介质和电子设备

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 行业类别的确定方法、装置、存储介质和电子设备 第 1 页 专利 行业类别的确定方法、装置、存储介质和电子设备 第 2 页 专利 行业类别的确定方法、装置、存储介质和电子设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 20:45:31上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。