全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210370663.7 (22)申请日 2022.04.11 (71)申请人 安徽清博大 数据科技有限公司 地址 230031 安徽省合肥市蜀山经济开发 区湖光路自主创新产业基地三期(南 区)D座1701 (72)发明人 余强 朱旭琪 王欢 夏茂晋  (51)Int.Cl. G06F 40/295(2020.01) G06F 40/30(2020.01) G06F 40/216(2020.01) G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 40/242(2020.01) (54)发明名称 一种计算实体动态关系的系统及方法 (57)摘要 本发明公开了一种计算实体动态关系的系 统及方法, 包括实体识别模块、 构建计算模块、 写 入推送模块, 实体识别模块包括识别处理单元、 提取单元、 规范筛选单元, 处理单元用于处理人 名机构名实体, 提取单元用于对新闻中的标题与 正文采取拼接的方式, 输送进入模型, 对输入文 本保持固定截断值, 规范筛选单元用于利用正则 表达式规范输入的人名机构名实体。 本发明根据 现有实体识别技术, 包括使用预训练模 型与传统 模型相结合的方式, 从繁杂的新闻正文中识别出 新闻主体, 并分析随新闻热度变化的识别实体关 系的变化趋势, 建立实体之间的实时动态关系, 可应用于未来搜索词库拓展。 权利要求书2页 说明书5页 附图5页 CN 114742057 A 2022.07.12 CN 114742057 A 1.一种计算实体动态关系的系统及方法, 其特征在于, 包括实体识别模块、 构建计算模 块、 写入推送模块; 所述实体识别模块包括识别处理单元、 提取单元、 规范筛选单元, 处理单元用于处理人 名机构名实体, 提取单元用于对新闻中的标题与正文采取拼接的方式, 输送进入模型, 对输 入文本保持固定截断值, 规范筛 选单元用于利用正则表达式规范输入的人名机构名实体; 所述构建计算模块包括统计单元、 处理训练单元、 处理筛选单元、 热度计算单元、 数据 采集单元、 抽取单元, 统计单元用于输入规范后的人名机构名实体, 并统计各实体在 文本中 出现的次数, 处理训练单元用于, 处理训练单元用于对地域 实体的提取相对严格的多, 并最 终目的为输出文本的主要归属地地域, 处理筛选单元用于对输入新闻的标题与正文采取不 同策略, 对标题使用关键词检索策略, 关键词以国家发布的行政规划词典为材料, 提取标题 中的地域词后, 转换相对应的行政编号, 并进行频数统计, 对不符合规范的实体进行剔除, 热度计算单元用于以标题中最主要的地域信息为指引, 对正文中的地域信息进行剔除, 统 计细分地域的最多区县级地域信息, 保留主要的地域提及地, 数据采集单元用于采集包括 微信、 微博、 新闻客户端、 网页、 论坛和报刊 等六大平台的数据采集, 抽取单元用于调用Ner 模型提取热点新闻中的人名, 机构名以及地域实体信息, 并分别对每个事件的所有聚合数 据进行实体频数 统计, 同一 实体在一条新闻中单次出现或多次出现仅记作1次制定数据中3 种实体的热度阈值, 仅保留高于热度阈值的实体, 并保留实体的频数用于后期的热度值计 算; 所述写入推送模块用于将符合要求的实体数据写入文件并进行推送。 2.根据权利要求1所述的一种计算实体动态关系的方法, 其特征在于, 所述方法包括以 下步骤: A、 处理单元处理人名机构名实体, 提取单元对新闻中的标题与正文采取拼接的方式, 输送进入模型, 对输入文本保持固定截断值, 规范筛选单元用于利用正则表达式规范输入 的人名机构名实体; B、 统计单元输入规范后的人名机构名实体, 并统计各实体在文本中出现的次数, 处理 训练单元, 处理训练单元对地域实体的提取相对严格的多, 并最终目的为输出文本的主要 归属地地域, 处理筛选单元对输入新闻的标题与正文采取不同策略, 对标题使用关键词检 索策略, 关键词以国家发布的行政规划词典为材料, 提取标题中的地域词后, 转换相对应的 行政编号, 并进行频数统计, 对不符合规范的实体进 行剔除, 热度计算单元以标题中最主要 的地域信息为指引, 对正文中的地域信息进 行剔除, 统计细分地域的最多区县级地域信息, 保留主要的地域提及地; C、 数据采集单元采集包括微信、 微博、 新闻客户端、 网页、 论坛和报刊等六大平台的数 据采集, 抽取单元调用Ner模型提取热点新闻中的人名, 机构名以及地域实体信息, 并分别 对每个事件的所有聚合数据进 行实体频数 统计, 同一 实体在一条新闻中单次出现或多次出 现仅记作1次制定数据中3种实体的热度阈值, 仅保留高于热度阈值的实体, 并保留实体的 频数后期的热度值计算; D、 写入推送模块将符合要求的实体数据写入文件并进行推送。 3.根据权利要求1所述的一种计算实体动态关系的系统, 其特征在于, 所述处理筛选单 元对新闻正文采用的策略为使用地域模型提取地域实体, 对提取实体后的位置标记星号,权 利 要 求 书 1/2 页 2 CN 114742057 A 2再采用关键词模型对剩余文本检索, 对 所有识别的地域进行筛选, 按 行政规划字典, 寻找对 应的行政编号, 筛选方式主要有通过行政规划字典约束地域词, 对含地域信息的实体词, 查 询信息库, 转换编码, 若信息库中不存在, 则通过高德地图, 百度地图查询后, 获取地域信 息, 转换行政编号, 并存 入信息库中, 对不符合 规范的实体进行剔除。权 利 要 求 书 2/2 页 3 CN 114742057 A 3

.PDF文档 专利 一种计算实体动态关系的系统及方法

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种计算实体动态关系的系统及方法 第 1 页 专利 一种计算实体动态关系的系统及方法 第 2 页 专利 一种计算实体动态关系的系统及方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:47:29上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。