全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211005282.5 (22)申请日 2022.08.22 (71)申请人 江苏师范大学 地址 221116 江苏省徐州市铜山 新区上海 路101号 (72)发明人 董永权 杨昊霖 张功杰  (74)专利代理 机构 北京淮海知识产权代理事务 所(普通合伙) 32205 专利代理师 杨晓亭 (51)Int.Cl. G06F 30/20(2020.01) G06N 5/04(2006.01) G06F 17/18(2006.01) G06F 119/02(2020.01) (54)发明名称 一种基于数据源领域可靠度的多真值发现 方法 (57)摘要 本发明公开了一种基于数据源领域可靠度 的多真值发现方法, 首先计算数据源的领域专业 度; 其次计算数据源与对象的领域相似度, 初始 化参数和观测值的可信度, 接着使用迭代计算方 法联合推导数据源领域可靠度以及观测值可信 度, 每次迭代过程中, 使用基于数据源领域可靠 度的多真值推理方法根据观测值可信度、 数据源 领域专业度、 数据源与对象领域相似度、 多真值 观测值可信度得分推断数据领域源 可靠度, 再通 过数据源领域可靠度重新推断观测值可信度; 最 后推断出对象属性上的全部真值。 本发明在属性 存在多个真值的数据冲突环境下能够自动识别、 判断、 推理出完整的真值, 从而帮助用户进行决 策, 提高决策效率和质量。 权利要求书4页 说明书11页 附图1页 CN 115392018 A 2022.11.25 CN 115392018 A 1.一种基于数据源领域可靠度的多真值发现方法, 其特 征在于, 具体包括以下步骤: 步骤1: 数据源领域可靠度建模; 步骤1‑1: 计算数据源领域丰富度 其中 为数据源si在领域dj内提供数据的 丰富度, 通过计算领域dj内数据源si提供的对象数量所占对象总数的百分比得到 计 算公式如下: 式中N(si,dj)表示数据源si在领域dj内提供的对象数量, 表示在领域dj内提供对 象 描述信息的数据源构成的集 合; 步骤1‑2: 计算数据源si在领域dj内的专业度 步骤1‑3: 计算数据源si与对象ok领域相似度I(ok,si); 步骤1‑4: 全连接领域显性/隐性观测值图构建, 在领域dj内将数据源集合 在对象集 合 提供的显性/隐性观测值关系建模为一张全连接的领域显性/隐性观测值图 数据源 为图 中的顶点; 步骤1‑5: 在领域显性/隐性观测值图 内, 计算数据源si与数据源sm提 供对象显性/隐性观测值的共识度 步骤1‑6: 在领域显性/隐性观测值图 内, 计算数据源si对数据源sm在 显性/隐性观测值上的长尾补偿度 和 步骤1‑7: 在领域显性/隐性观测值图 内, 计算顶点si指向顶点sm边的 权值 步骤1‑8: 顶点间权值规范化计算 , 计算顶点间规范化权值 和 步骤1‑9: 数据源领域可靠度计算, 在领域dj内对全连接领域显性/隐性观测值图 进行随机游走, 分别得到显性/隐性观测值图中数据源si的平稳访问概率 p(si)和 计算数据源si在领域dj内的准确率 和假准率 获得数据源si在 领域dj内的领域可靠度; 步骤2: 观测值可信度建模; 根据数据源的领域可靠度以及数据源提供观测值关系计算观测值v为真/假的概率 步骤3: 真值推断; 当 时, 判定该观测值v为真, 反 之则判定该观测值 为假, 完成真值推断。权 利 要 求 书 1/4 页 2 CN 115392018 A 22.根据权利要求1所述的基于数据源领域可靠度的多真值发现方法, 其特征在于, 步骤 1‑2中计算数据源si在领域dj内的专业度 计算公式如下: 式中α 为调节领域专业度权 重的超参数, 在数据集上的实验中α 设置为1.5 。 3.根据权利要求1所述的基于数据源领域可靠度的多真值发现方法, 其特征在于, 步骤 1‑3中计算数据源si与对象ok领域相似度I(ok,si), 将所有数据源s1~si对应领域d1~dj专业 度组成矩阵 公式如下: 根据对象ok所属的领域构造对象ok的领域向量 公式如下: 式中当对象ok属于领域dj时, 则 否则 计算数据源si与对象ok领域相似度I(ok,si)公式如下: 式中 为数据源si的领域向量, 对应矩阵 的第i行向量。 4.根据权利要求1所述的基于数据源领域可靠度的多真值发现方法, 其特征在于, 步骤 1‑5中, 在领域显性/隐性观测值图 内, 数据源si与数据源sm提供对象显 性/隐性观测值的共识度 计算公式如下: 式中 和 分别表示数据源si和sm在领域dj提供观测值的对象集合, 和 分别表示数据源si和sm在对象ok提供的显性观测值集合, 和 分别表示数据 源si和sm在对象ok提供的隐性观测值集合, σ(v)和 分别表示观测值v为真/假的概率, 和 表示数据源si与数据源sm在对象ok上提供显性/隐性观测值的相似 度, 和 的计算公式如下:权 利 要 求 书 2/4 页 3 CN 115392018 A 3

.PDF文档 专利 一种基于数据源领域可靠度的多真值发现方法

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于数据源领域可靠度的多真值发现方法 第 1 页 专利 一种基于数据源领域可靠度的多真值发现方法 第 2 页 专利 一种基于数据源领域可靠度的多真值发现方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:38:48上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。