全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211201993.X (22)申请日 2022.09.29 (71)申请人 阿里巴巴 (中国) 有限公司 地址 311121 浙江省杭州市余杭区五常街 道文一西路969号3幢5层5 54室 (72)发明人 董保华 崔恒斌 姜虎 衡骏  (74)专利代理 机构 北京合智同创知识产权代理 有限公司 1 1545 专利代理师 李杰 杨雷 (51)Int.Cl. G06F 16/242(2019.01) G06F 16/28(2019.01) G06F 16/36(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 模型训练和数据查询方法、 装置、 电子设备 和存储介质 (57)摘要 本发明实施例提供了一种模型训练和数据 查询方法、 装置、 电子设备和存储介质。 所述模型 训练方法包括: 获取训练样本, 训练样本包括文 本查询语句、 至少一个数据表结构信息以及数据 表查询语句; 基于至少一个数据表属性查询数据 图谱, 得到与数据表属性对应的子图实体对象和 子图关系对象, 数据图谱的实体对象指示各个数 据表属性, 数据图谱的关系对象指示各个数据表 属性之间的关联; 融合文本查询语句、 至少一个 数据表结构信息以及子图实体对象和子图关系 对象, 得到融合数据; 基于融合数据作为输入, 基 于数据表 查询语句作为监督条件, 训练语句转换 模型。 本发 明实施例的方案使训练后的语句转换 模型既能可靠地执行单数据表查询或多数据表 联合查询。 权利要求书3页 说明书11页 附图5页 CN 115470232 A 2022.12.13 CN 115470232 A 1.一种模型训练方法, 包括: 获取训练样本, 所述训练样本包括文本查询语句、 至少一个数据表结构信息以及数据 表查询语句; 识别所述文本查询语句中的至少一个数据表属性; 基于所述至少一个数据表属性查询数据图谱, 得到与 所述数据表属性对应的子图实体 对象和子图关系对 象, 所述数据图谱的实体对象指示各个数据表属 性, 所述数据图谱的关 系对象指示所述各个数据表属性之间的关联; 融合所述文本查询语句、 所述至少一个数据表结构信 息以及子图实体对象和子图关系 对象, 得到融合数据; 基于所述融合数据作为输入, 基于所述数据表查询语句作为监督条件, 训练语句转换 模型。 2.根据权利要求1所述的方法, 其中, 所述融合所述文本查询语句、 所述至少一个数据 表结构信息以及子图实体对象和子图关系对象, 得到融合数据, 包括: 生成所述文本查询语句的第一上 下文向量; 生成所述至少一个数据表结构信息的第二上 下文向量; 生成所述子图实体对象和所述子图关系对象的第三上 下文向量; 拼接所述第一上下文向量、 所述第二上下文向量和所述第三上下文向量, 得到指示融 合数据的融合向量。 3.根据权利要求2所述的方法, 其中, 所述生成所述至少一个数据表结构信 息的第二上 下文向量, 包括: 将所述至少一个数据表结构信息输入到预先训练的向量编码器, 得到第二上下文向 量, 所述向量编码器 基于数据表结构样本及其向量表示训练得到 。 4.根据权利要求2所述的方法, 其中, 所述生成所述子图实体对象和所述子图关系对象 的第三上 下文向量, 包括: 将所述子图实体对象和所述子图关系 对象输入到预先训练 的图谱向量编码器, 得到第 三上下文向量, 所述图谱向量编码器图谱样本的实体对象和关系对象及其向量表示训练得 到。 5.根据权利要求1所述的方法, 其中, 所述语句转换模型包括注意力机制层和分类器, 所述注意力机制层的输出 连接到所述分类 器的输入; 所述基于所述融合数据作为输入, 基于所述数据表查询语句作为监督条件, 训练语句 转换模型, 包括: 将所述融合数据作为所述注意力 机制层的输入, 将所述数据表查询语句作为所述分类 器的输出, 训练语句转换模型。 6.根据权利要求5所述的方法, 其中, 所述分类器包括序列分类层和语法解码层, 所述 注意力机制层的输出连接到所述序列分类器的输入, 所述序列分类层的输出连接到所述语 法解码层的输入; 所述将所述融合数据作为所述注意力 机制层的输入, 将所述数据表查询语句作为所述 分类器的输出, 训练语句转换模型, 包括: 固定所述语法解码层的参数, 并且将所述融合数据作为所述注意力机制层的输入, 将权 利 要 求 书 1/3 页 2 CN 115470232 A 2所述数据表查询语句的抽象语法树作为所述序列分类层的输出, 训练语句转换模型。 7.根据权利要求5所述的方法, 其中, 所述基于所述至少一个数据表属性查询数据图 谱, 得到与所述数据表属性对应的子图实体对象和子图关系对象, 包括: 确定所述至少一个数据表属性在数据图谱中的至少一个实体对象, 作为子图实体对 象, 其中, 所述子图实体对象及其关联的子图关系对象形成所述数据图谱的子图。 8.一种数据查询方法, 包括: 获取针对至少一个数据表的文本查询语句; 识别所述文本查询语句中的至少一个数据表属性; 基于所述至少一个数据表属性查询数据图谱, 得到与 所述数据表属性对应的子图实体 对象和子图关系对 象, 所述数据图谱的实体对象指示各个数据表属 性, 所述数据图谱的关 系对象指示所述各个数据表属性之间的关联; 融合所述文本查询语句、 所述至少一个数据表的结构信 息以及子图实体对象和子图关 系对象, 得到融合数据; 将所述融合数据输入到语句转换模型, 得到所述至少一个数据表的数据表查询语句, 所述语句转换模型通过根据权利要求1 ‑7中任一项所述的方法训练得到 。 9.一种模型训练装置, 包括: 获取模块, 获取训练样本, 所述训练样本包括文本查询语句、 至少一个数据表结构信 息 以及数据表查询语句; 识别模块, 识别所述文本查询语句中的至少一个数据表属性; 查询模块, 基于所述至少一个数据表属性查询数据图谱, 得到与所述数据表属性对应 的子图实体对 象和子图关系对 象, 所述数据图谱的实体对 象指示各个数据表属 性, 所述数 据图谱的关系对象指示所述各个数据表属性之间的关联; 融合模块, 融合所述文本查询语句、 所述至少一个数据表结构信息以及子 图实体对象 和子图关系对象, 得到融合数据; 训练模块, 基于所述融合数据作为输入, 基于所述数据表查询语句作为监督条件, 训练 语句转换模型。 10.一种数据查询装置, 包括: 获取模块, 获取针对至少一个数据表的文本查询语句; 识别模块, 识别所述文本查询语句中的至少一个数据表属性; 查询模块, 基于所述至少一个数据表属性查询数据图谱, 得到与所述数据表属性对应 的子图实体对 象和子图关系对 象, 所述数据图谱的实体对 象指示各个数据表属 性, 所述数 据图谱的关系对象指示所述各个数据表属性之间的关联; 融合模块, 融合所述文本查询语句、 所述至少一个数据表的结构信息以及子 图实体对 象和子图关系对象, 得到融合数据; 转换模块, 将所述融合数据输入到语句转换模型, 得到所述至少一个数据表的数据表 查询语句, 所述语句转换模型通过根据权利要求1 ‑7中任一项所述的方法训练得到 。 11.一种电子设备, 包括: 处理器、 存储器、 通信 接口和通信总线, 所述处理器、 所述存储 器和所述通信接口通过所述通信总线完成相互间的通信; 所述存储器用于存放至少一可执 行指令, 所述可执行指令使所述处理器执行如权利要求1 ‑8中任一项所述的方法对应的操权 利 要 求 书 2/3 页 3 CN 115470232 A 3

.PDF文档 专利 模型训练和数据查询方法、装置、电子设备和存储介质

文档预览
中文文档 20 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 模型训练和数据查询方法、装置、电子设备和存储介质 第 1 页 专利 模型训练和数据查询方法、装置、电子设备和存储介质 第 2 页 专利 模型训练和数据查询方法、装置、电子设备和存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-17 23:43:50上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。