全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111660800.2 (22)申请日 2021.12.31 (71)申请人 贝壳找房 (北京) 科技有限公司 地址 100085 北京市海淀区西二 旗西路2号 院35号楼01层102-1 (72)发明人 刘娜  (74)专利代理 机构 北京德琦知识产权代理有限 公司 11018 代理人 王双 王琦 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/33(2019.01) G06F 16/31(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种个性化出题方法、 装置、 计算机可读存 储介质和电子设备 (57)摘要 本申请公开了一种个性化出题方法, 包括: 在需要为第一学习者在当前题库选择新题目时, 将所述新题目的上一题目及所述第一学习者对 所述上一题目的实际答题结果, 输入 预先生成的 知识追踪模型; 其中, 所述知识追踪模型是根据 所述当前题库中的题目及多个学习者对相应题 目的实际答题结果训练生 成的; 根据所述第一学 习者对所述上一题目的实际答题结果, 更新所述 知识追踪模 型当前使用的值矩阵; 将更新后的值 矩阵按列求和后得到的向量作为状态, 输入训练 好的深度强化学习网络, 所述深度强化学习网络 在当前题库中选择一个题目作为输出, 并将输出 的题目作为所述新题目。 应用本申请, 能够针对 不同学习者的特点进行 出题, 提高出题质量。 权利要求书2页 说明书19页 附图6页 CN 114372151 A 2022.04.19 CN 114372151 A 1.一种个性 化出题方法, 其特 征在于, 包括: 在需要为第 一学习者在 当前题库选择新题目时, 将所述新题目的上一题目及所述第 一 学习者对 所述上一题目的实际答题结果, 输入预先生成的知识追踪模 型; 其中, 所述知识追 踪模型是根据所述当前题库中的题目及多个学习者对相 应题目的实际答题结果训练生成 的; 根据所述第 一学习者对所述上一题目的实际答题结果, 更新所述知识追踪模型当前使 用的值矩阵; 将更新后的值矩阵按列求和后得到的向量作为状态, 输入训练好的深度强化学习网 络, 所述深度强化学习网络在当前题库中选择一个题目作为输出, 并将输出 的题目作为所 述新题目; 其中, 将所述知识追踪模型作为训练所述深度强化学习 网络的环境; 在当前次训练所 述深度强化学习网络时, 将所述深度强化学习网络前次训练输出的题目作为所述知识追踪 模型的输入, 根据所述前次训练输出 的题目对应的实际答题结果, 更新所述知识追踪模型 的值矩阵, 将更新前 的值矩阵按列求和后得到的向量作为旧状态, 将更新后的值矩阵按列 求和后得到的向量作为新状态, 将所述更新后的值矩阵的所有元素之和作为奖励, 将所述 深度强化学习网络的输出作为动作。 2.根据权利要求1所述的方法, 其特征在于, 在首次为所述第一学习者选择新题目时, 根据所述第一学习者在所述当前题库中已完成的题目以及实际答题结果, 确定所述知识追 踪模型当前使用的值矩阵。 3.根据权利要求2所述的方法, 其特征在于, 所述确定所述知识追踪模型当前使用的值 矩阵包括: 当所述已完成的题目不为零 时, 将所述知识追踪模型的值矩阵中的元素值初始化为随 机值, 将所述第一学习者在所述当前题库中已完成的题目及相应的实际答题结果, 按照答 题顺序依次输入所述知识追踪模型, 所述知识追踪模型在每次接收输入后更新所述值矩 阵, 将根据最后一道已完成题目及相应的实际答题结果输入所述知识追踪模型并更新后的 所述值矩阵, 作为所述知识追踪模型当前使用的值矩阵; 当所述已完成的题目为零 时, 将所述知识追踪模型当前使用的值矩阵中的元素设定为 随机值。 4.根据权利要求1所述的方法, 其特征在于, 在训练所述深度强化学习 网络时, 若本步 训练为首次输入新的学习者的答题数据, 则将所述知识追踪模型中值矩阵的各元素初始 化 为随机值。 5.根据权利要求1所述的方法, 其特征在于, 所述深度强化学习网络为DQN网络或 double DQN网络。 6.根据权利要求5所述的方法, 其特征在于, 在训练所述深度强化学习 网络时, 所述深 度强化学习网络中的目标网络在计算损失函数时从经验记忆池中随机选择旧状态S、 新状 态S'、 上一题目、 奖励四元组。 7.根据权利要求5所述的方法, 其特征在于, 在所述深度强化学习 网络中, 评估网络的 输出为所述当前题库中每个题目的选择概率, 将选择概率最大的题目作为所述深度强化学 习网络的输出;权 利 要 求 书 1/2 页 2 CN 114372151 A 2或者, 在所述深度强化学习网络 中, 评估网络的输出为所述当前题库中每个知识点的选择概 率, 将选择概率最大的知识 点对应的题目作为候选题目; 在所有候选题目中, 根据所述候选 题目的依赖 关系和所述候选题目的预期答案选择所述深度强化学习网络本次输出的题目; 其中, 所述知识点与题目的对应关系和题目间的依赖关系是根据所述知识追踪模型生成 的。 8.根据权利要求7所述的方法, 其特征在于, 所述根据候选题目的预期答案选择所述深 度强化学习网络 本次输出的题目包括: 基于所述上一题目的实际答题结果, 若第 一候选题目取预期答案的概率超过设定的阈 值, 则将所述第一 候选题目从候选题目中删除。 9.一种计算机可读存储介质, 其上存储有计算机指令, 其特征在于, 所述指令被处理器 执行时可实现权利要求1~8任一项所述个性 化出题方法。 10.一种计算机程序产品, 包括计算机程序/指令, 其特征在于, 该计算机程序/指令被 处理器执行时实现权利要求1~8任一项所述个性 化出题方法。权 利 要 求 书 2/2 页 3 CN 114372151 A 3

.PDF文档 专利 一种个性化出题方法、装置、计算机可读存储介质和电子设备

文档预览
中文文档 28 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共28页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种个性化出题方法、装置、计算机可读存储介质和电子设备 第 1 页 专利 一种个性化出题方法、装置、计算机可读存储介质和电子设备 第 2 页 专利 一种个性化出题方法、装置、计算机可读存储介质和电子设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 21:46:36上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。