专利一种个性化出题方法、装置、计算机可读存储介质和电子设备

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111660800.2 (22)申请日 2021.12.31 (71)申请人贝壳找房（北京）科技有限公司地址 100085 北京市海淀区西二旗西路2号院35号楼01层102-1 (72)发明人刘娜　 (74)专利代理机构北京德琦知识产权代理有限公司 11018 代理人王双　王琦 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/33(2019.01) G06F 16/31(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种个性化出题方法、装置、计算机可读存储介质和电子设备 (57)摘要本申请公开了一种个性化出题方法，包括：在需要为第一学习者在当前题库选择新题目时，将所述新题目的上一题目及所述第一学习者对所述上一题目的实际答题结果，输入预先生成的知识追踪模型；其中，所述知识追踪模型是根据所述当前题库中的题目及多个学习者对相应题目的实际答题结果训练生成的；根据所述第一学习者对所述上一题目的实际答题结果，更新所述知识追踪模型当前使用的值矩阵；将更新后的值矩阵按列求和后得到的向量作为状态，输入训练好的深度强化学习网络，所述深度强化学习网络在当前题库中选择一个题目作为输出，并将输出的题目作为所述新题目。应用本申请，能够针对不同学习者的特点进行出题，提高出题质量。权利要求书2页说明书19页附图6页 CN 114372151 A 2022.04.19 CN 114372151 A 1.一种个性化出题方法，其特征在于，包括：在需要为第一学习者在当前题库选择新题目时，将所述新题目的上一题目及所述第一学习者对所述上一题目的实际答题结果，输入预先生成的知识追踪模型；其中，所述知识追踪模型是根据所述当前题库中的题目及多个学习者对相应题目的实际答题结果训练生成的；根据所述第一学习者对所述上一题目的实际答题结果，更新所述知识追踪模型当前使用的值矩阵；将更新后的值矩阵按列求和后得到的向量作为状态，输入训练好的深度强化学习网络，所述深度强化学习网络在当前题库中选择一个题目作为输出，并将输出的题目作为所述新题目；其中，将所述知识追踪模型作为训练所述深度强化学习网络的环境；在当前次训练所述深度强化学习网络时，将所述深度强化学习网络前次训练输出的题目作为所述知识追踪模型的输入，根据所述前次训练输出的题目对应的实际答题结果，更新所述知识追踪模型的值矩阵，将更新前的值矩阵按列求和后得到的向量作为旧状态，将更新后的值矩阵按列求和后得到的向量作为新状态，将所述更新后的值矩阵的所有元素之和作为奖励，将所述深度强化学习网络的输出作为动作。 2.根据权利要求1所述的方法，其特征在于，在首次为所述第一学习者选择新题目时，根据所述第一学习者在所述当前题库中已完成的题目以及实际答题结果，确定所述知识追踪模型当前使用的值矩阵。 3.根据权利要求2所述的方法，其特征在于，所述确定所述知识追踪模型当前使用的值矩阵包括：当所述已完成的题目不为零时，将所述知识追踪模型的值矩阵中的元素值初始化为随机值，将所述第一学习者在所述当前题库中已完成的题目及相应的实际答题结果，按照答题顺序依次输入所述知识追踪模型，所述知识追踪模型在每次接收输入后更新所述值矩阵，将根据最后一道已完成题目及相应的实际答题结果输入所述知识追踪模型并更新后的所述值矩阵，作为所述知识追踪模型当前使用的值矩阵；当所述已完成的题目为零时，将所述知识追踪模型当前使用的值矩阵中的元素设定为随机值。 4.根据权利要求1所述的方法，其特征在于，在训练所述深度强化学习网络时，若本步训练为首次输入新的学习者的答题数据，则将所述知识追踪模型中值矩阵的各元素初始化为随机值。 5.根据权利要求1所述的方法，其特征在于，所述深度强化学习网络为DQN网络或 double DQN网络。 6.根据权利要求5所述的方法，其特征在于，在训练所述深度强化学习网络时，所述深度强化学习网络中的目标网络在计算损失函数时从经验记忆池中随机选择旧状态S、新状态S'、上一题目、奖励四元组。 7.根据权利要求5所述的方法，其特征在于，在所述深度强化学习网络中，评估网络的输出为所述当前题库中每个题目的选择概率，将选择概率最大的题目作为所述深度强化学习网络的输出；权　利　要　求　书 1/2 页 2 CN 114372151 A 2或者，在所述深度强化学习网络中，评估网络的输出为所述当前题库中每个知识点的选择概率，将选择概率最大的知识点对应的题目作为候选题目；在所有候选题目中，根据所述候选题目的依赖关系和所述候选题目的预期答案选择所述深度强化学习网络本次输出的题目；其中，所述知识点与题目的对应关系和题目间的依赖关系是根据所述知识追踪模型生成的。 8.根据权利要求7所述的方法，其特征在于，所述根据候选题目的预期答案选择所述深度强化学习网络本次输出的题目包括：基于所述上一题目的实际答题结果，若第一候选题目取预期答案的概率超过设定的阈值，则将所述第一候选题目从候选题目中删除。 9.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，所述指令被处理器执行时可实现权利要求1～8任一项所述个性化出题方法。 10.一种计算机程序产品，包括计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现权利要求1～8任一项所述个性化出题方法。权　利　要　求　书 2/2 页 3 CN 114372151 A 3

专利 一种个性化出题方法、装置、计算机可读存储介质和电子设备

专利一种个性化出题方法、装置、计算机可读存储介质和电子设备