专利 一种基于视听融合感知的认知功能障碍评测方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211388075.2 (22)申请日 2022.11.08 (71)申请人四川大学地址 610065 四川省成都市武侯区一环路南一段24号 (72)发明人兰时勇　于广宇　黄伟康　马一童　马伟　 (74)专利代理机构北京润泽恒知识产权代理有限公司 1 1319 专利代理师王婷婷 (51)Int.Cl. G06V 10/80(2022.01) G06V 10/82(2022.01) (54)发明名称一种基于视听融合感知的认知功能障碍评测方法 (57)摘要本发明提供了一种基于视听融合感知的认知功能障碍评测方法，所述方法包括：提取待评估对象针对既定量表文本作答的视频中的多帧图像以及音频，得到图像信息和音频信息；对基于已时间配准的文本信息，图像信息以及音频信息预处理后进行特征提取，得到文本特征、图像特征以及音频特征；将文本特征、图像特征以及音频特征输入到多模态特征融合及分类处理的深度网络模型中，得出认知功能障碍评测分类结果。本发明基于待评估人对既定量表文本的对应作答视频中的图像信息、语音信息，构建多模态融合感知的深度学习模型，实现对待评估人的认知能力进行综合判读，从而得出其认知功能障碍的客观评测，同时也提高了认知功能障碍评测的准确率。权利要求书2页说明书10页附图5页 CN 115424108 A 2022.12.02 CN 115424108 A 1.一种基于视听融合感知的认知功能障碍评测方法，其特征在于，所述方法包括：提取待评估对象针对既定量表文本作答的视频中的多帧图像以及音频，得到图像信息和音频信息；对基于已时间配准的既定量表文本得到的文本信息，以及所述图像信息、所述音频信息预处理后进行特征提取，得到文本特征、图像特征以及音频特征；将所述文本特征、所述图像特征以及所述音频特征输入到多模态特征融合及分类处理的深度网络模型中，获取认知功能障碍评测分类结果；其中，所述分类结果用于表征所述评估对象是否存在认知功能障碍；其中，所述多模态特征融合及分类处理的深度网络模型是以认知功能障碍患者对所述既定量表文本作答的视频提取的图像信息、音频信息以及所述既定量表文本的文本信息作为训练样本训练得到的。 2.根据权利要求1所述的基于视听融合感知的认知功能障碍评测方法，其特征在于，所述多模态特征融合及分类处理的深度网络模型包括：特征融合模块和分类模块；其中，所述特征融合模块用于将所述图像特征、所述音频特征以及所述文本特征进行特征融合，得到目标融合特征向量；所述分类模块用于将所述目标融合特征向量进行特征增强后，基于特征增强后的所述目标融合特征向量，得到认知功能障碍评测分类结果。 3.根据权利要求2所述的基于视听融合感知的认知功能障碍评测方法，其特征在于，所述将所述图像特征、所述音频特征以及所述文本特征进行特征融合，得到目标融合特征向量的步骤，包括：对输入至所述特征融合模块的所述图像特征、所述音频特征以及所述文本特征，将所述文本特征与所述图像特征融合，得到第一融合向量；以及，将所述文本特征与所述音频特征融合，得到第二融合向量；再将所述第一融合向量与所述第二融合向量进行特征融合，得到所述目标融合特征向量。 4.根据权利要求3所述的基于视听融合感知的认知功能障碍评测方法，其特征在于，所述将所述文本特征与所述图像特征融合，得到第一融合向量，包括：确定所述图像特征中与所述文本特征关联的第一关联特征，将所述第一关联特征与所述文本特征融合，得到所述第一融合向量；将所述文本特征与所述音频特征融合，得到第二融合向量，包括：确定所述音频特征中与所述文本特征关联的第二关联特征，将所述第二关联特征与所述文本特征融合，得到所述第二融合向量。 5.根据权利要求4所述的基于视听融合感知的认知功能障碍评测方法，其特征在于，所述将所述第一融合向量与所述第二融合向量进行特征融合，得到所述目标融合特征向量，包括：确定所述第二融合向量中与所述第一融合向量关联的关联特征，将所述关联特征融合到所述第一融合向量中，得到所述目标融合特征向量。 6.根据权利要求2所述的基于视听融合感知的认知功能障碍评测方法，其特征在于，所述将所述目标融合特征向量进行特征增强后，基于特征增强后的所述目标融合特征向量，权　利　要　求　书 1/2 页 2 CN 115424108 A 2得到认知功能障碍评测分类结果的步骤，包括：采用门控转换单元对所述目标融合特征向量进行特征选择，以对所述目标融合特征向量进行特征增强，其中，所述门控转换单元通过自适应学习来控制与所述认知功能障碍评测分类结果相关联特征的传播；对增强后的所述目标融合特征向量进行分类，得到所述认知功能障碍评测分类结果。 7.根据权利要求1 ‑6任一所述的基于视听融合感知的认知功能障碍评测方法，其特征在于，所述多模态特征融合及分类处理的深度网络模型的训练方法包括：提取待评估对象针对所述既定量表文本作答的视频中的多帧图像以及音频，得到图像样本和音频样本；将基于已时间配准的既定量表文本得到的文本样本，以及所述图像样本、音频样本输入预设模型，得到认知功能障碍评测分类结果；基于所述认知功能障碍患者的认知能力标签和所述认知功能障碍评测分类结果，构建损失函数，得到损失值；基于所述损失值，更新所述预设模型的参数，得到所述多模态特征融合及分类处理的深度网络模型。权　利　要　求　书 2/2 页 3 CN 115424108 A 3

专利 一种基于视听融合感知的认知功能障碍评测方法

专利一种基于视听融合感知的认知功能障碍评测方法