专利威胁指标的分析方法及分析装置

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111429763.4 (22)申请日 2021.11.29 (71)申请人北京天融信网络安全技术有限公司地址 100085 北京市海淀区上地东路1号院 3号楼四层申请人北京天融信科技有限公司　北京天融信软件有限公司 (72)发明人姚剑文　潘季明　 (74)专利代理机构工业和信息化部电子专利中心 11010 代理人华枫 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/30(2020.01) G06F 16/903(2019.01)G06F 40/205(2020.01) G06F 16/34(2019.01) H04L 9/40(2022.01) (54)发明名称威胁指标的分析方法及分析装置 (57)摘要本发明提出了一种威胁指标的分析方法及分析装置，分析方法，包括：收集待分析数据；对收集的待分析数据进行分句处理，并使用正则表达式从待分析数据中提取包含候选威胁指标的候选语句；对所述候选语句中的候选威胁指标进行归一化处理后，输入语言模型获取输入向量；将所述输入向量输入预先训练好的分类模型中，判定所述候选威胁指标是否为威胁指标。本发明通过利用语言模型，对归一化后的候选威胁指标能有效的提取其中所包含的语义信息，根据模型所预测的结果进行威胁指标相关术语的自动挖掘，避免了人工筛选威胁指标相关术语。避免了后期人工维护，同时有效的降低了威胁指标漏识别率从而达到良好的模型泛化能力。权利要求书1页说明书7页附图2页 CN 114297377 A 2022.04.08 CN 114297377 A 1.一种威胁指标的分析方法，其特征在于，包括：收集待分析数据；对收集的待分析数据进行分句处理，并使用正则表达式从待分析数据中提取包含候选威胁指标的候选语句；对所述候选语句中的候选威胁指标进行归一化处理后，输入语言模型获取输入向量；将所述输入向量输入预先训练好的分类模型中，判定所述候选威胁指标是否为威胁指标。 2.根据权利要求1所述的威胁指标的分析方法，其特征在于，所述方法还包括：存储识别出包含威胁指标的样本，对样本进行关联分析，采用Apriori算法挖掘出用于描述所述威胁指标的相关术语。 3.根据权利要求2所述的威胁指标的分析方法，其特征在于，在进行关联分析时，每增加预设个数的样本，进行一次关联分析，并存储分析结果。 4.根据权利要求2所述的威胁指标的分析方法，其特征在于，所述方法还包括：在识别威胁指标，完成与威胁指标对应的相关术语挖掘后，自动生成威胁指标报告。 5.根据权利要求4所述的威胁指标的分析方法，其特征在于，威胁指标报告的生成方法包括：用识别出的威胁指标进行填充威胁指标内容标签，用与威胁指标对应的相关术语进行填充威胁指标的描述标签，用开源的TextRank算法抽取摘要，用所述待分析数据的链接作为链接标签，用威胁指标的分析时间作为预测时间标签。 6.一种威胁指标的分析装置，其特征在于，包括：数据收集模块，用于收集待分析数据；提取模块，用于对收集的待分析数据进行分句处理，并使用正则表达式从待分析数据中提取包含候选威胁指标的候选语句；特征提取模块，用于对所述候选语句中的候选威胁指标进行归一化处理后，输入语言模型获取输入向量；分析模块，用于将所述输入向量输入预先训练好的分类模型中，判定所述候选威胁指标是否为威胁指标。 7.根据权利要求6所述的威胁指标的分析装置，其特征在于，所述装置还包括：相关术语挖掘模块，用于存储识别出包含威胁指标的样本，对样本进行关联分析，采用Apriori算法挖掘出用于描述所述威胁指标的相关术语。 8.根据权利要求7所述的威胁指标的分析装置，其特征在于，所述相关术语挖掘模块在进行关联分析时，每增加预设个数的样本，进行一次关联分析，并存储分析结果。 9.根据权利要求7所述的威胁指标的分析装置，其特征在于，所述装置还包括：报告生成模块，用于在识别威胁指标，完成与威胁指标对应的相关术语挖掘后，自动生成威胁指标报告。 10.根据权利要求9所述的威胁指标的分析装置，其特征在于，报告生成模块具体用于：用识别出的威胁指标进行填充威胁指标内容标签，用与威胁指标对应的相关术语进行填充威胁指标的描述标签，用开源的TextRank算法抽取摘要，用所述待分析数据的链接作为链接标签，用威胁指标的分析时间作为预测时间标签。权　利　要　求　书 1/1 页 2 CN 114297377 A 2威胁指标的分析方法及分析装置技术领域 [0001]本发明涉及网络安全技术领域，尤其涉及一种威胁指标的分析方法及分析装置。背景技术 [0002]为适应快速发展的网络威胁，安全专业人员通过公共来源(博客、论坛等)收集威胁指标IOC(Indicators of Compromise)如恶意URL、恶意IP、恶意域名等。用于部署到各种安全机制提供安全决策，如入侵检测系统。 [0003]如今威胁类数据以高速和多样化的形式在不同结构化文本形式下不断产生，如在这一些安全研究人员、安全厂商发布的文章中存在着大量在安全技术方面具有极高价值的信息，这些信息有利于相关技术人员在网络安全方面实现重大突破。目前，从非结构化文本中自动收集此类信息受到了当今自然语言处理(NLP)技术的推进。发明内容 [0004]本发明要解决的技术问题是如何降低威胁情报识别模型的复杂度，及提高威胁情报识别模型的泛化能力，本发明提出一种威胁指标的分析方法及分析装置。 [0005]根据本发明实施例的威胁指标的分析方法，包括： [0006]收集待分析数据； [0007]对收集的待分析数据进行分句处理，并使用正则表达式从待分析数据中提取包含候选威胁指标的候选语句； [0008]对所述候选语句中的候选威胁指标进行归一化处理后，输入语言模型获取输入向量； [0009]将所述输入向量输入预先训练好的分类模型中，判定所述候选威胁指标是否为威胁指标。 [0010]根据本发明的一些实施例，所述方法还包括： [0011]存储识别出包含威胁指标的样本，对样本进行关联分析，采用Apriori算法挖掘出用于描述所述威胁指标的相关术语。 [0012]在本发明的一些实施例中，在进行关联分析时，每增加预设个数的样本，进行一次关联分析，并存储分析结果。 [0013]根据本发明的一些实施例，所述方法还包括： [0014]在识别威胁指标，完成与威胁指标对应的相关术语挖掘后，自动生成威胁指标报告。 [0015]在本发明的一些实施例中，威胁指标报告的生成方法包括： [0016]用识别出的威胁指标进行填充威胁指标内容标签，用与威胁指标对应的相关术语进行填充威胁指标的描述标签，用开源的TextRank算法抽取摘要，用所述待分析数据的链接作为链接标签，用威胁指标的分析时间作为预测时间标签。 [0017]根据本发明实施例的威胁指标的分析装置，包括：说　明　书 1/7 页 3 CN 114297377 A 3

专利 威胁指标的分析方法及分析装置

专利威胁指标的分析方法及分析装置