专利一种基于内容与源码的网页邮件跨站脚本攻击检测方法

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202111376604.2 (22)申请日 2021.11.19 (65)同一申请的已公布的文献号申请公布号 CN 113992623 A (43)申请公布日 2022.01.28 (73)专利权人四川大学地址 610065 四川省成都市武侯区一环路南一段24号 (72)发明人许益家　方勇　刘中临　黄朝熠　 (51)Int.Cl. H04L 51/42(2022.01) H04L 51/212(2022.01) H04L 9/40(2022.01) (56)对比文件 US 20173 59220 A1,2017.12.14US 2015096006 A1,2015.04.02 CN 108512818 A,2018.09.07 审查员亓晓旭 (54)发明名称一种基于内容与源码的网页邮件跨站脚本攻击检测方法 (57)摘要本发明是面向网页邮件的跨站脚本攻击检测技术方法，检测的对象是针对电子邮件的跨站脚本攻击。本方法主要应用于网页邮件的跨站脚本攻击漏洞挖掘以及载荷识别领域，其核心是利用机器学习方法训练现有的电子邮件跨站脚本攻击数据，并将训练好的模型应用于未知的电子邮件跨站脚本攻击检测。本方法的工作流程为读取大量原始邮件及其JavaScrip t源码数据，使用 Word2Vec及Code2Vec构建语料库，并以此提取邮件特征，最后使用随机森林算法、双向循环神经网络以及注意力机制训练检测模型。本方法基于电子邮件内容及JavaScript源码为网页邮件提供双层防护，并为电子邮件跨站脚本攻击检测提供了新的解决方法。权利要求书1页说明书5页附图3页 CN 113992623 B 2022.10.21 CN 113992623 B 1.一种基于内容与源码的网页邮件跨站脚本攻击检测方法，其特征在于，所述方法包括如下步骤： A、在数据层，从网页邮件中获取所需的EML文件及JavaScript源码数据，并将其处理为电子邮件信息五元组以及生成JavaScript抽象语法树； B、在预处理层，通过长字符构造及载荷还原将电子邮件信息处理输出为长字符串序列，通过输入输出约束及控制流构造处理输出为程序控制流；载荷还原过程包括解码、等效替换以及删除干扰字符这几种方式，控制流构造过程包括定位可控点、输入控制流追踪以及控制流节点串联这几种方式； C、在训练层，获取建模数据，构建网页邮件跨站脚本攻击检测语料库，同时训练网页邮件跨站脚本攻击检测模型；网页邮件跨站脚本攻击检测语料库分为使用Code2Vec训练的网页邮件跨站脚本攻击漏洞挖掘语料库，以及使用Word2Vec训练网页邮件跨站脚本攻击载荷识别语料库，网页邮件跨站脚本攻击检测模型分为使用双向循环神经网络及注意力机制训练的网页邮件跨站脚本攻击载荷识别模型，以及使用随机森林训练的网页邮件跨站脚本攻击漏洞挖掘模型； D、在检测层，接收由训练层训练完成的网页邮件跨站脚本攻击检测模型，对新输入的网页邮件数据进行跨站脚本攻击漏洞挖掘及跨站脚本攻击载荷识别；当有新的电子邮件信息输入检测模块时，模块会对传入的数据进行处理，然后使用训练层中获得的网页邮件跨站脚本攻击载荷识别模型进行预测，判断电子邮件中是否包含跨站脚本攻击载荷；当用户登录网页邮件后，浏览器会自动加载外部调用的JavaScript源码文件；这部分JavaScript 源码文件会被系统自动提取，并输入网页邮件跨站脚本攻击漏洞检测模块，从而挖掘用户页面中加载的JavaScript源码是否包含跨站脚本攻击漏洞。权　利　要　求　书 1/1 页 2 CN 113992623 B 2一种基于内容与源码的网页邮件跨站脚本攻击检测方法技术领域 [0001]本发明涉及漏洞挖掘领域与攻击载荷识别领域，主要核心是采集大量网页邮件及源码数据，利用自然语言处理方法构建控制流的特征向量矩阵，并训练随机森林模型和双向循环神经网络模型，最后使用训练好的模型去检测网页邮件跨站脚本攻击。背景技术 [0002]互联网技术的飞速发展使得人们之间的联系越来越紧密，使用网络传递信息已经成为最常见的通信手段。作为最常见的信息传输手段之一，电子邮件一直在网络通讯中扮演重要的角色。由于电子邮件中总是包含着价值信息，其总被攻击者作为窃取目标。随着 Web应用的高速发展，大部分用户更习惯于在Web端访问电子邮箱并查看电子邮件，这使得攻击者能够利用Web攻击手段窃取用户身份及敏感信息。在这些攻击威胁中，跨站脚本攻击是网页邮件所遭受的最常见的攻击方法。通过电子邮件向网页邮件传输跨站脚本攻击载荷的攻击方式，被称之为网页邮件跨站脚本攻击。而网页邮件跨站脚本攻击的攻击方法具有自发性，强制性，隐蔽性等特点，难以在用户层有效规避，是网页邮件安全中威胁最大且最值得关注的攻击手段。在发起网页邮件跨站脚本攻击时，攻击者使用邮件的方式向受害者传输一封携带恶意JavaScript代码的邮件，在受害者查看邮件或打开邮件目录时，恶意 JavaScript代码经过浏览器自动运行，窃取价值信息并返回给攻击者。如果攻击者成功窃取身份凭证，其能够直接登录网页邮件进一步窃取信息。因此，网页邮件跨站脚本攻击的危害是巨大的，在2013年和2016年， Yoohu网页邮件两次被爆出跨站脚本攻击漏洞，近4000万用户信息泄露。而在2014年， Gmail爆出跨站脚本攻击漏洞，虽然及时修复，但依旧在当年引发了巨大的恐慌。巨大的危害性使得网页邮件跨站脚本攻击受到攻击者们的青睐，而如何有效防范此攻击方法已经成为亟需解决的问题。 [0003]目前的网页邮件跨站脚本攻击检测研究大多局限于黑盒测试，即使用大量的攻击样本进行访问碰撞，尝试挖掘出网页邮件中存在的跨站脚本攻击漏洞。然而，这种偏向攻击性的检测方法具有极大的局限性: [0004](1)依赖于载荷生成器的全面性，无法保证生成的跨站脚本攻击向量能够有效指向未知的跨站脚本攻击漏洞； [0005](2)随着邮箱系统以及浏览器客户端的更新换代，新型跨站脚本攻击漏洞可能出现，凭借现有知识量生成的攻击载荷难以挖掘出新型漏洞； [0006](3)现有的网页邮件跨站脚本攻击研究，多集中于对服务器端的漏洞发现，忽略了对攻击载荷的拦截，无法提供长久保护。 [0007]目前，越来越多的攻击者采用跨站脚本攻击窃取网页邮件中的价值信息，即使是大型电子邮箱产商也难以妥当地规避。这样的现状严重威胁了人民的个人隐私安全及国家机密安全，当传统的网页邮件跨站脚本攻击检测方法无法再有效拦截跨站脚本攻击时，电子邮箱系统急需一种为网页邮件提供全面跨站脚本攻击防护的方法。说　明　书 1/5 页 3 CN 113992623 B 3

专利 一种基于内容与源码的网页邮件跨站脚本攻击检测方法

专利一种基于内容与源码的网页邮件跨站脚本攻击检测方法