专利一种基于LSTM模型的信息抽取方法、装置及电子设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210316887.X (22)申请日 2022.03.28 (71)申请人北京快确信息科技有限公司地址 100000 北京市西城区阜成门外大街 31号4层411D (72)发明人林远平　甘伟超　邹鸿岳　周靖宇　 (74)专利代理机构广东良马律师事务所 4 4395 专利代理师李良 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/247(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06Q 40/04(2012.01) (54)发明名称一种基于LSTM模型的信息抽取方法、装置及电子设备 (57)摘要本发明公开了一种基于LSTM模型的信息抽取方法、装置及电子设备，方法包括：获取训练样本，对所述训练样本进行文本预处理，生成预处理好的训练文本和对应的标注序列；构建基于注意力机制的LSTM模型，基于所述预处理好的训练文本和对应的标注序列，对基于注意力机制的 LSTM模型进行训练，生成目标LSTM模型；获取待提取事件文本，对所述待提取事件文本进行预处理，生成预处理后的目标文本；将所述目标文本输入所述目标LS TM模型，根据所述目标LS TM模型的输出，得到抽取后的结构化文本。本发明实施例基于LSTM模型，提高了模型的语义信息理解能力，从而提高了现券成交的信息抽取准确率。权利要求书2页说明书8页附图3页 CN 114970539 A 2022.08.30 CN 114970539 A 1.一种基于LSTM模型的信息抽取方法,其特征在于,所述方法包括：获取训练样本，对所述训练样本进行文本预处理，生成预处理好的训练文本和对应的标注序列；构建基于注意力机制的LSTM模型，基于所述预处理好的训练文本和对应的标注序列，对基于注意力机制的LSTM模型进行训练，生成目标LSTM模型；获取待提取事件文本，对所述待提取事件文本进行预处理，生成预处理后的目标文本；将所述目标文本输入所述目标LSTM模型，根据所述目标LSTM模型的输出，得到抽取后的结构化文本。 2.根据权利要求1所述的方法，其特征在于，所述获取训练样本，对所述训练样本进行文本预处理，生成预处理好的训练文本和对应的标注序列，包括：获取训练样本，将训练样本中的标注信息和文本进行分离；将文本内容转换成字符级别的词向量；将标注信息转换为对应的标注序列。 3.根据权利要求2所述的方法，其特征在于，所述将文本内容转换成字符级别的词向量，包括：获取文本内容中的词语，将词语转换成字符级别的词向量；获取词语的起始字位置和结束字位置；将所述词向量、词语的起始字位置和结束字位置进行存储。 4.根据权利要求3所述的方法，其特征在于，所述获取文本内容中的词语，将词语转换成字符级别的词向量，还包括：获取文本内容中的词语，对词语的语义种类进行识别；若词语的语义种类为一种，则将词语进行编码，转换成字符级别的词向量；若词语的语义种类为大于一种，则将词语的每种语义对应的词向量信息进行融合后，生成字符级别的词向量。 5.根据权利要求3所述的方法，其特征在于，所述将词语的各种语义对应的词向量信息进行融合后，生成字符级别的词向量，包括：获取词语的每种语义对应的词向量的权重系数；根据所述权重系数对词向量信息进行融合后，生成字符级别的词向量。 6.根据权利要求5所述的方法，其特征在于，所述构建基于注意力机制的LSTM模型，基于所述预处理好的训练文本和对应的标注序列，对基于注意力机制的LSTM模型进行训练，生成目标LSTM模型，包括：构建基于注意力机制的LSTM模型，所述LSTM模型包括LSTM细胞、输入门、遗忘门和输出门组成；将词向量输入LSTM模型，并通过LSTM细胞对词语的起始字位置和结束字位置之间进行拼接；根据拼接结果对基于注意力机制的LSTM模型进行训练，生成目标LSTM模型。 7.根据权利要求5所述的方法，其特征在于，所述构建基于注意力机制的LSTM模型，基于所述预处理好的训练文本和对应的标注序列，对基于注意力机制的LSTM模型进行训练，生成目标LSTM模型，包括：权　利　要　求　书 1/2 页 2 CN 114970539 A 2构建基于注意力机制的LSTM模型，所述LSTM模型包括LSTM细胞、输入门、遗忘门和输出门组成；将词向量输入LSTM模型，并通过LSTM细胞对词语的起始字位置和结束字位置之间进行拼接；通过拼接结果获取对应的词语，获取词语的语义种类，获取各种语义所占的权重系数；根据所述权重系数对的LSTM模型进行训练，生成目标LSTM模型。 8.一种基于LSTM模型的信息抽取装置，其特征在于，所述装置包括：样本预处理模块，用于获取训练样本，对所述训练样本进行文本预处理，生成预处理好的训练文本和对应的标注序列；模型训练模块，用于构建基于注意力机制的LSTM模型，基于所述预处理好的训练文本和对应的标注序列，对基于注意力机制的LSTM模型进行训练，生成目标LSTM模型；待提取文本预处理模块，用于获取待提取事件文本，对所述待提取事件文本进行预处理，生成预处理后的目标文本；信息抽取模块，用于将所述目标文本输入所述目标LSTM模型，根据所述目标LSTM模型的输出，得到抽取后的结构化文本。 9.一种电子设备，其特征在于，所述电子设备包括至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1 ‑7任一项所述的基于LSTM模型的信息抽取方法。 10.一种非易失性计算机可读存储介质，其特征在于，所述非易失性计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个处理器执行时，可使得所述一个或多个处理器执行权利要求1 ‑7任一项所述的基于LSTM模型的信息抽取方法。权　利　要　求　书 2/2 页 3 CN 114970539 A 3

专利 一种基于LSTM模型的信息抽取方法、装置及电子设备

专利一种基于LSTM模型的信息抽取方法、装置及电子设备