专利一种基于预训练模型的伦理行为抽取方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111512041.5 (22)申请日 2021.12.07 (71)申请人暨南大学地址 510632 广东省广州市黄埔大道西6 01 号申请人桂林电子科技大学 (72)发明人古天龙　冯旋　李龙　李晶晶　郝锋锐　 (74)专利代理机构桂林文必达专利代理事务所 (特殊普通合伙) 45134 代理人张学平 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/951(2019.01) G06N 5/02(2006.01)G06N 20/00(2019.01) G06F 40/289(2020.01) (54)发明名称一种基于预训练模型的伦理行为抽取方法 (57)摘要本发明涉及人工智能伦理技术领域，尤其涉及一种基于预训练模型的伦理行为抽取方法，首先以涵盖伦理道德和人类行为的社会新闻为数据源，构建社会新闻数据集，并使用众包方法对数据集进行标注，再利用具有双向Transformer 结构的中文预训练语言模型ERNIE，经过微调的模型编码了实体知识信息，从大量的社会新闻数据中准确的抽取伦理行为，此外预训练模型在标记数据稀缺时准确提取数据的重要特征，能够提高任务的整体性能，解决了中文语境下单词边界和组成成分的不确定性。权利要求书1页说明书6页附图3页 CN 114385824 A 2022.04.22 CN 114385824 A 1.一种基于预训练模型的伦理行为抽取方法，其特征在于，包括下列步骤：构建数据集；任务数据预处理，映射到索引；为词向量嵌入常识知识，生成文本的特征向量序列；编码标注出所述文本特征向量序列中的行为；训练获得所需的伦理行为判别模型；实现模型预测模块。 2.如权利要求1所述的基于预训练模型的伦理行为抽取方法，其特征在于，构建数据集的过程，包括下列步骤：使用爬虫工具爬取数据源；滤出社会新闻；约束筛选所述社会新闻；对筛选出的数据标注处理；比例划分数据集。 3.如权利要求2所述的基于预训练模型的伦理行为抽取方法，其特征在于，任务数据预处理的过程，包括下列步骤：加入特殊标识符；对每个句子按字进行分词；去停用词；转换序列，获得本地词汇表；构建字典，将词映射到索引。 4.如权利要求1所述的基于预训练模型的伦理行为抽取方法，其特征在于，在为词向量嵌入常识知识，生成文本的特征向量序列的过程中，利用构建好的数据集，再结合语言模型中特征抽取、特征选择等技术构建伦理行为判别模型，用使用信息实体的增强语言表示对输入文本进行编码，抽取和编码知识信息，将知识模型中的实体表征整合到语义模型的底层中，结合大规模无监督语料库和知识图谱进行预训练，生成文本的特征向量序列。 5.如权利要求 4所述的基于预训练模型的伦理行为抽取方法，其特征在于，利用具有双向Transformer结构的中文预训练语言模型ERN IE对输入文本进行编码。 6.如权利要求5所述的基于预训练模型的伦理行为抽取方法，其特征在于，所述中文预训练语言模型ERNIE包括文本编码器和知识编码器，所述文本编码器从输入的文本中捕捉词汇和语义信息，所述知识编码器将知识图谱中的知识信息融合到输出的词向量中。 7.如权利要求1所述的基于预训练模型的伦理行为抽取方法，其特征在于，编码标注出所述文本特征向量序列中的行为，具体为把文本特征向量序列送入至CRF 模型进行解码，通过CRF模型的计算得到的预测标签序列，最后，使用维特比算法进行解码，标注出所述文本特征向量序列中的行为。权　利　要　求　书 1/1 页 2 CN 114385824 A 2一种基于预训练模型的伦理行为抽取方法技术领域 [0001]本发明涉及人工智能伦理技术领域，尤其涉及一种基于预训练模型的伦理行为抽取方法。背景技术 [0002]随着科技水平的不断发展，人工智能技术已经广泛应用到无人驾驶、智能家居、医疗护理等诸多领域。在为生活带来巨大便利的同时，如何保证这些自主智能机器能够做出合乎伦理的行为变得愈发重要。伴随着人们对技术的依赖程度越来越深，以及伦理问题不断出现，人工智能伦理也在不断的受到学术界和工业界的重视。 [0003]为了使技术更好的为人类服务，自主系统需要理解人类用户发出的指令，并具备对指令中行为的识别、理解及判别的能力，才能在现实世界中安全部署部署：识别用户指令中的每一个行为，理解特定环境的伦理道德规范，理解行为背后的社会、文化和伦理含义，判别该行为是否符合伦理道德、是否应该去执行。 [0004]目前伦理行为判别的方法都使用文本分类等自然语言处理技术来检测场景中包含的伦理场景或行为的整体伦理极性。但是，上述方法有一定的局限性：他们只考虑句子的整体极性或只考虑句子中包含的行为在句子层面是否合乎道德，而识别多种行为及其道德极性更具挑战性。发明内容 [0005]本发明的目的在于提供一种基于预训练模型的伦理行为抽取方法，旨在识别并抽取出文本中所有的行为，为伦理理解及判别任务提供更细粒度的特征，解决中文语境下单词边界和组成成分的不确定性。 [0006]为实现上述目的，本发明提供了一种基于预训练模型的伦理行为抽取方法，包括下列步骤： [0007]构建数据集； [0008]任务数据预处理，映射到索引； [0009]为词向量嵌入常识知识，生成文本的特征向量序列； [0010]编码标注出所述文本特征向量序列中的行为； [0011]训练获得所需的伦理行为判别模型； [0012]实现模型预测模块。 [0013]其中，构建数据集的过程，包括下列步骤： [0014]使用爬虫工具爬取数据源； [0015]滤出社会新闻； [0016]约束筛选所述社会新闻； [0017]对筛选出的数据标注处理； [0018]比例划分数据集。说　明　书 1/6 页 3 CN 114385824 A 3

专利 一种基于预训练模型的伦理行为抽取方法

专利一种基于预训练模型的伦理行为抽取方法