全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111512041.5 (22)申请日 2021.12.07 (71)申请人 暨南大学 地址 510632 广东省广州市黄埔大道西6 01 号 申请人 桂林电子科技大 学 (72)发明人 古天龙 冯旋 李龙 李晶晶  郝锋锐  (74)专利代理 机构 桂林文必达专利代理事务所 (特殊普通 合伙) 45134 代理人 张学平 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/951(2019.01) G06N 5/02(2006.01)G06N 20/00(2019.01) G06F 40/289(2020.01) (54)发明名称 一种基于预训练模型的伦理行为抽取方法 (57)摘要 本发明涉及人工智能伦理技术领域, 尤其涉 及一种基于预训练模型的伦理行为抽取方法, 首 先以涵盖伦理道德和人类行为的社会新闻为数 据源, 构建社会新闻数据集, 并使用众包方法对 数据集进行标注, 再利用具有双向Transformer 结构的中文预训练语言模型ERNIE, 经过微调的 模型编码 了实体知识信息, 从大量的社会新闻数 据中准确的抽取伦理行为, 此外预训练模型在标 记数据稀缺时准确提取数据的重要特征, 能够提 高任务的整体性能, 解决了中文语境下单词边界 和组成成分的不确定性。 权利要求书1页 说明书6页 附图3页 CN 114385824 A 2022.04.22 CN 114385824 A 1.一种基于预训练模型的伦理行为抽取 方法, 其特 征在于, 包括下列步骤: 构建数据集; 任务数据预处 理, 映射到索引; 为词向量嵌入常识知识, 生成文本的特 征向量序列; 编码标注出 所述文本特 征向量序列中的行为; 训练获得 所需的伦理行为判别模型; 实现模型 预测模块。 2.如权利要求1所述的基于预训练模型的伦理行为抽取 方法, 其特 征在于, 构建数据集的过程, 包括下列步骤: 使用爬虫工具爬取 数据源; 滤出社会新闻; 约束筛选所述社会新闻; 对筛选出的数据标注处 理; 比例划分数据集。 3.如权利要求2所述的基于预训练模型的伦理行为抽取 方法, 其特 征在于, 任务数据预处 理的过程, 包括下列步骤: 加入特殊标识符; 对每个句子按字进行分词; 去停用词; 转换序列, 获得本地词汇 表; 构建字典, 将词映射到索引。 4.如权利要求1所述的基于预训练模型的伦理行为抽取 方法, 其特 征在于, 在为词向量嵌入常识知识, 生成文本的特征向量序列的过程中, 利用构建好的数据集, 再结合语言模型中特征抽取、 特征选择等技术构建伦理行为判别模型, 用使用信息实体的 增强语言表示对输入文本进行编码, 抽取和编码知识信息, 将知识模型中的实体表征整合 到语义模型 的底层中, 结合大规模无监督语料库和知识图谱进行预训练, 生成文本的特征 向量序列。 5.如权利要求 4所述的基于预训练模型的伦理行为抽取 方法, 其特 征在于, 利用具有双向Transformer结构的中文预训练语言模型ERN IE对输入文本进行编码。 6.如权利要求5所述的基于预训练模型的伦理行为抽取 方法, 其特 征在于, 所述中文预训练语言模型ERNIE包括文本编码器和知识编码器, 所述文本编码器从输 入的文本中捕捉词汇和语义信息, 所述知识编 码器将知识图谱中的知识信息融合到输出的 词向量中。 7.如权利要求1所述的基于预训练模型的伦理行为抽取 方法, 其特 征在于, 编码标注出所述文本特征向量序列中的行为, 具体为把文本特征向量序列送入至CRF 模型进行解码, 通过CRF模 型的计算得到的预测标签序列, 最后, 使用维特比算法进 行解码, 标注出所述文本特 征向量序列中的行为。权 利 要 求 书 1/1 页 2 CN 114385824 A 2一种基于预训练模型的伦理行为抽取方 法 技术领域 [0001]本发明涉及人工智能伦理技术领域, 尤其涉及一种基于预训练模型的伦理行为抽 取方法。 背景技术 [0002]随着科技水平的不断发展, 人工智能技术已经广 泛应用到无人驾驶、 智能家居、 医 疗护理等诸多领域。 在为生活带来巨大便利的同时, 如何保证这些自主智能机器能够做出 合乎伦理的行为变得愈发重要。 伴 随着人们对技术的依赖程度越来越深, 以及伦理问题不 断出现, 人工智能伦理也在不断的受到学术界和工业界的重 视。 [0003]为了使技术更好的为人类服务, 自主系统需要理解人类用户发出的指令, 并具备 对指令中行为的识别、 理解及判别的能力, 才能在现实世界中安全部署部署: 识别用户指 令 中的每一个行为, 理解特定环境的伦理道德规范, 理解行为背后的社会、 文化和伦理含义, 判别该行为是否符合伦理道德、 是否应该去执 行。 [0004]目前伦理行为判别的方法都使用文本分类等自然语言处理技术来检测场景中包 含的伦理场景或行为的整体伦理极性。 但是, 上述方法有一定的局限性: 他们只考虑句子的 整体极性或只考虑句子中包含的行为在句子层面是否合乎道德, 而识别多种行为及其道德 极性更具挑战性。 发明内容 [0005]本发明的目的在于提供一种基于预训练模型的伦理行为抽取方法, 旨在识别并抽 取出文本中所有的行为, 为伦理理解及判别任务提供更细粒度的特征, 解决中文语境下单 词边界和组成 成分的不确定性。 [0006]为实现上述目的, 本发明提供了一种基于预训练模型的伦理行为抽 取方法, 包括 下列步骤: [0007]构建数据集; [0008]任务数据预处 理, 映射到索引; [0009]为词向量嵌入常识知识, 生成文本的特 征向量序列; [0010]编码标注出 所述文本特 征向量序列中的行为; [0011]训练获得 所需的伦理行为判别模型; [0012]实现模型 预测模块。 [0013]其中, 构建数据集的过程, 包括下列步骤: [0014]使用爬虫工具爬取 数据源; [0015]滤出社会新闻; [0016]约束筛选所述社会新闻; [0017]对筛选出的数据标注处 理; [0018]比例划分数据集。说 明 书 1/6 页 3 CN 114385824 A 3

.PDF文档 专利 一种基于预训练模型的伦理行为抽取方法

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于预训练模型的伦理行为抽取方法 第 1 页 专利 一种基于预训练模型的伦理行为抽取方法 第 2 页 专利 一种基于预训练模型的伦理行为抽取方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 01:19:59上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。