说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210172472.X (22)申请日 2022.02.24 (71)申请人 大连海洋大学 地址 116023 辽宁省大连市沙河口区黑石 礁街52号 (72)发明人 张思佳 吴杰 丛子涵 姜鑫  于英囡 孙华 刘明剑  (74)专利代理 机构 大连星海专利事务所有限公 司 21208 专利代理师 杨翠翠 (51)Int.Cl. G06F 40/30(2020.01) G06F 16/35(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于神经网络的鱼病描述情感词的提 取方法 (57)摘要 一种基于神经网络的鱼病描述情感词的提 取方法, 其属于情感词分析的技术领域。 该方法 是在先验知识的基础之上, 通过神经网络去学习 文本语义信息中的情感知识的部分, 从而辅助远 程疾病诊断。 具体表现为, 在输入端由用户提供 的一系列鱼病描述, 然后加上人工标注的鱼病方 面类别和情感极性构成数据集传入 预训练模型, 转化为词向量, 传入序列模型处理语句中的时序 关系。 最后把处理好的语义信息传入分类模型中 去, 完成鱼病描述中情感词的提取和分析。 与现 有的基于专家系统的鱼病诊断方法相比, 本发明 是为了减少对 先验知识和规则的依赖, 去提取语 义信息中的情感词部分。 权利要求书2页 说明书6页 附图1页 CN 114580430 A 2022.06.03 CN 114580430 A 1.一种基于神经网络的鱼病描述情感词的提取 方法, 其特 征在于, 主 要包含以下步骤: S1.基于线下鱼病诊断过程, 进行 方面类别和情感极性划分; S11.方面类别划分 根据在诊断过程中临床表现为主, 时空因素为辅的前提, 将鱼病 描述划分为两大类: 临 床因素和时空 因素; 具体分析 所收集的文本数据特 征, 予以细分; 其中临床因素包括体表、 体内、 体态、 体格和鱼鳃五个方面, 时空因素包括环境和时节 两部分; S13.情感极性划分 结合参考文本与具体问题, 将情感极性划分为积极、 中性、 偏消极、 消极; 因此, 鱼病描 述的方面包括体表、 体内、 体态、 体格、 鱼鳃、 环境和时节共7个方面类别, 情感极性包括积 极、 中性、 偏消极、 消极四种; S2.对数据集的处 理: S21.把收集到的鱼类疾病描述进行 预处理, 剔除空格和非中文字符; S22.进行人工标注方面类别和情感极性, 采用三人标注同一数据集, 标注结果由得票 数多的决定; S23.从数据分布、 数据标注分布和数据组内相关系数三个方面对数据集进行数据分 析, 并将数据集按照6: 2: 2划分为训练集、 验证集和 测试集; S3.基于神经网络的鱼病 描述情感词方法模型包括三大部分: 一是语义嵌入层, 得到向 量化后的文本表示; 二是语义决策层, 通过序列模型获得深层语义信息; 三是分类层, 用于 预测情感类别和情感极性; 具体包括以下内容: S31.语义嵌入层: 把训练集、 验证集和测试集三份数据集整合成三个数据迭代器, 迭代 器的配置按照BERT模型的规格传入, 设置Batch为8, 即一次只传入8个句子; 把迭代器中的 数据传入BERT模型转 化为文本向量, 具体操作步骤如下: (1)传入一个Batch大小的文本序列T={t0, t1, t2, t3, t4, t5, t6, t7}, 每个t={w1, w2, w3, w4, ..., wn}由n个词组成; (2)文本序列T中的每个文本序列t会通过利用BERT被映射到一个维度固定的向量空 间, 获得其初始的word  embedding, 文本序列t中每个词组w会根据其所属句子和所处句中 位置获得一个segment  embedding和positi on embedding; (3)把三个向量相加获得每个词组w的输入 向量x; Bert中一共有12层transformer, 每 个transformer中有Encoder和Decoder分别对传入词向量进行编码和解码; 在编码和解码 过程中不断通过 前馈神经网络和归一 化; 最终在输出端得到一个768维度词向量; hi=Bert(xi)i∈(1, N)     (1) 其中hi是输出端的词向量表示, N表示句子 长度; S32.语义决策层: 由于文本向量中包含了时序信息, 将转化后的文本向量传入序列模 型BiLSTM+Attention中处理, 与此同时模型的参数在不断优化; 把BiLSTM的隐藏层 大小设置为512, 它包含了一个正向LSTM和反向LSTM, 分别将文本从 w1到wn和wn到w1获得两个LSTM特 征表示 正向Li=正向LSTM(Hi)i∈(1, N)     (2)权 利 要 求 书 1/2 页 2 CN 114580430 A 2反向Li=反向LSTM(Hi)i∈(N, 1)     (3) 最终在输出端获得每 个w的BiLSTM特征表示: Bi=[正向LSTM, 反向LSTM]i∈(1, N)     (4) 其中, Bi是文本经 过BiLSTM后的特 征表示, N表示句子 长度; 再把整个句子传入A ttention模块, 自动进行权 重分配; A=∑Bi* Hii∈(1, N)     (5) 其中Bi代表的是文本的特征表示, Hi计算文本中每个词的attention的表示, Hi={hi1, hi2, ..., hin}表示句子的特 征向量; S33.分类层: 由于问题本身是情 感分析任务, 是属于分类任务的范畴, 在序列模型之后 选择layer层作为分类层; 该层通过全连接层来预测方面类别和情感极性的可能性; out1, out 2=Linear(A) out1∈U, out2∈Q    (6) 其中, Linear(A)为layer层, out1和 out2分别是方面和情感输出, U是方面类别, Q是情 感类别; S4.训练模型: 计算yR和T的交叉熵, 通过优化交叉熵完成模型训练; 使得BERT参数矩阵 Wbert、 BiLSTM+Attention参数矩阵Wbi和Wat以及Linear的参数矩阵WL最优; 其中, yR和T分别表示 为预测标签和真实标签, L 为整个模型的参数矩阵; S5.把具体的病鱼描述按句传入到训练后的模型, 模型可输出病鱼描述的方面类别和 情感色彩, 得到病鱼描述的语义信息用于 辅助鱼病诊断。权 利 要 求 书 2/2 页 3 CN 114580430 A 3

PDF文档 专利 一种基于神经网络的鱼病描述情感词的提取方法

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于神经网络的鱼病描述情感词的提取方法 第 1 页 专利 一种基于神经网络的鱼病描述情感词的提取方法 第 2 页 专利 一种基于神经网络的鱼病描述情感词的提取方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:33:27上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。