(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210178615.8
(22)申请日 2022.02.24
(71)申请人 南京匡吉信息科技有限公司
地址 210012 江苏省南京市雨 花台区软件
大道109号 雨花客厅2栋10 06室
(72)发明人 孙可心 匡宏宇 张贺 高辉
马晓星 荣国平 邵栋
(74)专利代理 机构 南京众联专利代理有限公司
32206
专利代理师 杜静静
(51)Int.Cl.
G06F 40/30(2020.01)
G06F 40/211(2020.01)
G06F 40/169(2020.01)
G06F 40/284(2020.01)G06F 40/289(2020.01)
G06F 40/242(2020.01)
(54)发明名称
一种面向软件工程领域的基于句法分析的
文本情绪分析方法
(57)摘要
本发明是一种面向软件工程领域的基于句
法分析的文本情绪分析方法, 适用于应用商店中
的用户评论、 开发者社区用户发帖以及代码托管
平台开发者交流记录等软工文本。 该类文本往往
含有大量技术词汇,句式结构复杂,情绪表达含
蓄, 本发明意在从中检测情绪极性(积极、 中性、
消极), 并以此辅助评估以人为核心的软件工程
活动的进展。 具体步骤:1)对输入的文本进行分
句和预处理, 过滤技术词汇; 2)逐个对单词进行
初步的情绪 极性的标注; 3)使用总结的四种情绪
表达模式, 过滤掉文本中描述技术细节而非表达
情绪的从句; 4)利用句式结构设置若干情绪调整
规则, 调整步骤2)中得出的情绪极性; 5)汇总标
注结果, 综合得出整个文本的情绪极性。
权利要求书2页 说明书6页 附图6页
CN 114564965 A
2022.05.31
CN 114564965 A
1.一种面向软件工程领域的基于句法分析的文本情绪分析方法, 其特征在于, 所述方
法包含以下步骤:
S100:对输入的文本进行预处理, 使用自然语言处理工具对输入的文本进行分句, 分
词, 词性标注, 并使用正则表达式过 滤掉技术词汇;
S200:使用已有的情绪分析工具, 对从句中的每一个单词进行初步的情绪极性标注, 标
注出该单词是积极, 中性, 还是消极的;
S300:使用四种情绪表达模式, 过滤掉文本中描述技术细节的从句, 将文本中的每条从
句与设置的四种情绪表达模式进行匹配, 若从句能与任意一种情绪表达模式匹配, 则进入
下一个步骤; 若从句未能匹配, 则被认定是在描述 技术细节, 无需进入下一 步;
S400:对于经过S300过滤后留下来的从句, 遍历句中单词, 并根据三种情绪调整规则,
利用句式结构信息来判断某个单词是否仍保持S20 0中标注出情绪;
S500:汇总单词情绪分析以得到从句的情绪极性, 最终再汇总从句的情绪以得到整文
本的情绪极性。
2.根据权利要求1中所述一种面向软件工程领域的基于句法分析的文本情绪分析方
法, 其特征在于, 所述S10 0包括以下步骤:
S101:使用自然语言处理工具对输入的文本进行初步的分句, 再根据标点符号、 连词信
息进一步将单句分为若干从句;
S102:使用正则表达式, 从从句中过滤技术词 汇及人称词语,该部分文本本身不会表达
情绪, 却有可能被误判;
S103:使用自然语言处 理工具对每 个单词进行词性标注。
3.根据权利要求1中所述一种面向软件工程领域的基于句法分析的文本情绪分析方
法, 其特征在于, 所述S3 00包括以下步骤:
S301:为区分从句是在进行技术细节描述, 还是在表达情绪, 设置了S302 ‑S305中的四
种情绪表达模式, 该步骤中需要遍历每条从句, 判断其是否能与任意一种情绪表达模式匹
配, 若能够匹配, 则认 为它是在表达情绪, 进入 下一步继续计算; 若不匹配, 则认为它是在 描
述技术细节, 无需进入下一 步继续计算;
S302:判断从句是否匹配直接表达模型, 直接表达模型的匹配标准为: 一、 从句中存在
感叹号; 二、 从句中存在表情符号包括文字表情, 符号表情; 三、 从句中存在语气词; 四、 从句
中存在脏话; 五、 从句的第一个词为情绪词, 即情绪词即指在S200中被标注 为积极或消极的
词汇, 符合直接表达模 型匹配标准中的任意一种, 即算是匹配该模型, 可进入S400进一步计
算情绪;
S303:判断从句是否匹配修饰表达模型, 修饰表达模型的匹配标准为: 一、 从句存在被
副词修饰的情绪词; 二、 从句中存在词性为副词的情绪词, 符合修饰表达模型匹配标准中的
任意一种, 即算是匹配该模型, 可进入S40 0进一步计算情绪;
S304:判断从句是否匹配第一人称表达模型, 第一人称表达模型的匹配标准为: 一、 从
句的主语为 “我”; 二、 从句中存在情绪词汇的宾语为 “我”; 三、 从句中存在情绪词汇被 “我
的”所修饰, 符合第一人称表达模型匹配标准中的任意一种, 即算是匹配该模型, 可进入
S400进一步计算情绪;
S305:判断从句是否匹配判断式表达模型, 判断式表达模型的匹配标准为: 一、 从句中权 利 要 求 书 1/2 页
2
CN 114564965 A
2存在“主‑系‑表”的结构, 且表语中存在情绪词汇; 二、 从句中存在 “主‑系‑表”的结构, 且主
语中存在情绪词汇; 三、 从句中存在形如 “变得…”的句式, 并在 “变得”后的描述中存在情绪
词汇; 四、 从句中存在 “它/这/那+情绪词 ”的结构; 五、 从句中存在 “冠词+形容词+名词 ”的结
构, 且其中 “形容词”或“名词”部分任意一者为情绪词; 符合判断式表达模型匹配标准中的
任意一种, 即算是匹配该模型, 可进入S40 0进一步计算情绪;
S306:若一个从句经过从S302到S305仍未进入下一步, 则将该从句过滤, 在最终汇总时
不再考虑它的情绪。
4.根据权利要求1中所述一种面向软件工程领域的基于句法分析的文本情绪分析方
法, 其特征在于, 所述S40 0包括以下步骤:
S401:该步骤中, 将利用句式结构信息对S300过滤后留下从句中的每一个单词进行如
下的遍历;
S402:若该单词为情绪词汇, 则判断该单词是否位于虚拟语气中, 若位于虚拟语气中,
则更改该 单词的情绪极性 为中性;
S403:若该单词为情绪词 汇, 则判断该单词是否为多义词, 若该情绪词为多意词且在从
句中表达的词性与表达情绪时对应的词性 不一致, 则更改该 单词的情绪极性 为中性;
S404:若该单词为情绪词 汇, 则判断该单词是否位于否定词的语义范围内, 若位于否定
词的语义范围内, 则更改该 单词的情绪极性 为中性。权 利 要 求 书 2/2 页
3
CN 114564965 A
3
专利 一种面向软件工程领域的基于句法分析的文本情绪分析方法
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:27上传分享