说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210178615.8 (22)申请日 2022.02.24 (71)申请人 南京匡吉信息科技有限公司 地址 210012 江苏省南京市雨 花台区软件 大道109号 雨花客厅2栋10 06室 (72)发明人 孙可心 匡宏宇 张贺 高辉  马晓星 荣国平 邵栋  (74)专利代理 机构 南京众联专利代理有限公司 32206 专利代理师 杜静静 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/211(2020.01) G06F 40/169(2020.01) G06F 40/284(2020.01)G06F 40/289(2020.01) G06F 40/242(2020.01) (54)发明名称 一种面向软件工程领域的基于句法分析的 文本情绪分析方法 (57)摘要 本发明是一种面向软件工程领域的基于句 法分析的文本情绪分析方法, 适用于应用商店中 的用户评论、 开发者社区用户发帖以及代码托管 平台开发者交流记录等软工文本。 该类文本往往 含有大量技术词汇,句式结构复杂,情绪表达含 蓄, 本发明意在从中检测情绪极性(积极、 中性、 消极), 并以此辅助评估以人为核心的软件工程 活动的进展。 具体步骤:1)对输入的文本进行分 句和预处理, 过滤技术词汇; 2)逐个对单词进行 初步的情绪 极性的标注; 3)使用总结的四种情绪 表达模式, 过滤掉文本中描述技术细节而非表达 情绪的从句; 4)利用句式结构设置若干情绪调整 规则, 调整步骤2)中得出的情绪极性; 5)汇总标 注结果, 综合得出整个文本的情绪极性。 权利要求书2页 说明书6页 附图6页 CN 114564965 A 2022.05.31 CN 114564965 A 1.一种面向软件工程领域的基于句法分析的文本情绪分析方法, 其特征在于, 所述方 法包含以下步骤: S100:对输入的文本进行预处理, 使用自然语言处理工具对输入的文本进行分句, 分 词, 词性标注, 并使用正则表达式过 滤掉技术词汇; S200:使用已有的情绪分析工具, 对从句中的每一个单词进行初步的情绪极性标注, 标 注出该单词是积极, 中性, 还是消极的; S300:使用四种情绪表达模式, 过滤掉文本中描述技术细节的从句, 将文本中的每条从 句与设置的四种情绪表达模式进行匹配, 若从句能与任意一种情绪表达模式匹配, 则进入 下一个步骤; 若从句未能匹配, 则被认定是在描述 技术细节, 无需进入下一 步; S400:对于经过S300过滤后留下来的从句, 遍历句中单词, 并根据三种情绪调整规则, 利用句式结构信息来判断某个单词是否仍保持S20 0中标注出情绪; S500:汇总单词情绪分析以得到从句的情绪极性, 最终再汇总从句的情绪以得到整文 本的情绪极性。 2.根据权利要求1中所述一种面向软件工程领域的基于句法分析的文本情绪分析方 法, 其特征在于, 所述S10 0包括以下步骤: S101:使用自然语言处理工具对输入的文本进行初步的分句, 再根据标点符号、 连词信 息进一步将单句分为若干从句; S102:使用正则表达式, 从从句中过滤技术词 汇及人称词语,该部分文本本身不会表达 情绪, 却有可能被误判; S103:使用自然语言处 理工具对每 个单词进行词性标注。 3.根据权利要求1中所述一种面向软件工程领域的基于句法分析的文本情绪分析方 法, 其特征在于, 所述S3 00包括以下步骤: S301:为区分从句是在进行技术细节描述, 还是在表达情绪, 设置了S302 ‑S305中的四 种情绪表达模式, 该步骤中需要遍历每条从句, 判断其是否能与任意一种情绪表达模式匹 配, 若能够匹配, 则认 为它是在表达情绪, 进入 下一步继续计算; 若不匹配, 则认为它是在 描 述技术细节, 无需进入下一 步继续计算; S302:判断从句是否匹配直接表达模型, 直接表达模型的匹配标准为: 一、 从句中存在 感叹号; 二、 从句中存在表情符号包括文字表情, 符号表情; 三、 从句中存在语气词; 四、 从句 中存在脏话; 五、 从句的第一个词为情绪词, 即情绪词即指在S200中被标注 为积极或消极的 词汇, 符合直接表达模 型匹配标准中的任意一种, 即算是匹配该模型, 可进入S400进一步计 算情绪; S303:判断从句是否匹配修饰表达模型, 修饰表达模型的匹配标准为: 一、 从句存在被 副词修饰的情绪词; 二、 从句中存在词性为副词的情绪词, 符合修饰表达模型匹配标准中的 任意一种, 即算是匹配该模型, 可进入S40 0进一步计算情绪; S304:判断从句是否匹配第一人称表达模型, 第一人称表达模型的匹配标准为: 一、 从 句的主语为 “我”; 二、 从句中存在情绪词汇的宾语为 “我”; 三、 从句中存在情绪词汇被 “我 的”所修饰, 符合第一人称表达模型匹配标准中的任意一种, 即算是匹配该模型, 可进入 S400进一步计算情绪; S305:判断从句是否匹配判断式表达模型, 判断式表达模型的匹配标准为: 一、 从句中权 利 要 求 书 1/2 页 2 CN 114564965 A 2存在“主‑系‑表”的结构, 且表语中存在情绪词汇; 二、 从句中存在 “主‑系‑表”的结构, 且主 语中存在情绪词汇; 三、 从句中存在形如 “变得…”的句式, 并在 “变得”后的描述中存在情绪 词汇; 四、 从句中存在 “它/这/那+情绪词 ”的结构; 五、 从句中存在 “冠词+形容词+名词 ”的结 构, 且其中 “形容词”或“名词”部分任意一者为情绪词; 符合判断式表达模型匹配标准中的 任意一种, 即算是匹配该模型, 可进入S40 0进一步计算情绪; S306:若一个从句经过从S302到S305仍未进入下一步, 则将该从句过滤, 在最终汇总时 不再考虑它的情绪。 4.根据权利要求1中所述一种面向软件工程领域的基于句法分析的文本情绪分析方 法, 其特征在于, 所述S40 0包括以下步骤: S401:该步骤中, 将利用句式结构信息对S300过滤后留下从句中的每一个单词进行如 下的遍历; S402:若该单词为情绪词汇, 则判断该单词是否位于虚拟语气中, 若位于虚拟语气中, 则更改该 单词的情绪极性 为中性; S403:若该单词为情绪词 汇, 则判断该单词是否为多义词, 若该情绪词为多意词且在从 句中表达的词性与表达情绪时对应的词性 不一致, 则更改该 单词的情绪极性 为中性; S404:若该单词为情绪词 汇, 则判断该单词是否位于否定词的语义范围内, 若位于否定 词的语义范围内, 则更改该 单词的情绪极性 为中性。权 利 要 求 书 2/2 页 3 CN 114564965 A 3

PDF文档 专利 一种面向软件工程领域的基于句法分析的文本情绪分析方法

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种面向软件工程领域的基于句法分析的文本情绪分析方法 第 1 页 专利 一种面向软件工程领域的基于句法分析的文本情绪分析方法 第 2 页 专利 一种面向软件工程领域的基于句法分析的文本情绪分析方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:33:27上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。