(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210420879.X (22)申请日 2022.04.21 (71)申请人 北京航空航天大 学 地址 100191 北京市海淀区学院路37号 (72)发明人 刘继红 王瑞文  (74)专利代理 机构 北京慧泉知识产权代理有限 公司 11232 专利代理师 王顺荣 唐爱华 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/242(2020.01) G06F 40/30(2020.01) G06Q 30/02(2012.01) (54)发明名称 一种基于细粒度情感分析的非完备用户需 求挖掘方法 (57)摘要 本发明提出一种基于细粒度情感分析的非 完备用户需求挖掘方法, 针对需求管理过程中非 完备用户需求挖掘问题, 基于标签 建模与基于方 面的情感分析技术, 以在线评论作为数据来源, 通过标签标注实现用户完备化, 使用基于方面的 情感分析技术实现用户需求的精确识别。 步骤如 下: 步骤一: 基于bert模型的用户标签标注; 步骤 二: 产品特征抽取与属性级情感分析; 步骤三: 非 完备用户需求挖掘。 本发明通过用户生成文本分 析来使用户完备化, 并挖掘用户的需求, 可以很 大程度上降低需求分析的成本, 并进一步提升制 造企业获取产品研发和迭代需求的效率与质量。 权利要求书3页 说明书6页 附图2页 CN 114741513 A 2022.07.12 CN 114741513 A 1.一种基于细粒度情感分析的非完备用户需求挖掘方法, 其特 征在于, 步骤如下: 步骤一: 基于ber t模型的用户标签标注; 步骤二: 产品特 征抽取与属性级情感分析; 步骤三: 非完备用户需求挖掘。 2.根据权利要求1所述的一种基于细粒度情感分析的非完备用户需求挖掘方法, 其特 征在于: 在步骤一中, 具体为: 基于bert模型的用户标注过程分为bert模型的预训练与bert模型微调; 在线评论为互 联网上的短文本, 存在各种口头表达和单词拼写错误; 采用了结合统计特征和深层语义的 标签标注方法; 统计特 征使用TF ‑IDF算法来进行抽取, 公式如下 所示: TF‑IDF=TF×IDF TF为特征词的词频, IDF为特征词的逆文本频率指数; 获取统计特征后, 对bert模型提 取的语义特征与统计特征进行特征融合; 两个特征 的维度不一样, 对两个特征向量进行拼 接操作; 最后, 将融合后的特 征向量输入到分类 器中, 进行分类操作来实现标签标注。 3.根据权利要求2所述的一种基于细粒度情感分析的非完备用户需求挖掘方法, 其特 征在于: 在步骤一中, 在线评论中包 含以下类型的信息, 根据这些信息推断用户的属性; (1)人口属性; 用户的固有属性, 包括 性别、 年龄; (2)位置信息; 与用户位置相关的各种属性, 包括用户的居住城市; (3)兴趣偏好; 用户的个人偏好, 包括对不同品牌和不同食物的偏好。 4.根据权利要求2或3所述的一种基于细粒度情 感分析的非完备用户需求挖掘方法, 其 特征在于: 预训练过程中使用两种 方法, 一种是遮蔽词语言模型MLM, 一种是预测下一个句 子NSP; 在b ert模型预训练完成之后, 通过结合统计特征和深层语义, 将句子变成适合与标 签标注的向量。 5.根据权利要求1所述的一种基于细粒度情感分析的非完备用户需求挖掘方法, 其特 征在于: 在步骤二中, 具体为: 标注数据难以获取且跨领域需要重新标注数据, 使用无监督 的产品特 征抽取与属性级情感分析 方法; 包括: 产品特征抽取 采基于句法关系的产品特征提取方法来进行产品特征的抽取; 基于句法关系的产品特 征提取方法首先需要通过句法分析分析产品特征词 与其他词之 间的依存, 然后总结提取规 则, 最后根据提取规则提取产品特征词; 基于bootstrap策略, 只需输入少量种子情感词, 不 需要输入任何产品特征词; 根据情感词与产品特征词之间的依赖关系, 从已知的产品特征 词中提取更多的情感词, 或者从已知的情感词中提取更多的产品特征词; 这样, 每次迭代, 提取的情感词和产品特征词都用来提取新的产品特征词和情感词; 当没有新的情感词或产 品特征词时, 迭代结束; 整个提取过程在情感词和产品特征词之间进 行迭代, 每次提取都基 于词之间的特定依存关系;权 利 要 求 书 1/3 页 2 CN 114741513 A 2基于情感词典的属性级情感分析 基于情感词典的属性级情感分析包括两部分: 一是情感词典的构建; 二是基于情感词 汇的情感分析; 情感词典的构建有三种方法: 手工方法、 基于词典的方法和基于语料库的方 法; 已为各种语言构建了大量的情感词典, 并且大多 数构建的情感词典都能公开获取; 以现 成的情感词汇为基础, 添加特定领域的情感词汇作为补充。 6.根据权利要求5所述的一种基于细粒度情感分析的非完备用户需求挖掘方法, 其特 征在于: 在步骤二中, 设情感词是形容词, 产品特征词是名词; OA ‑rel是情感词和产品特征 词之间的关系, OO ‑rel是情感词之间的关系, AA ‑rel是产品特征词之间的关系; OA ‑rel、 OO‑ rel和AA‑rel中的任何关系都表示为三元组(POS(wi),R,POS(wj)), 其中POS(wi)是单词wi的 词性标签, R是依存关系之一。 7.根据权利要求5或6所述的一种基于细粒度情 感分析的非完备用户需求挖掘方法, 其 特征在于: 在步骤二中, 基于情感词典的属性级情感分析包括以下三个步骤: (1)标记情感表达; 目标是找出句子中的每个情感表达, 并判断其情感倾向; 每个情感 表达可能包 含一个或多个产品特 征; 每个积极情绪表达得分为+1, 消极情绪表达得分为 ‑1; (2)处理情感转换词; 情感转换词是指改变情感倾向的词或短语; 包括否定词 “没有”, “不”,“不是”; (3)情感分析; 是使用情 感聚合函数获得情 感得分, 从而确定句子 中每个产品特征的观 点情感倾向; 设句子s包含产品特征集{a1,a2,…,am}, 情感表达词集{se1,se2,…,sen}和情 感表达词得分; 句子s每 个产品特 征ai的情感得分通过情感聚合 函数得到: score(sej,s)句子s中情感表达sej的情感得分, dist(sej,ai)为sej与ai在句子s中的词 语距离; 通过基于情感词典的方法, 结合提取出来的产品特征情感词对, 得到用户对产品的 情感得分。 8.根据权利要求1所述的一种基于细粒度情感分析的非完备用户需求挖掘方法, 其特 征在于: 在步骤三中, 具体为: 给定产品特征集A, 种子集S, must ‑link集ML, cannot ‑link集CL; 种子集中的种子产品 特征所代表的需求已知; must ‑link集ML, cannot ‑link集CL分别为表示同一需求的产品特 征对集合和不表示同一需求的产品特征对集合; 第一步为初始化聚类中心, 为需求类别 yi的中心点; 为已知需求类别的产品特 征集; 初始化 为: 由于k‑mean算法对初始中心点非常敏感, 使用种子集初始化聚类 中心有效地提高算法 的精度和收敛速度; 为了将成对约束应用于k ‑mean算法, 在目标函数中加入约束违反惩罚; 给定must ‑link集ML和can not‑link集CL的惩罚权 重集合{wij}和 目标函数表示 为:权 利 要 求 书 2/3 页 3 CN 114741513 A 3

.PDF文档 专利 一种基于细粒度情感分析的非完备用户需求挖掘方法

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于细粒度情感分析的非完备用户需求挖掘方法 第 1 页 专利 一种基于细粒度情感分析的非完备用户需求挖掘方法 第 2 页 专利 一种基于细粒度情感分析的非完备用户需求挖掘方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:45:48上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。