国家标准网
文库搜索
切换导航
首页
频道
仅15元无限下载
联系我们
首页
仅15元无限下载
联系我们
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210532499.5 (22)申请日 2022.05.10 (71)申请人 中国计量大 学 地址 310018 浙江省杭州市学源街258号 (72)发明人 周娟 吴宗欢 王强 (51)Int.Cl. G06Q 30/00(2012.01) G06N 3/08(2006.01) G06N 3/04(2006.01) G06K 9/62(2022.01) G06F 40/30(2020.01) (54)发明名称 一种BERT融合胶囊网络的电梯故障投诉文 本分类方法 (57)摘要 本发明公开了一种BERT融合胶囊网络的电 梯故障投诉文本分类方法, 所述方法首先利用预 训练语言模型BERT强大的词句表达能力和抽取 长距离依赖关系的能力对文本进行语义特征提 取, 取BERT最后一层输出层中的第一个字符对应 的向量, 将其经过一个线 性层和Tanh激活层处理 后得到投诉文本句向量表示, 从而降低句向量维 度, 提高分类效率; 然后利用过采样与欠采样结 合的混合采样方法解决数据类别分布不均衡的 问题; 最后借助胶囊网络实现特征二次提取及融 合, 获取文本局部与整体的关系并保留词语顺序 和语义, 最终实现对电梯故障投诉文本的智能分 类, 为电梯定期维护提供参考价值, 也为故障投 诉文本数据的高效利用提供了解决方案 。 权利要求书2页 说明书7页 附图2页 CN 114819999 A 2022.07.29 CN 114819999 A 1.一种BERT融合胶囊网络的电梯故障投诉文本分类方法, 其特 征在于, 包括以下步骤: 步骤1: 准备和处理数据集, 首先收集并整理电梯用户投诉文本内容, 投诉文本大都是 100字以内的中文短文本, 投诉内容为用户在 使用电梯过程中碰到的问题或故障, 这些给用 户带来不好的体验或对用户的生命健康和财产安全产生威胁或伤害。 不同用户有不同的语 言习惯, 有的有强烈情感因素, 有的语言逻辑混乱, 有的内容模糊, 其中也包括一些恶意或 错误的投诉。 在整理数据集时先剔除恶意或错误的投诉; 然后对样本进 行预处理, 一个样本 就是一个句子, 设置句子的最大长度, 每个句子要以[CLS]开头, 以[SEP]结尾, 不足最大长 度的以[PAD]进行填充, 这样的形式是为了能正确输入到BERT模 型中; 最后确定电梯故障类 型, 用户投诉的故障类型共计9种, 分别是开关门不正常、 电梯运行异响、 操作按钮失灵、 其 他、 电梯运行抖动、 电梯管理差、 运行中出现下坠情况、 紧急呼叫按钮无人接听和使用登记 标记超期, 给故障类型进行编号, 样本与故障类型一 一对应; 步骤2: BERT 文本句向量表示, 将处 理后的样本 输入到BERT模型中生成最终的句向量; 步骤3: 数据集的采样与划分, 经过BERT文本句向量表示后的数据集, 一个句向量表示 一个用户的投诉样本, 利用过采样与欠采样结合的混合采样方式解决数据类别分布不均衡 的问题; 将采样后的数据集以7: 1: 2的比例随机划分为训练集、 验证集和测试集, 训练集和 验证集用于训练本发明建立的BERT融合胶囊网络(BERT ‑CapsNet)的电梯 故障投诉文本分 类模型, 测试集用于 评估BERT ‑CapsNet投诉文本分类模型的性能; 步骤4: 构建胶囊网络(capsule network, CapsNet)结构, 设置各项参数; 步骤5: 利用训练集和验证集训练建立好的胶囊网络, 计算损失函数(误差), 利用误差 反向传播 来更新CapsNet网络 权重, 得到性能较好的BERT ‑CapsNet投诉文本分类模型; 步骤6: 利用测试集评估BERT ‑CapsNet模型的投诉文本分类性能, 评价分类性能的指标 通常有准确率A、 精确率P、 召回率R和F值等, 假设共有M种故障类型, nij表示把真实类型i预 测为类型j的样本个数, 评价指标计算公式如下: Fi=2PiRi/(Pi+Ri) (4) 本发明取准确率和Macro F1为模型分类性能的评价指标。 2.根据权利要求1所述的一种BERT融合胶囊网络的电梯故障投诉文本分类方法, 其特 征在于, 所述步骤2中BERT文本句向量表示, 采用的是BERT ‑Base‑Chinese模型(Chinese_L ‑ 21_H‑768_A‑12), 模型具有12层Transformer层, 隐含层具有768个结点, 12头注意力机制, 取最后一层transformer层的第一个Token也就是[CLS]对应的向量作为BERT输出的句向量 (维度为768), 将此句向量输入到线性层并经过Tanh函数激活最终得到维度为100的句向 量, 该句向量 就代表对应投诉文本的语义信息 。 3.根据权利要求1所述的一种BERT融合胶囊网络的电梯故障投诉文本分类方法, 其特 征在于, 所述 步骤3中数据集的混合采样方法, 采样步骤如下: (1)统计数据集中每种故障类型对应的样本量, 假设经过处理后的电梯故障投诉数据权 利 要 求 书 1/2 页 2 CN 114819999 A 2集共有M种故障类型, Ni表示类型i采样前的样本量; (2)确定各故障类型的采样方式, Nmean表示采样前总样本量的均值, 若Ni大于Nmean则采 取欠采样方式, 采样标记为0, 反 之采取过采样方式, 采样标记为1; (3)确定各故障类型采样后的理论样本量, 对于需要欠采样的故障类型进行随机采样, 对于需要过采样的故障类型进行SMOTE(Synthetic Minority Oversamplin g Technique, SMOTE)采样, 各故障类型采样后的理论样本量如式(6)所示: N_newi表示类型i采样后的样本量, a表示采样平衡系数, 此处取a=0.5 。 4.根据权利要求1所述的一种BERT融合胶囊网络的电梯故障投诉文本分类方法, 其特 征在于, 所述步骤5中损失函数计算方法, 由于胶囊网络允许多个分类同时存在, 故采用间 隔损失(margi n loss)函数, 间隔损失表示 为: Li=Ti·max(0, m+‑||vi||)2+λ(1‑Ti)max(0, | |vi||‑m‑)2 (7) 式(7)中vi表示类别i的输出向量, Li表示类别i的损失, Ti是分类的指示函数(存在为1, 不存在为0); m+为上界, 惩罚假阳性; m‑为下界, 惩罚假 阴性; λ是比例系数, 调整 两者比重, 本 发明取m+=0.9, m‑=0.1, λ=0.5; 重构是用预测的类别构造出该类别的实际数据, 重构损失计算方法为胶囊层后构造出 3层全连接层, 得到重构后的输出数据; 将原数据与输出数据距离平方和作为损失值, 总体 损失=间隔损失+α ·重构损失, 本发明取α =0.01。权 利 要 求 书 2/2 页 3 CN 114819999 A 3
专利 一种BERT融合胶囊网络的电梯故障投诉文本分类方法
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 17:44:09
上传分享
举报
下载
原文档
(812.5 KB)
分享
友情链接
GB-T 8446.1-2022 电力半导体器件用散热器 第1部分:散热体.pdf
GB-T 14058-2008 γ射线探伤机.pdf
GM-T 0061-2018 动态口令密码应用检测规范.pdf
DB3303-T023-2020 智慧机关事务建设工作指南 温州市.pdf
专利 一种黑产识别方法、装置及计算机可读存储介质.PDF
DL-T 294.3-2019 发电机灭磁及转子过电压保护装置技术条件 第3部分 转子过电压保护.pdf
GB-T 22336-2008 企业节能标准体系编制通则.pdf
GB-T 26855-2011 信息安全技术 公钥基础设施 证书策略与认证业务声明框架.pdf
GB-T 3098.23-2020 紧固件机械性能 M42~M72螺栓、螺钉和螺柱.pdf
GB-T 4291-2017 冰晶石.pdf
GB-T 34004-2017 家用和小型餐饮厨房用燃气报警器及传感器.pdf
安恒 等保&商用密码整体解决方案 2022.pdf
T-CESA 1208—2022 光伏组件节能量计算方法.pdf
GB-T 18921-2019 城市污水再生利用 景观环境用水水质.pdf
GM-T 0032-2014 基于角色的授权与访问控制技术规范.pdf
T-CES 160—2022 数字孪生变电站智能传感器接入技术规范.pdf
GB-T 25328-2010 玻璃窑炉节能监测.pdf
GB-T 30363-2013 森林植被状况监测技术规范.pdf
信通院 区块链白皮书 2023年.pdf
GB/T 39468-2020 陆地定量遥感产品真实性检验通用方法.pdf
1
/
3
12
评价文档
赞助2.5元 点击下载(812.5 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
点击进入官方售后微信群
支付 完成后 如未跳转 点击这里下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。