国家标准网
文库搜索
切换导航
首页
频道
仅15元无限下载
联系我们
首页
仅15元无限下载
联系我们
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210244932.5 (22)申请日 2022.03.14 (71)申请人 中国工商银行股份有限公司 地址 100140 北京市西城区复兴门内大街 55号 (72)发明人 张磊 (74)专利代理 机构 北京三友知识产权代理有限 公司 11127 专利代理师 董骁毅 周永君 (51)Int.Cl. G06F 40/284(2020.01) G06F 40/30(2020.01) G06F 40/126(2020.01) G06F 16/35(2019.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称 一种谩骂评论的检测方法及系统 (57)摘要 本申请提供的一种谩骂评论的检测方法及 系统, 涉及人工智 能领域和语言处理技术领域, 选择多层次向量表示, 并选择了参数已经在大量 词库中进行最优化的二次预训练模型BERT, 对评 论进行编码处理。 既能保证编码器能充分表示最 终的语义表 示, 还能进一步提高检测模型的准确 率和召回率。 本发明充分结合策略检测与算法检 测的优点, 并通过两者的巧妙结合, 降低人工成 本, 在最少算力的前提下, 最大限度的保证了模 型检测的准确性和有效性。 权利要求书3页 说明书14页 附图9页 CN 114580397 A 2022.06.03 CN 114580397 A 1.一种谩骂评论的检测方法, 其特 征在于, 包括: 获取待检测评论文本; 对所述待检测评论文本进行 过滤; 将过滤后的待检测评论文本输入至预设的谩骂 评论检测模型, 得到待检测评论文本的 检测结果; 其中, 所述谩骂 评论检测模型是通过多个历史评论文本对应的词向量和字向量训练形 成的。 2.根据权利要求1所述谩骂 评论的检测方法, 其特征在于, 在将待检测评论文本输入至 预设的谩骂评论检测模型之前, 还 包括: 根据预设的最大长度对待检测评论文本进行截断, 得到多个待检测词汇; 根据预设的谩骂词汇 表对所述多个待检测词汇进行初步检测; 若所述多个待检测词汇中的至少一个词汇与所述谩骂词汇表中的谩骂词汇相匹配, 则 确定初步检测的结果 为待检测评论文本是谩骂评论; 相对应地, 所述对所述待检测评论文本进行 过滤, 具体为: 将初步检测结果 不是谩骂评论的待检测评论文本过 滤出来; 所述将待检测评论文本 输入至预设的谩骂评论检测模型, 具体为: 将初步检测的结果为不是谩骂评论的待检测评论文本输入值预设的谩骂评论检测模 型。 3.根据权利要求2所述谩骂 评论的检测方法, 其特征在于, 所述根据预设的谩骂词汇表 对所述多个待检测词汇进行初步检测, 包括: 分别对每个所述待检测词汇中以及每个所述谩骂词汇进行词嵌入操作, 得到每个待检 测词汇对应的第一词向量以及每 个谩骂词汇对应的第二词向量; 针对每个第一词向量, 分别计算 其与每个第二词向量的夹角余弦值; 相对应地, 当所述夹角余弦值超过预设阈值时, 认为所述第一词向量对应的待检测词 汇与所述第二词向量对应的谩骂词汇相匹配。 4.根据权利要求1所述的谩骂 评论的检测方法, 其特征在于, 对所述谩骂 评论检测模型 进行训练的步骤 包括: 采集多个历史评论文本, 并根据所述谩骂词汇表对每个历史评论文本进行过滤, 得到 未命中谩骂词汇 表的训练历史评论文本; 分别采用随机初始化权重的卷积神经网络以及中文语料库对所述训练历史评论文本 进行处理, 得到对应的词向量和字向量; 对预设的分类模型进行 预训练, 使其可以学习评论文本深层语义信息; 使用所述词向量和字向量对经过预训练的分类模型进行二 次训练, 得到所述谩骂 评论 检测模型。 5.根据权利要求4所述的谩骂 评论的检测方法, 其特征在于, 所述分别采用随机初始化 权重的卷积神经网络以及中文语料库对所述训练历史评论文本进 行处理, 得到对应的词向 量和字向量, 包括: 对所述训练历史评论文本进行字符分隔, 得到对应的多个单字; 采用随机初始化权重的卷积神经网络对所述多个单字进行编码, 得到所述训练历史评权 利 要 求 书 1/3 页 2 CN 114580397 A 2论文本对应的字向量; 以及 对所述训练历史评论文本进行分词处 理, 得到对应的多个单词; 根据预设的中文语料库对所述多个单词 进行表示, 得到所述训练历史评论文本对应的 词向量。 6.根据权利要求4所述的谩骂 评论的检测方法, 其特征在于, 所述使用所述词向量和字 向量对经 过预训练的分类模型进行二次训练, 包括: 根据所述训练历史评论文本对应的词向量和字向量 生成对应的上 下文语义向量; 将所述训练历史评论文本对应的上下文语义向量以及预设的真实分类结果共同输入 至经过预训练的分类模型, 得到更新后的分类模型; 重复执行上述步骤对分类模型进行训练和更新, 直至更新后的分类模型收敛; 根据收敛的分类模型参数构建神经网络模型, 得到所述 谩骂评论检测模型。 7.根据权利要求6所述的谩骂 评论的检测方法, 其特征在于, 所述根据 所述训练历史评 论文本对应的词向量和字向量 生成对应的上 下文语义向量, 包括: 在每个训练历史评论文本的开头和结尾分别添加开头表示词以及结尾表示词, 得到各 训练历史评论文本对应的输入文本; 将所述训练历史评论文本对应的词向量和字向量以及所述输入文本输入一编码器, 得 到各训练历史评论文本的上 下文语义向量。 8.根据权利要求6所述的谩骂 评论的检测方法, 其特征在于, 所述经过预训练 的分类模 型包括两层前向神经网络线性层; 所述将所述训练历史评论文本对应的上下文语义向量以及预设的真实分类结果共同 输入至经 过预训练的分类模型, 得到更新后的分类模型, 包括: 将所述训练历史评论文本对应的上下文语义向量以及预设的分类结果输入至第一层 前向神经网络线性层进行降维处理, 使所述第一层前向神经网络线性层输出上下文语义向 量的降维特 征向量; 将所述上下文语义向量的降维特征向量输入至第 二层前向神经网络线性层, 使所述第 二层前向神经网络线性层输出 所述训练历史评论文本的检测结果; 根据所述检测结果以及对应的真实分类结果对所述分类模型的参数进行更新, 得到更 新后的分类模型。 9.根据权利要求8所述的谩骂 评论的检测方法, 其特征在于, 所述将过滤后的待检测评 论文本输入至预设的谩骂评论检测模型, 得到待检测评论文本的检测结果, 包括: 采用随机初始化权重的卷积神经网络以及中文语料库对待检测评论文本进行处理, 得 到对应的词向量和字向量; 根据待检测评论文本的词向量和字向量 生成对应的上 下文语义向量; 将待检测评论文本的上下文语义向量输入至所述谩骂 评论检测模型, 得到待检测评论 文本的检测结果。 10.根据权利要求1所述的谩骂评论的检测方法, 其特征在于, 所述获取待检测评论文 本, 包括: 获取待检测评论的完整语句; 去除待检测评论的完整语句中的非文本 字符, 得到所述待检测评论文本;权 利 要 求 书 2/3 页 3 CN 114580397 A 3
专利 一种谩骂评论的检测方法及系统
文档预览
中文文档
27 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共27页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 17:47:35
上传分享
举报
下载
原文档
(1.2 MB)
分享
友情链接
GB-T 34079.3-2017 基于云计算的电子政务公共平台服务规范 第3部分:数据管理.pdf
GB-T 13234-2018 用能单位节能量计算方法.pdf
GB-T 37988-2019 信息安全技术 数据安全能力成熟度模型.pdf
中国电信 云网运营自智白皮书 2022.pdf
DL-T 2036-2019 高压交流架空输电线路可听噪声计算方法.pdf
ISO 17987-7-2016.pdf
GB-T 35499-2017 呋喃树脂耐蚀作业质量技术规范.pdf
DB5301-T 99-2023 改性磷石膏综合利用 矿山生态修复 过程环境监管规范 昆明市.pdf
GB-Z 28865-2012 抗电磁干扰软磁铁氧体材料规范.pdf
GB-T 35465.3-2017 聚合物基复合材料疲劳性能测试方法 第3部分:拉-拉疲劳.pdf
专利 导热膜.PDF
T-ZKJXX 00003—2021 基于三维空间信息技术的工程数字化交付技术规范.pdf
GB-T 25341.2-2019 铁路旅客运输服务质量 第2部分:服务过程.pdf
T CECC 027-2024 生成式人工智能数据应用合规指南.pdf
GB-T 21361-2017 汽车用空调器.pdf
T-BSIA 006—2022 知识图谱时空特性构建技术规范.pdf
GB-T 42806-2023 婴童用品 餐具与喂食器具通用技术要求.pdf
2023年Chau服务企业AIGC需求的大坑和大饼-v1.0-2024.pdf
T-CHIA 17.1—2020 健康医疗大数据资源目录体系 第 1 部分:总体框架.pdf
GB-T 26834-2011 无损检测仪器 小焦点及微焦点X射线管有效焦点尺寸测量方法.pdf
1
/
3
27
评价文档
赞助2.5元 点击下载(1.2 MB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
点击进入官方售后微信群
支付 完成后 如未跳转 点击这里下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。