国家标准网
文库搜索
切换导航
首页
频道
仅15元无限下载
联系我们
首页
仅15元无限下载
联系我们
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210339912.6 (22)申请日 2022.04.01 (71)申请人 腾讯科技 (深圳) 有限公司 地址 518000 广东省深圳市南 山区高新区 科技中一路腾讯大厦3 5层 (72)发明人 曾嘉莉 姜雨帆 吴双志 (74)专利代理 机构 深圳市联鼎知识产权代理有 限公司 4 4232 专利代理师 徐明霞 (51)Int.Cl. G06F 40/284(2020.01) G06F 40/216(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 文本处理方法、 装置、 设备、 存 储介质及产品 (57)摘要 本申请的实施例公开了一种文本处理方法、 装置、 设备、 存储介质及产品, 该方法包括: 生成 待处理文本的词向量序列, 该词向量序列表示待 处理文本中包含的各个词所对应的词向量; 基于 待处理文本的词向量序列, 获得词向量序列中的 各个词向量的置信度, 该置信度表 示词向量对应 的语义对文本处理任务的重要度; 根据各个词向 量的置信度和词向量序列, 生 成待处理文本对应 的关键信息; 基于待处理文本对应的关键信息, 生成待处理文本针对文本处理任务的处理结果。 本申请实施例的技术方案提高了文本处理结果 的准确性。 权利要求书3页 说明书23页 附图9页 CN 115114910 A 2022.09.27 CN 115114910 A 1.一种文本处 理方法, 其特 征在于, 包括: 生成待处理文本的词向量序列, 所述词向量序列表示所述待处理文本中包含的各个词 所对应的词向量; 基于所述待处理文本的词向量序列, 获得所述词向量序列中的各个词向量的置信度; 所述置信度表示词向量对应的语义对文本处 理任务的重要度; 根据所述各个词向量的置信度和所述词向量序列, 生成所述待处理文本对应的关键信 息; 基于所述待处理文本对应的关键信 息, 生成所述待处理文本针对所述文本处理任务的 处理结果。 2.根据权利要求1所述的方法, 其特征在于, 所述根据所述各个词向量的置信度和所述 词向量序列, 生成所述待处 理文本对应的关键信息, 包括: 基于所述各个词向量的置信度与 所述各个词对应的词向量, 计算得到各个词的语义信 息保留度; 对所述各个词向量的置信度进行扰动处 理, 得到所述各个词的扰动度; 根据所述各个词的语义信 息保留度和所述各个词的扰动度, 计算各个关键词对应的词 向量, 将多个关键词分别对应的词向量所生成的序列 作为所述关键信息 。 3.根据权利要求2所述的方法, 其特征在于, 基于以下公式, 根据所述各个词的语义信 息保留度和所述各个词的扰动度, 计算各个关键词对应的词向量: 其中, 所述 为第i个关键词对 应的词向量, 所述 ei为第i个词的词向量, ci为第i个词的 置信度, 所述ci⊙ei为第i个词的语 义信息保留度, μ0为扰动项, (1 ‑ci)⊙μ0为第i个词的扰动 度。 4.根据权利要求1所述的方法, 其特征在于, 通过文本处理模型获得所述词向量序列中 的各个词向量的置信度, 并根据所述各个词向量的置信度和所述词向量序列, 生成所述待 处理文本对应的关键信息, 以及基于所述关键信息, 生成所述待处理文本针对所述文本处 理任务的处 理结果; 所述方法还 包括: 通过样本文本对待训练模型进行训练, 以生成所述文本处 理模型。 5.根据权利要求4所述的方法, 其特征在于, 所述通过样本文本对待训练模型进行训 练, 以生成所述文本处 理模型, 包括: 将所述样本文本的样本词向量序列输入到所述待训练模型中, 以获得所述待训练模型 生成的所述样本文本对应的关键信息, 所述待训练模型用于获得所述样本词向量序列中的 各个样本词向量的置信度, 并根据所述各个样本词向量的置信度和所述样本词向量序列, 生成所述样本文本对应的关键信息; 根据所述样本文本的样本词向量序列, 生成所述样本文本对应的冗余信息; 根据所述样本文本对应的关键信 息和所述样本文本对应的冗余信 息, 构建所述待训练 模型对应的第一损失; 根据所述第一损失调整所述待训练模型的模型参数, 以得到所述文本处 理模型。 6.根据权利要求5所述的方法, 其特征在于, 所述根据所述第 一损失调整所述待训练模权 利 要 求 书 1/3 页 2 CN 115114910 A 2型的模型参数, 以得到所述文本处 理模型, 包括: 将所述样本文本输入到所述待训练模型中, 以获得所述待训练模型针对所述样本文本 输出的与所述文本处 理任务相对应的任务处 理结果; 根据所述任务处理结果和所述样本文本的期望输出结果, 构建所述待训练模型的第 二 损失; 根据所述第 一损失和所述第 二损失调整所述待训练模型的模型参数, 以得到所述文本 处理模型。 7.根据权利要求6所述的方法, 其特征在于, 所述根据所述第 一损失和所述第 二损失调 整所述待训练模型的模型参数, 以得到所述文本处 理模型, 包括: 根据所述样本文本对应的关键信息和所述样本文本中各个样本词向量的置信度构建 所述待训练模型的第三损失; 根据所述第一损失、 所述第二损失和所述第三损失, 生成所述待训练模型的总损失; 根据所述总损失调整所述待训练模型的模型参数, 以得到所述文本处 理模型。 8.根据权利要求7所述的方法, 其特征在于, 所述根据所述样本文本对应的关键信 息和 所述样本文本中各个样本词向量的置信度构建所述待训练模型的第三损失, 包括: 将所述样本文本对应的关键信 息输入到所述待训练模型中, 以获得所述待训练模型针 对所述样本文本的关键信息所输出的处 理结果; 根据所述待训练模型针对所述样本文本的关键信 息所输出的处理结果, 以及所述样本 文本的关键信息所对应的期望 输出结果, 生成关键信息处 理损失; 对所述样本文本中各个样本词向量的置信度进行正则化处 理得到惩罚项; 根据所述关键信息处 理损失和所述 惩罚项生成所述第三损失。 9.根据权利要求8所述的方法, 其特征在于, 所述根据所述关键信 息处理损失和所述惩 罚项生成所述第三损失, 包括: 将预设的超参数作为 惩罚项的权 重值; 根据所述权重值对所述关键信息处理损失和所述惩罚项进行加权求和得到所述第三 损失。 10.根据权利要求5所述的方法, 其特征在于, 所述根据所述样本文本对应的关键信息 和所述样本文本对应的冗余信息, 构建所述待训练模型对应的第一损失, 包括: 获取所述待训练模型针对所述样本文本所生成的第 一全局向量、 针对所述样本文本对 应的关键信息所生成的第二全局向量, 以及针对所述样本文本对应的冗余信息所生成的第 三全局向量; 根据所述第 一全局向量和所述第 二全局向量的距离、 所述第 三全局向量和所述第 二全 局向量的距离、 以及所述第三全局向量和所述第一全局向量的距离, 构建所述待训练模型 对应的第一损失。 11.根据权利要求5所述的方法, 其特征在于, 所述根据所述样本文本的样本词向量序 列, 生成所述样本文本对应的冗余信息, 包括: 获取所述样本文本中各个样本词向量的置信度; 根据所述样本文本 中各个样本词向量的置信度与 所述样本文本中各个样本词向量, 生 成所述样本文本中各个样本词向量所对应的冗余词向量;权 利 要 求 书 2/3 页 3 CN 115114910 A 3
专利 文本处理方法、装置、设备、存储介质及产品
文档预览
中文文档
36 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共36页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 17:51:04
上传分享
举报
下载
原文档
(1.7 MB)
分享
友情链接
DB3311-T 126─2020 政务部门核心业务梳理规范 丽水市.pdf
奇安信 2020年中国企业邮箱安全性研究报告.pdf
GB-T 32658-2016 业余无线电设备射频技术要求及测试方法.pdf
CSA 安全数据湖的敏捷数据原则.pdf
DB15-T 2186—2021 林草数据备份管理规范 内蒙古自治区.pdf
DB5223-T 15-2021 新市民家庭经济困难学生资助、补助规范 黔西南布依族苗族自治州.pdf
YD-T 3956-2021 电信网和互联网数据安全评估规范.pdf
T-SLEA 1011.1—2023 实验室设计与建设技术规范 第1部分:通用技术要求.pdf
数据安全框架202308.pptx
DB11-T 1190.2-2018 古建筑结构安全性鉴定技术规范 第2部分:石质构件 北京市.pdf
CSA 零信任商业价值综述.pdf
T-CSIA 014—2023 开放式景区消防安全评估导则.pdf
GB-T 33138-2016 存储备份系统等级和测试方法.pdf
DB22-T 2335-2015 日本松干蚧综合防治技术规程 吉林省.pdf
GB-T 29241-2012 信息安全技术 公钥基础设施 PKI互操作性评估准则.pdf
GB-T 16433-2009 残疾人田径运动员医学和功能分级.pdf
DB52-T 1541.7-2021 政务数据平台 第7部分:运维管理规范 贵州省.pdf
GB-T 22186-2016 信息安全技术 具有中央处理器的IC卡芯片安全技术要求.pdf
DB23-T 3275—2022 养老机构分级照护服务规范 黑龙江省.pdf
DB52-T 1636.6-2021 机关事务云 第6部分:公共机构节能管理数据 贵州省.pdf
1
/
3
36
评价文档
赞助2.5元 点击下载(1.7 MB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
点击进入官方售后微信群
支付 完成后 如未跳转 点击这里下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。