国家标准网
文库搜索
切换导航
首页
频道
仅15元无限下载
联系我们
首页
仅15元无限下载
联系我们
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210243644.8 (22)申请日 2022.03.12 (71)申请人 云知声智能科技股份有限公司 地址 100096 北京市海淀区西三 旗建材城 内1幢一层101号 (72)发明人 刘畅 王亦宁 刘升平 梁家恩 (51)Int.Cl. G06F 40/211(2020.01) G06F 40/289(2020.01) G06F 40/30(2020.01) G06F 16/33(2019.01) G06N 3/08(2006.01) (54)发明名称 文本处理方法、 装置、 存 储介质及电子装置 (57)摘要 本发明公开了一种文本处理方法、 装置、 存 储介质及电子装置。 其中, 该文本处理方法: 首先 将长文本以基本的标点符号为分 隔切开, 并对切 开的子句分别用预训练模型进行建模; 然后针对 前一步中得到的模型表示, 使用双向循环神经网 络建立子句之间的上下文依 赖, 从而以子句为单 位完成组块 分析。 本发明实施例打破了预训练模 型的长度限制, 同时结合了循环神经网络模型建 模子句之间上下文时序关系依赖的优势, 可以较 好解决长文本建模和切分的问题, 以至少解决现 有技术中, 文本匹配准确度较低的技 术问题。 权利要求书2页 说明书8页 附图3页 CN 114707487 A 2022.07.05 CN 114707487 A 1.一种文本处 理方法, 其特 征在于, 包括: 根据预设分隔符切分目标文本, 得到所述目标文本对应的组块集合, 其中, 所述组块集 合中组块是由不同字词组成; 将所述组块 集合中的每 个组块输入预训练模型中, 得到每 个组块对应的词向量; 将所述每个组块对应的词向量输入双向循环神经网络 中, 确定每个组块之间的依赖关 系; 根据所述依赖关系对所述组块 集合中的组块进行处 理, 得到所述目标文本切分结果。 2.根据权利要求1所述的方法, 其特征在于, 所述根据所述依赖关系对所述组块集合中 的组块进行处 理, 得到所述目标文本切分结果, 包括: 将所述依赖关系相同的组块进行合并, 得到所述目标文本切分结果。 3.根据权利要求1所述的方法, 其特征在于, 所述将所述组块集合中的每个组块输入预 训练模型中, 得到每 个组块对应的词向量, 包括: 在所述目标文本D, 切分为N个字句, 所述组块集合包括N个字句的情况下, 通过所述预 训练模型进行词向量编 码, 得到每个字句n* m格式的词向量, 其中, 所述n表 示所述每个字句 中的字数量, 所述m预训练模型的特 征向量维度。 4.根据权利要求2所述的方法, 其特征在于, 所述通过所述预训练模型进行词向量编 码, 得到每 个字句n*m格式的词向量之后, 所述方法还 包括: 使用计算平均池化的方法, 将每个子句的词向量转化为一维向量, 得到所述目标文本 对应的文本序列。 5.根据权利要求1所述的方法, 其特征在于, 所述将所述每个组块对应的词向量输入双 向循环神经网络中, 确定每 个组块之间的依赖关系, 包括: 将文本序列输入所属双向循环神经网络 中, 得到每一个子句包含上下文语义的表示向 量; 通过全连接层将所属表示向量进行处 理, 得到目标向量; 根据所述目标向量确定所述每 个组块之间的依赖关系。 6.一种文本处 理装置, 其特 征在于, 包括: 切分单元, 用于根据 预设分隔符切分目标文本, 得到所述目标文本对应的组块集合, 其 中, 所述组块 集合中组块是由不同字词组成; 第一得到单元, 用于将所述组块集合中的每个组块输入预训练模型中, 得到每个组块 对应的词向量; 确定单元, 用于将所述每个组块对应的词向量输入双 向循环神经网络中, 确定每个组 块之间的依赖关系; 第二得到单元, 用于根据所述依赖关系对所述组块集合中的组块进行处理, 得到所述 目标文本切分结果。 7.根据权利要求6所述的装置, 其特 征在于, 所述第二得到单 元, 包括: 第二得到模块, 用于将所述依赖关系相同的组块进行合并, 得到所述目标文本切分结 果。 8.根据权利要求6所述的装置, 其特 征在于, 所述第一得到单 元, 包括: 第一得到模块, 用于在所述目标文本D, 切分为N个字句, 所述组块集合包括N个字句的权 利 要 求 书 1/2 页 2 CN 114707487 A 2情况下, 通过所述预训练模 型进行词向量编码, 得到每个字句n* m格式的词向量, 其中, 所述 n表示所述每 个字句中的字数量, 所述m预训练模型的特 征向量维度。 9.根据权利要求7 所述的装置, 其特 征在于, 所述装置还 包括: 计算单元, 用于所述通过所述预训练模型进行词向量编码, 得到每个字句n*m格 式的词 向量之后, 使用计算平均池化的装置, 将 每个子句的词向量转化为一 维向量, 得到所述目标 文本对应的文本序列。 10.根据权利要求6所述的装置, 其特 征在于, 所述确定单 元, 包括: 第三得到模块, 用于将文本序列输入所属双 向循环神经网络中, 得到每一个子句包含 上下文语义的表示向量; 处理模块, 用于通过全连接层将所述表示向量进行处 理, 得到目标向量; 确定模块, 用于根据所述目标向量确定所述每 个组块之间的依赖关系。 11.一种计算机可读的存储介质, 其特征在于, 所述存储介质中存储有计算机程序, 其 中, 所述计算机程序被设置为 运行时执 行所述权利要求1至 5任一项中所述的方法。 12.一种电子装置, 包括存储器和 处理器, 其特征在于, 所述存储器中存储有计算机程 序, 所述处理器被设置为运行所述计算机程序以执行所述权利要求 1至5任一项中所述的方 法。权 利 要 求 书 2/2 页 3 CN 114707487 A 3
专利 文本处理方法、装置、存储介质及电子装置
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 17:51:03
上传分享
举报
下载
原文档
(522.0 KB)
分享
友情链接
GB-T 39720-2020 信息安全技术 移动智能终端安全技术要求及测试评价方法.pdf
GM-T 0021-2023 动态口令密码应用技术规范.pdf
GB-T 35283-2017 信息安全技术 计算机终端核心配置基线结构规范.pdf
GB-T 42048-2022 载人航天空间科学与应用项目遴选要求.pdf
GB-T 19960.1-2005 风力发电机组 第1部分:通用技术条件.pdf
GM-T 0046-2016 金融数据密码机检测规范.pdf
TB-T 1718.2-2017 机车车辆轮对组装 第2部分:车辆.pdf
GB-T 1981.1-2007 电气绝缘用漆 第1部分:定义和一般要求.pdf
T-ZZB 2678—2022 高寿命汽车散热器电动风扇总成.pdf
WS-T 640-2018 临床微生物学检验样本的采集和转运.pdf
NB-T 10394-2020 光伏发电系统效能规范.pdf
专利 一种温控器在线监测用显示装置.PDF
GB-T 41817-2022 信息安全技术 个人信息安全工程指南.pdf
法律法规 陕西省民用建筑节能条例2016-11-24.pdf
DB32-T 4640-2024 燃气工业锅炉节能监测规范 江苏省.pdf
GB-T 15320-2001节能产品评价导则.pdf
GB-T 35854-2018 风力发电机组及其组件机械振动测量与评估.pdf
GB-T 36478.2-2018 物联网 信息交换和共享 第2部分:通用技术要求.pdf
GM-T 0033-2023 时间戳接口规范.pdf
医院信息化整体解决方案.pdf
1
/
3
14
评价文档
赞助2.5元 点击下载(522.0 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
点击进入官方售后微信群
支付 完成后 如未跳转 点击这里下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。