国家标准网
文库搜索
切换导航
首页
频道
仅15元无限下载
联系我们
首页
仅15元无限下载
联系我们
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210303278.0 (22)申请日 2022.03.25 (71)申请人 青岛海尔科技有限公司 地址 266101 山东省青岛市崂山区海尔路1 号海尔工业园 申请人 海尔智家 股份有限公司 (72)发明人 刘建国 王迪 李昱涧 (74)专利代理 机构 北京康信知识产权代理有限 责任公司 1 1240 专利代理师 江舟 (51)Int.Cl. G06F 40/205(2020.01) G06F 40/30(2020.01) G06F 16/35(2019.01) G06K 9/62(2022.01) (54)发明名称 文本相似度 的确定方法、 装置、 存储介质及 电子装置 (57)摘要 本申请公开了一种文本相似度的确定方法、 装置、 存储介质及电子装置, 涉及智能家居/智慧 家庭技术领域, 该文本相似度的确定方法包括: 获取待确定文本相似度的多个文本; 对多个文本 进行第一特征提取, 得到初始特征向量; 基于初 始特征向量计算注意力权重, 得到多个目标特征 向量; 将多个目标特征向量转换为文本向量, 其 中, 文本向量用于指示多个文本中每个文本所表 达的语义信息以及多个文本 之间的语义关系; 根 据文本向量确定多个文本 之间的目标相似度。 解 决了相关技术中, 文本相似度的确定效率较低等 问题, 实现了提高文本相似度的确定效率的技术 效果。 权利要求书2页 说明书12页 附图6页 CN 114818651 A 2022.07.29 CN 114818651 A 1.一种文本相似度的确定方法, 其特 征在于, 包括: 获取待确定文本相似度的多个文本; 对所述多个文本进行第一特 征提取, 得到初始特 征向量; 基于所述初始特 征向量计算注意力权 重, 得到多个目标 特征向量; 将多个所述目标特征向量转换为文本向量, 其中, 所述文本向量用于指示所述多个文 本中每个文本所表达的语义信息以及所述多个文本之间的语义关系; 根据所述文本向量确定所述多个文本之间的目标相似度。 2.根据权利要求1所述的方法, 其特征在于, 所述对所述多个文本进行第一特征提取, 得到初始特 征向量, 包括: 对所述多个文本进行文本拼接, 得到拼接文本; 将所述拼接文本转换为标记特征, 其中, 所述标记特征包括多个标记子特征, 所述多个 标记子特 征与所述多个文本一 一对应; 将所述标记特征输入第一注意力层, 得到所述第一注意力层输出的所述初始特征向 量, 其中, 所述初始特征向量包括与所述多个标记子特征一一对应的多个第一元素集合, 每 个所述第一元素集合用于指示对应文本的初始语义特征以及对应文本与其他文本之间的 初始语义关系。 3.根据权利要求2所述的方法, 其特征在于, 所述将所述拼接文本转换为标记特征, 包 括: 对所述拼接文本进行字符切分, 得到文本 字符串; 获取与所述第一注意力层匹配的目标对应关系, 其中, 所述目标对应关系中记录了具 有对应关系的字符和标记; 在所述目标对应关系中确定与所述文本 字符串中包括的目标字符对应的目标 标记; 将所述文本字符串中的所述目标字符转换为所述目标字符对应的目标标记, 得到所述 标记特征。 4.根据权利要求3所述的方法, 其特征在于, 所述对所述拼接文本进行字符切分, 得到 文本字符串, 包括: 去除所述 拼接文本中的格式标签和乱码字符, 得到待切分文本; 以文字为切分单位将所述待切分文本切分为所述文本 字符串。 5.根据权利要求1所述的方法, 其特征在于, 所述基于所述初始特征向量计算注意力 权 重, 得到多个目标 特征向量, 包括: 将所述初始特征向量分别输入第二注意力层包括的多个多头注意力网络中, 其中, 所 述初始特征向量包括与所述多个文本一一对应的多个第一元素集合, 每个所述第一元素集 合用于指示对应文本的初始语义特 征以及对应文本与其 他文本之间的初始语义关系; 通过每个所述多头注意力网络对每个所述第 一元素集合进行第 二特征提取, 得到多个 第二元素集合, 并计算每个所述第二元素集合对应的目标注意力权重得到多个目标注意力 权重; 根据所述多个第二元素集合和所述多个目标注意力权重确定每个所述第一元素集合 对应的所述目标特征向量, 得到多个所述目标特征向量, 其中, 每个所述目标特征向量包括 与多个所述第一元素集合中每个所述第一元素集合一一对应的第三元素集合, 每个所述第权 利 要 求 书 1/2 页 2 CN 114818651 A 2三元素集合用于指示对应文本的目标语义特征以及对应文本与其他文本之间的目标语义 关系。 6.根据权利要求1所述的方法, 其特征在于, 所述根据所述文本向量确定所述多个文本 之间的目标相似度, 包括: 对所述文本向量所包括的多个第四元素集合进行分类, 得到多组分类结果, 其中, 每个 所述第四元素集合是对多个所述目标特征向量对应位置的第三元素集合进 行融合得到的, 每个所述目标特征向量包括与所述多个文本多一一对应的多个所述第三元素集合, 所述第 三元素集合用于指示对应文本的目标语义特征以及对应文本与其他文本之间的目标语义 关系, 所述多组分类结果中每组分类结果用于指示多个所述第四元 素集合之间是否匹配; 对所述多组分类结果进行概 率转换, 得到目标概 率作为所述目标相似度。 7.根据权利要求6所述的方法, 其特 征在于, 所述对所述文本向量所包括的多个第四元素集合进行分类, 得到多组分类结果, 包括: 将所述文本向量输入目标卷积层, 得到所述目标卷积层输出的特征集合, 其中, 所述特征集 合包括与所述多个所述第四元素集合一一对应的多个特征子集合; 将所述特征集合输入目 标分类层, 得到所述目标分类层输出的所述多组分类结果; 所述对所述多组分类结果进行概率转换, 得到目标概率作为所述目标相似度, 包括: 将 所述多组分类结果输入目标概 率转换层, 得到所述目标概 率转换层输出的所述目标概 率。 8.一种文本相似度的确定装置, 其特 征在于, 包括: 获取模块, 用于获取待确定文本相似度的多个文本; 提取模块, 用于对所述多个文本进行第一特征提取, 得到初始特征向量; 计算模块, 用 于基于所述初始特 征向量计算注意力权 重, 得到多个目标 特征向量; 转换模块, 用于将多个所述目标特征向量转换为文本向量, 其中, 所述文本向量用于指 示所述多个文本中每 个文本所表达的语义信息以及所述多个文本之间的语义关系; 确定模块, 用于根据所述文本向量确定所述多个文本之间的目标相似度。 9.一种计算机可读的存储介质, 其特征在于, 所述计算机可读的存储介质包括存储的 程序, 其中, 所述 程序运行时执 行权利要求1至7中任一项所述的方法。 10.一种电子装置, 包括存储器和 处理器, 其特征在于, 所述存储器中存储有计算机程 序, 所述处 理器被设置为 通过所述计算机程序执 行权利要求1至7中任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 114818651 A 3
专利 文本相似度的确定方法、装置、存储介质及电子装置
文档预览
中文文档
21 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 17:51:11
上传分享
举报
下载
原文档
(664.4 KB)
分享
友情链接
GB-T 36261-2018 建筑用节能玻璃光学及热工参数现场测量技术条件与计算方法.pdf
GB-T 12054-1989 数据处理 转义序列的登记规程.pdf
GB-T 35973-2018 集装箱环保技术要求.pdf
DB4403-T 114-2020 公共信用信息资源目录规范 深圳市.pdf
专利 一种变压器散热器集流管的焊接装置.PDF
思度安全-DSMM-014 数据导入导出安全管理规范V1.0.pdf
GB-T 41703-2022 商业或工业用及类似用途的热泵热水系统设计、安装、验收规范.pdf
T-CSTM 00577—2021 油气田设备和材料绿色制造通用要求.pdf
T-CTSS 1—2018 白茶仓储规范.pdf
资产管理 数据资产确权登记导则.pdf
T-CESA 1264—2023 非接触式掌纹掌静脉融合识别终端设备 技术要求.pdf
GB-T 10089-2018 圆柱蜗杆、蜗轮精度.pdf
DB31-T 329.1—2019 重点单位重要部位安全技术防范系统要求 第1部分:展览馆、博物馆 上海市.pdf
DB4401-T 184—2022 文化和旅游市场主体信用评价规范 广州市.pdf
GB-T 15102-2017 浸渍胶膜纸饰面纤维板和刨花板.pdf
GB-T 32658-2016 业余无线电设备射频技术要求及测试方法.pdf
NIST SP 800-193_ BIOS 平台固件弹性指南 .pdf
T-SOFIDPA 0004—2023 有机肥 好氧发酵 低碳技术规范.pdf
T-CSPSTC 103—2022 氢气管道工程设计规范.pdf
GB-T 2585-2021 铁路用热轧钢轨.pdf
1
/
3
21
评价文档
赞助2.5元 点击下载(664.4 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
点击进入官方售后微信群
支付 完成后 如未跳转 点击这里下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。