国家标准网
文库搜索
切换导航
首页
频道
仅15元无限下载
联系我们
首页
仅15元无限下载
联系我们
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210303334.0 (22)申请日 2022.03.24 (71)申请人 北京明略昭辉科技有限公司 地址 100098 北京市海淀区北三环西路25 号27号楼二层2020室 (72)发明人 薛景元 (74)专利代理 机构 北京华夏泰和知识产权代理 有限公司 1 1662 专利代理师 曾军 (51)Int.Cl. G06F 16/33(2019.01) G06F 40/194(2020.01) G06F 40/211(2020.01) G06F 40/253(2020.01) G06F 40/279(2020.01)G06F 40/30(2020.01) (54)发明名称 句向量生成方法、 语句相似度确定方法、 装 置及电子设备 (57)摘要 本发明提供了一种句向量生成方法、 语句相 似度确定方法、 装置及电子设备, 该方法包括: 获 取目标语句; 将所述目标语句作为词向量生成模 型的输入, 得到所述词向量生 成模型输出的所述 目标语句中每个词语对应的词向量; 通过对所述 目标语句中的词语进行分析, 确定所述目标语句 内词语之间的修饰 关系; 根据所述目标语句中所 有词语对应的词向量和词语之间的修饰关系生 成所述目标语句的句向量。 本发 明通过分析目标 语句中的各个词语 之间的修饰关系, 得出各个词 语的词义, 根据词语之间的修饰关系生成的句向 量能够准确地表达出目标语句的语义, 解决了传 统构建句向量的方案无法准确地表达语句的语 义的技术问题。 权利要求书2页 说明书10页 附图6页 CN 114625841 A 2022.06.14 CN 114625841 A 1.一种句向量 生成方法, 其特 征在于, 所述方法包括: 获取目标语句, 其中, 所述目标语句为待生成句向量的语句; 将所述目标语句作为词向量生成模型的输入, 得到所述词向量生成模型输出的所述目 标语句中每个词语对应的词向量, 其中, 所述词向量生成模型用于对所述 目标语句进行分 词并生成词语的词向量; 通过对所述目标语句中的词语进行分析, 确定所述目标语句内词语之间的修饰关系; 根据所述目标语句中所有词语对应的词向量和词语之间的修饰关系生成所述目标语 句的句向量。 2.根据权利要求1所述的方法, 其特征在于, 所述将所述目标语句作为词向量生成模型 的输入, 得到所述词向量 生成模型输出的所述目标语句中每 个词语对应的词向量包括: 将所述目标语句输入所述词向量 生成模型; 基于语义分析对所述目标语句进行分词操作, 以将所述目标语句拆分为多个词语; 依据预设的词语和词向量的映射关系, 从已训练 的词向量库中查找与每个词语对应的 词向量; 输出所述目标语句中所有词语对应的词向量。 3.根据权利要求1所述的方法, 其特征在于, 所述通过对所述目标语句中的词语进行分 析, 确定所述目标语句内词语之间的修饰关系包括: 利用句法分析器对所述目标语句进行句法分析, 以确定所述目标语句的句法结构; 其 中, 所述句法结构由所述 目标语句中各词语之间的依存关系构成, 所述依存关系通过有向 边表示, 所述有向边的方向指代词语之间的依存方向; 依据所述依存关系, 识别出所述目标语句中的主干成分包括的第 一词语以及与所述第 一词语之间存在依存关系的第二词语; 确定所述第一词语和所述第二词语之间存在修饰关系。 4.根据权利要求1所述的方法, 其特征在于, 所述根据所述目标语句中所有词语对应的 词向量和词语之间的修饰关系生成所述目标语句的句向量包括: 从所述目标语句中选取存在修饰关系的第三词语和第 四词语, 其中, 所述第三词语为 所述目标语句中主干成分中的任一词语, 所述第四词语为所述目标语句中用于修饰所述第 三词语的至少一词语; 对所述第三词语对应的第一词向量和所述第四词语对应的至少一第二词向量进行均 值运算, 得到均值向量; 通过对所述均值向量进行运 算, 生成所述目标语句的句向量。 5.根据权利要求4所述的方法, 其特征在于, 所述通过对所述均值向量进行运算, 生成 所述目标语句的句向量, 包括: 若所述目标语句的主干成分包括多个第 三词语, 则所述均值向量包括对应的多个均值 向量, 按照预设的语法顺序, 对所述多个均值向量进行 首尾顺次拼接, 得到目标向量; 将所述目标向量作为所述目标语句的句向量。 6.一种语句 相似度确定方法, 其特 征在于, 所述方法包括: 获取第一语句和第二语句; 按照权利要求1 ‑5中任一项所述的句向量生成方法, 以所述第 一语句为目标语句, 获取权 利 要 求 书 1/2 页 2 CN 114625841 A 2所述第一语句对应的第一句向量, 以所述第二语句为 目标语句, 获取所述第二语句对应的 第二句向量; 利用所述第一句向量和所述第二句向量确定所述第一语句和所述第二语句之间的相 似度。 7.一种句向量 生成装置, 其特 征在于, 所述装置包括: 获取模块, 用于获取目标语句, 其中, 所述目标语句为待生成句向量的语句; 第一生成模块, 用于将所述目标语句作为词向量生成模型的输入, 得到所述词向量生 成模型输出 的所述目标语句中每个词语对应的词向量, 其中, 所述词向量生成模型用于对 所述目标语句进行分词并生成词语的词向量; 确定模块, 用于通过对所述目标语句中的词语进行分析, 确定所述目标语句内词语之 间的修饰关系; 第二生成模块, 用于根据所述目标语句中所有词语对应的词向量和词语之间的修饰关 系生成所述目标语句的句向量。 8.一种语句 相似度确定装置, 其特 征在于, 所述装置包括: 第一获取模块, 用于获取第一语句和第二语句; 第二获取模块, 用于按照权利要求1 ‑5中任一项所述的句向量生成方法, 以所述第一语 句为目标语句, 获取所述第一语句对应的第一句向量, 以所述第二语句为目标语句, 获取所 述第二语句对应的第二句向量; 确定模块, 用于利用所述第 一句向量和所述第 二句向量确定所述第 一语句和所述第 二 语句之间的相似度。 9.一种计算机设备, 包括存储器、 处理器及存储在存储器上并可在处理器上运行的计 算机程序, 其特征在于, 所述处理器执行所述计算机程序时实现权利要求1至6中任一项所 述方法的步骤。 10.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序 被处理器执行时实现权利要求1至 6中任一项所述的方法的步骤。权 利 要 求 书 2/2 页 3 CN 114625841 A 3
专利 句向量生成方法、语句相似度确定方法、装置及电子设备
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 17:48:23
上传分享
举报
下载
原文档
(914.3 KB)
分享
友情链接
DB52-T 1539.3-2021 政务云 第3部分:云计算平台运维管理规范 贵州省.pdf
DB42-T 1969-2023 困境儿童家庭监护能力评估 湖北省.pdf
GB-T 34362-2017 无损检测 适形阵列涡流检测导则.pdf
GB-T 34502-2017 封装键合用镀金银及银合金丝.pdf
GB-T 20096-2021 轮滑鞋.pdf
GB-T 35274-2023 信息安全技术 大数据服务安全能力要求.pdf
DB42-T 1505-2019 湖北美丽乡村建设规范 湖北省.pdf
GB-T 12135-2016 气瓶检验机构技术条件.pdf
DB21-T 3297-2020 安全培训过程管理实施指南 辽宁省.pdf
GB-T 17873-2014 纯氖和高纯氖.pdf
GB-T 6499-2022 原棉含杂率试验方法.pdf
GB-T 38699-2020 村级公共服务中心建设与管理规范.pdf
GB-T 17744-2020 石油天然气工业 钻井和修井设备.pdf
GB-T 37931-2019 信息安全技术 Web应用安全检测系统安全技术要求和测试评价方法.pdf
GB-T 34545-2017 祖母绿分级.pdf
DB13-T 5628-2022 旅游节庆活动服务规范 河北省.pdf
GB-T 37258-2018 氮化硅陶瓷粉体.pdf
DB15-T 3069—2023 乳苣育苗移栽技术规程 内蒙古自治区.pdf
YD-T 3957-2021 基于LTE的车联网无线通信技术 安全证书管理系统技术要求.pdf
YD-T 3763.8-2021 研发运营一体化(DevOps)能力成熟度模型 第8部分:系统和工具技术要求.pdf
1
/
3
19
评价文档
赞助2.5元 点击下载(914.3 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
点击进入官方售后微信群
支付 完成后 如未跳转 点击这里下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。