(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210414350.7
(22)申请日 2022.04.20
(71)申请人 平安科技 (深圳) 有限公司
地址 518048 广东省深圳市福田区福田街
道福安社区益田路5033号平 安金融中
心23楼
(72)发明人 周琪妤
(74)专利代理 机构 北京辰权知识产权代理有限
公司 11619
专利代理师 付婧
(51)Int.Cl.
G06F 16/9532(2019.01)
G06F 40/247(2020.01)
G06F 40/30(2020.01)
(54)发明名称
同义词挖掘方法、 装置、 计算机设备和存储
介质
(57)摘要
本发明涉及一种同义词挖掘方法方法、 装
置、 计算机设备和存储介质, 该方法包括: 获取搜
索行为日志, 搜索行为日志包括搜索短语、 根据
搜索短语对应的搜索结果 以及用户对搜索结果
的行为数据; 根据搜索行为日志构建搜索行为的
二部图, 二部图中搜索短语为第一节点, 搜索结
果为第二节 点, 行为数据是第一节 点和第二节点
之间的边; 基于Si mrank算法, 确定二部图中搜索
短语的第二节 点之间的相似度; 基于搜索短语的
第二节点之间的相似度, 确定二部图中是同义词
的搜索短语。 上述方法可以简单且高效地获取同
义词。
权利要求书2页 说明书9页 附图2页
CN 114741580 A
2022.07.12
CN 114741580 A
1.一种同义词挖掘方法, 其特 征在于, 包括:
获取多个用户的搜索行为日志, 所述搜索行为日志包括搜索短语、 根据所述搜索短语
对应的搜索结果以及用户对所述搜索结果的行为数据;
根据所述搜索行为日志构建表征所述搜索短语和所述搜索结果的二部 图, 其中, 以所
述搜索短语为所述二部图的第一节点, 所述搜索结果为所述二部图的第二节点, 所述行为
数据为所述第一节点和所述第二节点之间的边;
基于Simran k算法, 确定所述 二部图中所述第二节点间的相似度;
基于所述第 二节点之间的相似度, 确定与 所述第二节点通过边连接的所述第 一节点之
间的相似度, 并根据所述相似度结果确定是同义词搜索短语。
2.根据权利要求1所述的同义词挖掘方法, 其特征在于, 所述基于所述第 二节点之间的
相似度, 确定与所述第二节点通过边连接的所述第一节点之间的相似度, 并根据所述相似
度结果确定是同义词搜索短语, 包括:
确定所述二部图中满足预设条件的两个第 二节点组成一对相似第 二节点对, 其中所述
预设条件 包括: 两个所述第二节点的相似度大于预设阈值;
确定所述相似第二节点对中的两个第二节点对应的第一节点 为同义词。
3.根据权利要求1所述的同义词挖掘方法, 其特征在于, 所述根据 所述搜索行为日志构
建表征所述搜索短语和所述搜索结果的二部图, 包括:
从所述用户行为日志中, 确定根据所述搜索短语对应的搜索结果和/或所述搜索结果
被点击和被有效浏览的内容;
将所述对应的搜索结果中未被点击或浏览的内容过滤掉, 得到对应的搜索结果中被点
击和被浏览的内容以及被点击和/或被浏览的次数、 时长 。
4.根据权利 要求1所述的同义词挖掘方法, 其特征在于, 所述基于Simrank算法, 确定所
述二部图中所述第二节点的相似度, 包括:
确定第一搜索短语对应的搜索结果的第一搜索结果与第二搜索短语对应的搜索结果
的第二搜索结果之间的第一相似度;
确定所述第二搜索短语对应的搜索结果的第二搜索结果与第三搜索短语对应的搜索
结果的第三搜索结果之间的第二相似度;
基于Simrank算法, 根据所述第一相似度和所述第二相似度, 确定所述第一搜索短语和
所述第二搜索短语的相似度。
5.根据权利要求1所述的同义词挖掘方法, 其特征在于, 以所述搜索短语为第 一搜索短
语, 所述第一搜索短语的同义词组中的任一搜索短语为第二搜索短语; 在基于所述搜索短
语的相似度, 确定所述搜索短语的同义词组之后, 还 包括:
将所述同义词组中满足以下所列任一或组合同义过滤条件的搜索 短语过滤掉, 所述同
义过滤条件包括:
所述第一搜索短语和所述第二搜索短语的拼音相似度在预设拼音相似阈值以下;
所述第一搜索短语和所述第二搜索短语的编辑距离在预设的编辑距离阈值以上;
所述第一搜索短语和所述第二搜索短语的字 重合度小于预设的字 重合度阈值;
所述第一搜索短语和所述第二搜索短语的词重合度小于预设的词重合度阈值;
所述第一搜索短语和所述第二搜索短语各自对应的同一语种的翻译词语的重合度小权 利 要 求 书 1/2 页
2
CN 114741580 A
2于预设的翻译重合度阈值; 以及,
所述第一搜索短语和所述第二搜索短语的语义相似度小于预设阈值的语义相似度阈
值。
6.根据权利要求5所述的同义词挖掘方法, 其特征在于, 确定所述第 一搜索短语和所述
第二搜索短语的语义相似度, 包括:
对所述第一搜索短语和所述第二搜索短语进行向量 化;
基于向量化的结果, 计算所述第一搜索短语和所述第二搜索短语的余弦相似度, 所述
余弦相似度为所述第一搜索短语和所述第二搜索短语的语义相似度。
7.根据权利要求5所述的同义词挖掘方法, 其特征在于, 确定所述第 一搜索短语和所述
第二搜索短语的拼音相似度, 包括:
将所述第一搜索 短语和所述第 二搜索短语通过拼音转化得到对应的拼音结构, 包含声
母、 韵母;
按最多相同发音的对齐方式, 将所述第 一搜索短语和所述第 二搜索短语的拼音的声母
对齐并将所述第一搜索短语和所述第二搜索短语的拼音的韵母 对齐;
确定所述第一搜索短语和所述第二搜索短语之间不同的音符的个数;
根据所述不同的音符的个数和所述第一搜索短语和所述第二搜索短语的音符串的长
度, 计算所述第一搜索短语的拼音转换为所述第二搜索短语的拼音的转换效率;
根据所述 转换效率确定所述第一搜索短语和所述第二搜索短语的拼音相似度。
8.一种同义词挖掘装置, 其特 征在于, 包括:
行为日志单元, 用于获取搜索行为日志, 所述搜索行为日志包括搜索短语、 根据 所述搜
索短语对应的搜索结果以及用户对所述搜索结果的行为数据;
二部图建立单元, 用于根据 所述搜索行为日志构建表征所述搜索 短语和所述搜索结果
的二部图, 所述二部图中所述搜索短语为第一节 点, 所述搜索结果为第二节点, 所述行为数
据是第一节点和第二节点之间的边;
相似度计算单元, 用于基于Simrank算法, 确定所述二部图中所述第二节点之间的相似
度;
结果输出单元, 用于基于所述第二节点之间的相似度, 确定所述二部 图中是同义词的
搜索短语。
9.一种计算机设备, 包括存储器和处理器, 所述存储器中存储有计算机可读指令, 所述
计算机可读指 令被所述处理器执行时, 使 得所述处理器执行如权利要求 1至7中任一项权利
要求所述同义词挖掘方法的步骤。
10.一种存储有计算机可读指令的存储介质, 所述计算机可读指令被一个或多个处理
器执行时, 使得一个或多个处理器执行如权利要求1至7中任一项权利要求所述同义词 挖掘
方法的步骤。权 利 要 求 书 2/2 页
3
CN 114741580 A
3
专利 同义词挖掘方法、装置、计算机设备和存储介质
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:48:24上传分享