(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210191648.6 (22)申请日 2022.02.28 (71)申请人 贝壳找房网 (北京) 信息技 术有限公 司 地址 101500 北京市密云区经济开发区兴 盛南路8号开发区办公楼501室-1834 (经济开发区集中办公区) (72)发明人 赵梦原  (74)专利代理 机构 北京思源智汇知识产权代理 有限公司 1 1657 专利代理师 郑晓斐 (51)Int.Cl. G06F 40/289(2020.01) G06F 40/30(2020.01) G06F 40/216(2020.01)G10L 15/26(2006.01) (54)发明名称 用于存储语言模型的方法、 设备、 介质和程 序产品 (57)摘要 本公开实施例公开了一种用 于存储语言模 型的方法、 设备、 介质和程序产品, 方法包括: 获 取待存储词表, 待存储词表包括多个词序列以及 每个词序列的概率信息, 词序列包括高阶词序列 和低阶词序列, 每个高阶词序列包含至少一个低 阶词序列; 确定高阶词序列与低阶词序列的父子 从属关系; 基于父子从属关系, 确定待存储词表 对应的树状结构, 树状结构中的节 点与词序列一 一对应; 当词序列在树状结构中对应的节点为非 叶子节点时, 基于该词序列的概率信息以及该非 叶子节点的子节点对应的词序列的概率信息, 生 成该词序列的状态信息; 确定词序列与状态信息 的映射关系; 基于父子从属关系和映射关系, 存 储待存储词表和状态信息 。 权利要求书2页 说明书14页 附图6页 CN 114580406 A 2022.06.03 CN 114580406 A 1.一种用于存 储语言模型的方法, 其特 征在于, 包括: 获取待存储的语言模型中的待存储词表, 所述待存储词表包括多个词序列以及每个所 述词序列的概率信息, 其中, 所述词序列包括高阶词 序列和低阶词序列, 每个所述高阶词序 列包含至少一个所述低阶词序列; 确定所述高阶词序列 与所述低阶词序列的父子从属关系; 基于所述父子从属关系, 确定所述待存储词表对应的树状结构, 所述树状结构中的节 点与所述词序列一 一对应; 当所述词序列在所述树状结构中对应的节点为非叶子节点 时, 基于该词序列的概率信 息以及该非叶子节点的子节点对应的词序列的概 率信息, 生成该词序列的状态信息; 确定所述词序列 与所述状态信息的映射关系; 基于所述父子从属关系和所述映射关系, 存 储所述待存 储词表和所述状态信息 。 2.根据权利要求1所述的方法, 其特征在于, 基于该词序列的概率信 息以及该非叶子节 点的子节点对应的词序列的概 率信息, 生成该词序列的状态信息, 包括: 基于所述父子从属关系, 确定所述非叶子节点的子节点对应的词序列, 并为每一个所 述子节点对应的词序列构建一个数据对, 所述数据对包括编号数据和信息数据, 将所述信 息数据的末位确定为叶子标识位; 若所述子节点为非叶子子节点, 则将所述非叶子子节点对应的词序列的编号和指针, 分别写入所述非叶子子节点对应的数据对中的编号数据和信息数据, 并将该数据对的叶子 标识位设置为1, 所述指针用于确定所述非 叶子子节点对应的词序列的状态信息的存储地 址; 若所述子节点为叶子子节点, 则将所述子节点对应的词序列的编号和概率信息, 分别 写入所述子节点对应的数据对中的编号数据和信息数据, 并将该数据对的叶子标识 位设置 为0, 其中, 该子节点对应的词序列的 的概率信息不包括回退概 率; 将所述数据对作为数组元 素, 存入预设的序列容器; 基于所述非叶子节点对应的词序列的概率信 息以及所述序列容器的调用指令, 生成所 述状态信息 。 3.根据权利要求2所述的方法, 其特 征在于, 所述指针经由如下步骤生成: 确定所述非叶子子节点对应的词序列的状态信息的存储位置相对于所述非叶子节点 对应的词序列的状态信息的存 储位置的地址偏移量; 将所述地址偏移量确定为所述非叶子 子节点对应的词序列的指针。 4.根据权利要求2所述的方法, 其特 征在于, 所述方法还 包括: 将所述信息数据的首位确定为溢出 标识位; 若所述非叶子子节点的数量小于所述信 息数据的存储空间, 将所述非叶子子节点的数 据对的溢出 标识位设置为0; 若所述非叶子子节点的数量不小于所述信 息数据的存储空间, 将所述非叶子子节点对 应的词序列的状态信息的存储地址作为数组元素, 存入预先设置的溢出数组; 将所述非 叶 子子节点的数据对中的溢出标识 位设置为 1; 以及, 将所述 非叶子子节点对应的词 序列的状 态信息的存储地址在所述溢出数组中的序号确定为所述非叶子子节点对应的词序列的指 针。权 利 要 求 书 1/2 页 2 CN 114580406 A 25.根据权利要求1所述的方法, 其特 征在于, 所述方法还 包括: 若所述树状结构中的叶子节点对应的词序列为最低阶词序列, 则基于所述最低阶词序 列的概率信息, 生成所述 最低阶词序列的状态信息 。 6.根据权利要求5所述的方法, 其特 征在于, 所述方法还 包括: 将所述最低阶词序列的状态信息的存储地址作为数组元素, 存入预先构建的一维数 组。 7.根据权利要求1至 6之一所述的方法, 其特 征在于, 存 储所述状态信息, 包括: 对所述非叶子节点的子节点对应的词序列的状态信 息排序, 并按照 排序结果将所述非 叶子节点的子节点对应的词序列的状态信息依 次存入与所述非叶子节点对应的词序列的 状态信息相邻的存 储位置。 8.根据权利要求1至7之一所述的方法, 其特 征在于, 所述方法还 包括: 响应于确定目标语句的语言模型概率的指令, 对所述目标语句分词, 得到由最低阶词 序列组成的分词集 合; 确定所述分词集 合中各最低阶词序列的概 率; 若所述分词集合仅包括一个最低阶词序列, 将该最低阶词序列的概率确定为所述目标 语句的语言模型概 率; 若所述分词集合包括一个以上的最低阶词序列, 将所述分词集合中各最低阶词序列按 照语义排列, 得到至少一个高阶词 序列; 若所述至少一个高阶词 序列为叶子节 点, 则基于该 叶子节点的父节点对应的词序列的状态信息, 确定所述至少一个高阶词序列的概率; 若所 述至少一个高阶词序列为非 叶子节点, 则基于所述至少一个高阶词序列的状态信息, 确定 所述至少一个高阶词序列的概率; 基于所述分词集合中各最低阶词 序列的概率以及所述至 少一个高阶词序列的概 率, 确定所述目标语句的语言模型概 率。 9.一种电子设备, 其特 征在于, 包括: 存储器, 用于存 储计算机程序; 处理器, 用于执行所述存储器 中存储的计算机程序, 且所述计算机程序被执行时, 实现 上述权利要求1 ‑8任一所述的方法。 10.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 该计算机程序被 处理器执行时, 实现上述权利要求1 ‑8任一所述的方法。 11.一种计算机程序产品, 包括计算机程序/指令, 其特征在于, 该计算机程序/指令被 处理器执行时实现上述权利要求1 ‑8任一所述的方法。权 利 要 求 书 2/2 页 3 CN 114580406 A 3

.PDF文档 专利 用于存储语言模型的方法、设备、介质和程序产品

文档预览
中文文档 23 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 用于存储语言模型的方法、设备、介质和程序产品 第 1 页 专利 用于存储语言模型的方法、设备、介质和程序产品 第 2 页 专利 用于存储语言模型的方法、设备、介质和程序产品 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:51:45上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。