(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210455759.3 (22)申请日 2022.04.27 (71)申请人 海信电子科技(武汉)有限公司 地址 430073 湖北省武汉市东湖新 技术开 发区软件园东路1号软件产业4.1期B2 栋13层02号-2 (72)发明人 李俊彦  (74)专利代理 机构 北京弘权知识产权代理有限 公司 11363 专利代理师 逯长明 许伟群 (51)Int.Cl. G06F 40/289(2020.01) G06F 16/33(2019.01) G06F 40/30(2020.01) G06F 16/35(2019.01)G06K 9/62(2022.01) (54)发明名称 一种智能设备及有效语义词提取方法 (57)摘要 本申请提供一种智能设备及有效语义词提 取方法, 所述智能设备包括存储模块和处理模 块, 所述处理模块被配置为获取待提取文本; 对 待提取文本进行分词, 以获得词语集合, 所述词 语集合中包括多个语义词; 使用通用标记替换所 述词语集合中的语义词, 以生成标注文本集; 将 所述待提取文本与所述标注文本集输入语义提 取模型; 获取所述语义提取模型输出的语义相似 度, 根据相似阈值过滤所述词语集合中的语义 词, 以获得有效语义词。 本申请能从用户的查询 文本中提取出影 响语义理解的关键语义词汇, 帮 助搜索引擎更好的理解用户意图, 从而能够帮助 智能设备给出准确的搜索结果, 提升用户体验。 权利要求书2页 说明书10页 附图5页 CN 114757187 A 2022.07.15 CN 114757187 A 1.一种智能设备, 其特 征在于, 包括: 存储模块, 被配置为存 储语义提取模型; 处理模块, 被 配置为: 获取待提取文本; 对待提取文本进行分词, 以获得词语集 合, 所述词语集 合中包括多个 语义词; 使用通用标记替换 所述词语集 合中的语义词, 以生成标注文本集; 将所述待提取文本与所述标注文本集输入语义提取模型, 其中, 所述语义提取模型由 训练样本集以及标注样本集训练生成, 所述训练样本集包括带有语义标签的训练语句; 所 述标注样本集包括带有标注概率的标注样本语句, 所述标注样本语句是将所述训练语句中 的关键词替换为 通用标记所 形成的语句; 获取所述语义提取模型输出的语义相似度, 根据相似阈值过滤所述词语集合中的语义 词, 以获得有效语义词。 2.根据权利要求1所述的智能设备, 其特 征在于, 所述处 理模块被 配置为: 在所述对待提取文本进行分词的步骤中, 调用分词工具; 将所述待提取文本输入所述分词工具, 以从所述待提取文本划分为多个语义词, 形成 所述词语集 合。 3.根据权利要求1所述的智能设备, 其特 征在于, 所述处 理模块被 配置为: 使用通用标记替换所述词语集合中的语义词, 以生成标注文本集的步骤中, 遍历所述 词语集合中的语义词; 依次使用通用标记替换所述词语集合中的一个语义词, 以在每次替换语义词的过程中 获得标注文本语句, 所述标注文本语句中包括通用标记以及所述词语集合中未被通用标记 替换的语义词, 为所述标注文本语句设置标注概 率; 将每次替换语义词过程中生成的标注文本语句组合, 以构成所述标注文本集。 4.根据权利要求3所述的智能设备, 其特 征在于, 所述处 理模块被 配置为: 获取所述语义提取模型输出的语义相似度的步骤中, 获取所述语义提取模型对所述待 提取文本和每 个所述标注文本语句中被通用标记替换的语义词输出的语义相似度; 按照所述语义相似度由大到小的顺序对每个所述标注文本语句中被通用标记替换的 语义词排序, 以获得语义 排序结果; 根据所述语义 排序结果在所述词语集 合中筛选有效语义词。 5.根据权利要求 4所述的智能设备, 其特 征在于, 所述处 理模块被 配置为: 根据所述语义排序结果在所述词语集合中的筛选有效语义词的步骤中, 设置过滤阈 值; 对比每个所述标注文本语句中被通用标记替换的语义词的语义相似度与所述过滤阈 值; 提取有效语义词, 所述有 效语义词为所述语义相似度大于或等于所述过滤阈值的标注 文本语句中被通用标记替换的语义词。 6.根据权利要求1所述的智能设备, 其特 征在于, 所述处 理模块被 配置为: 获取训练样本集, 所述训练样本集由用户输入的查询文本和媒资标题文本构建; 从所述训练样本集中提取训练语句;权 利 要 求 书 1/2 页 2 CN 114757187 A 2使用通用标记替换 所述训练语句中的关键词, 以生成所述标注样本语句; 为所述标注样本语句设置标注概 率; 使用所述训练语句和所述标注样本语句训练所述语义 提取模型。 7.根据权利要求1所述的智能设备, 其特 征在于, 所述处 理模块被 配置为: 使用所述训练语句和所述标注样本语句训练所述语义提取模型的步骤中, 调用初始语 义模型; 将所述训练语句和所述标注样本语句输入所述初始语义模型; 获取所述初始语义模型输出的分类概 率; 根据所述分类概 率与所述标注概 率计算获得损失值; 根据所述损失值调节所述初始语义模型的模型参数, 以获得 所述语义 提取模型。 8.根据权利要求1所述的智能设备, 其特 征在于, 所述处 理模块被 配置为: 在获取待提取文本的步骤中, 接收用户输入的查询指令, 所述查询指令中包括查询文 本; 从所述查询指令中解析查询文本; 使用预设词库删除所述 查询文本中无意 义词, 以获得 所述待提取文本 。 9.根据权利要求1所述的智能设备, 其特 征在于, 所述处 理模块被 配置为: 在获得有 效语义词的步骤后, 使用所述有效语义词在所述存储模块中查询关联媒资项 目; 或者, 使用所述有效语义词向服 务器发送用于查询关联媒资项目的查询指令 。 10.一种有效语义词提取 方法, 其特 征在于, 包括: 获取待提取文本; 对待提取文本进行分词, 以获得词语集 合, 所述词语集 合中包括多个 语义词; 使用通用标记替换 所述词语集 合中的语义词, 以生成标注文本集; 将所述待提取文本与所述标注文本集输入语义提取模型, 其中, 所述语义提取模型由 训练样本集以及标注样本集训练生成, 所述训练样本集包括带有语义标签的训练语句; 所 述标注样本集包括带有标注概率的标注样本语句, 所述标注样本语句是将所述训练语句中 的关键词替换为 通用标记所 形成的语句; 获取所述语义提取模型输出的语义相似度, 根据相似阈值过滤所述词语集合中的语义 词, 以获得有效语义词。权 利 要 求 书 2/2 页 3 CN 114757187 A 3

.PDF文档 专利 一种智能设备及有效语义词提取方法

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种智能设备及有效语义词提取方法 第 1 页 专利 一种智能设备及有效语义词提取方法 第 2 页 专利 一种智能设备及有效语义词提取方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:46:45上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。