(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210346482.0 (22)申请日 2022.03.31 (71)申请人 携程旅游信息技 术 (上海) 有限公司 地址 201203 上海市浦东 新区张江高科技 园区碧波路518号3 02室 (72)发明人 连明杰 刘嘉伟 鞠建勋 李健  (74)专利代理 机构 上海弼兴律师事务所 31283 专利代理师 马涛 林嵩 (51)Int.Cl. G06K 9/62(2022.01) G06F 40/30(2020.01) G06F 40/253(2020.01) (54)发明名称 场所开闭公告的主语抽取方法、 电子 设备及 介质 (57)摘要 本发明公开了一种场所开闭公告的主语抽 取方法、 电子设备及介质, 其中场所开闭公告的 主语抽取方法, 包括以下步骤: 提取场所开闭公 告的文本信息; 利用预训练模型对文本信息提取 特征向量; 基于特征向量对第一原始模型进行训 练以得到文本二分类模型, 基于特征向量对第二 原始模型进行训练以得到主语抽取模 型; 基于文 本二分类模 型识别特征向量的类型, 当特征向量 的类型对应为有效公告时, 主语抽取模 型从文本 信息中抽取场所主语并作为主语抽取结果。 通过 联合文本二 分类模型与主语抽取模 型, 使得主语 抽取结果既隶属于真实存在开闭信息的主语, 又 能对场所主语的位置进行准确定位, 大大地提升 了工作效率以及结果的精确度。 权利要求书2页 说明书6页 附图2页 CN 114818875 A 2022.07.29 CN 114818875 A 1.一种场所开闭公告的主语抽取方法, 其特征在于, 所述开闭公告包括有效公告及无 效公告, 所述有效公告为与场所开闭真实有关的公告, 所述无效公告为与真实的场所开闭 信息无关的公告, 所述方法具体包括以下步骤: S11、 提取场所开闭公告的文本信息; S12、 利用预训练模型对所述文本信息提取 特征向量; S13、 基于所述特征向量对第一原始模型进行训练以得到文本二分类模型, 基于所述特 征向量对第二原始模型进 行训练以得到主语抽取模型, 所述文本二分类模 型能够将所述 公 告分为所述有效公告与所述无效公告、 所述主语抽取模型能够抽取场所主语; S14、 基于所述文本二分类模型识别所述特征向量的类型, 当所述特征向量的类型对应 为有效公告时, 所述主语抽取模型从所述文本信息中抽取所述场所主语并作为主语抽取结 果, 当所述特征向量的类型对应为无效公告时, 则不将所述主语抽取模型从所述文本信息 中抽取的所述场所主语作为所述主语抽取 结果。 2.如权利要求1所述的场所开闭公告的主语抽取方法, 其特征在于, 步骤S12包括将所 述文本信息转化为适合进 行主语抽取的固定格式的文本序列, 并向所述文本序列提取所述 特征向量, 具体地: 将英文字母进行 大小写转化; 将中文繁体转 化为中文简体; 将英文标点符号 转化为中文标签符号; 去除无意 义于提取 所述特征向量的符号; 将所述文本信 息进行截断 以得到所述文本序列, 使所述文本序列的文本长度在所述预 训练模型的预设长度范围内; 所述将所述文本信息截断包括使 多个所述文本序列之间存在重复文本的情形; 所述文本序列包括有效标记、 无效标记以及场所主语标记。 3.如权利要求2所述的场所开闭公告的主语抽取方法, 其特征在于, 所述将所述文本信 息截断的步骤 包括: 搜索所述文本信 息中与所述场所开闭信 息相对应的关键词, 截断后的所述文本序列包 括所述关键词的上下文; 对于不包含所述关键词的所述文本序列, 经过截断后 成为固定的 长度。 4.如权利要求1所述的场所开闭公告的主语抽取方法, 其特征在于, 所述文本二分类模 型的输出端设置有第一评估指标, 所述主语抽取模型 的输出端设置有第二评估指标, 所述 特征向量包括测试向量, 步骤S13具体包括: 当所述文本二分类模型、 所述主语抽取模型经过所述特征向量的训练后, 利用所述测 试向量对 所述文本二分类模 型、 所述主语抽取模型进 行测试, 经过测试后, 若 所述文本二分 类模型的测试结果没有达到所述第一评估指标, 或所述主语抽取模型的测试结果没有达到 所述第二评估指标, 则调整未达标模型的参数, 对所述未达标模型进行 再训练; 若所述文本二分类模型的测试结果达到所述第 一评估指标, 则判定所述文本二分类模 型能够将所述公告分为所述有效公告与所述无效公告; 若 所述主语抽取模 型的测试结果达 到所述第二评估指标, 则判定所述主语抽取模型能够抽取场所主语。 5.如权利要求1所述的场所开闭公告的主语抽取方法, 其特征在于, 步骤S14的具体步权 利 要 求 书 1/2 页 2 CN 114818875 A 2骤包括: S51、 将所述文本二分类模型与所述主语抽取模型联合成为文本二分类、 主语抽取联合 模型, 所述联合模型包括文本二分类输出端、 语义输出端与场所主语输出端; S52、 所述联合模型通过判断所述特征向量所对应的所述文本信息是否为所述有效公 告并在所述文本二分类输出端输出一个数值位于x与y之 间的分类结果, 使所述有效公告对 应的所述分类结果相对于所述无效公告所对应的所述分类结果更靠 近x; 所述联合模型对所述特征向量所对应的所述文本信 息进行逐字识别, 使每一个字符在 所述场所主语输出端都对应输出至少一个数值位于x与y之间的语义输出结果, 使与所述场 所主语的字符相对应的所述语义输出结果相对于与所述场所主语无关的字符所对应的所 述语义输出 结果更靠 近x; S53、 所述主语抽取 结果为每个所述语义输出 结果与对应的所述分类结果的乘积; S54、 所述场所主语输出端设置有阈值, 当所述主语抽取结果大于或小于所述阈值时, 所述主语抽取 结果对应的文本为所述有效公告的所述场所主语。 6.如权利要求5所述的场所开闭公告的主语抽取方法, 其特征在于, 所述设定 阈值的具 体步骤包括: S61、 设定一个数值位于x与y之间的初始阈值, 记载所述主语抽取结果, 对所述主语抽 取结果与对应的所述文本序列进 行比较以得到误差, 记载所述误差对应的所述主语抽取结 果为误差结果; S62、 当所述误差结果的平均数与初始阈值相比更靠近y时, 则将所述阈值的数值调整 至相较初始阈值更为靠近y; 当所述误差结果的平均数与初始阈值相比更靠近x时, 则将所 述阈值的数值调整至相较初始阈值更为靠 近x; 步骤S62包括将所述阈值直接调整至所述误差结果中最大或最小的数值, 还包括将所 述阈值在数值x与y的范围内进行任意的调整。 7.一种电子设备, 包括存储器、 处理器及存储在存储器上并可在处理器上运行的计算 机程序, 其特征在于, 所述处理器执行所述计算机程序时实现权利要求 1‑6中任一项 所述的 信道估计方法。 8.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序被 处理器执行时实现权利要求1 ‑6中任一项所述的信道估计方法的步骤。权 利 要 求 书 2/2 页 3 CN 114818875 A 3

.PDF文档 专利 场所开闭公告的主语抽取方法、电子设备及介质

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 场所开闭公告的主语抽取方法、电子设备及介质 第 1 页 专利 场所开闭公告的主语抽取方法、电子设备及介质 第 2 页 专利 场所开闭公告的主语抽取方法、电子设备及介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:48:32上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。