(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210209091.4 (22)申请日 2022.03.03 (71)申请人 戎行技术有限公司 地址 300143 天津市河北区铁东路街道 志 成路130号(自创区河北分园科技招商 展示服务中心407-1室) (72)发明人 赵志庆 侯玉柱 王巍 张雨铭威   董席峰 刘孟  (74)专利代理 机构 济南千慧专利事务所(普通 合伙企业) 37232 专利代理师 傅静 (51)Int.Cl. G06F 40/268(2020.01) G06F 40/289(2020.01) G06F 40/30(2020.01)G06K 9/62(2022.01) G06N 20/00(2019.01) (54)发明名称 一种基于多工具的自然语 言处理方法、 设备 及介质 (57)摘要 本申请公开了一种基于多工具的自然语言 处理方法、 设备及介质, 方法包括: 获取多个开源 NLP工具; 将特定语言划分成与特定语言适配的 多个维度; 确定预先获取的训练样本, 训练样本 中, 至少部分结构以特定语言的形式体现; 针对 每个开源NLP工具, 使用其对训练样本进行自然 语言处理分析, 以将训练样本在每个维度下进行 分析, 得到多个维度分别对应的分析结果; 针对 每个维度, 获取多个开源NLP工具在该维度下的 分析结果, 以训练得到该维度对应的NLP维度模 型; 根据多个NLP维度模型, 实现对特定语言的自 然语言处理。 通过多个开源NLP工具进行自然语 言处理, 得到特定语言在多个维度下的分析结 果, 解决使用单一基础NLP工具分析准确性较低 的问题, 提升 了可用性。 权利要求书2页 说明书7页 附图2页 CN 114580387 A 2022.06.03 CN 114580387 A 1.一种基于多工具的自然语言处 理方法, 其特 征在于, 包括: 获取多个开源N LP工具, 所述 开源NLP工具支持对特定语言进行处 理; 根据所述特定语言的属性, 将所述特定语言划分成与所述特定语言适配的多个维度; 确定预先获取的训练样本, 所述训练样本中, 至少部分结构以所述特定语言的形式体 现; 针对每个所述开源NLP工具, 使用其对所述训练样本进行自然语言处理分析, 以将所述 训练样本在每 个所述维度下进行分析, 得到所述多个维度分别对应的分析 结果; 针对每个所述维度, 获取所述多个开源NLP工具在该维度下的所述分析结果, 以训练得 到该维度对应的N LP维度模型; 根据多个所述 NLP维度模型, 实现对所述特定语言的自然语言处 理。 2.如权利要求1所述的方法, 其特征在于, 所述特定语言为汉语, 所述维度包括语言词 性维度; 所述针对每个所述开源NLP工具, 使用其对所述训练样本进行自然语言处理分析, 以将 所述训练样本在每个所述维度下进行分析, 得到所述多个维度分别对应的分析结果, 具体 包括: 针对每个所述开源NLP工具, 使用其对所述训练样本进行自然语言处理分析, 以将所述 训练样本在所述语言词性维度下进行分析, 得到所述语言词性维度对应的第一分析 结果; 将所述第一分析结果作为影响因子, 将所述训练样本在其他维度下进行分析, 得到所 述其他维度对应的第二分析结果, 以便通过所述第一分析结果和所述第二分析结果训练得 到不同维度对应的N LP维度模型。 3.如权利要求2所述的方法, 其特征在于, 所述将所述第一分析结果作为影响因子, 将 所述训练样本在其 他维度下进行分析, 得到所述 其他维度对应的第二分析 结果, 具体包括: 根据所述第一分析结果, 确定所述训练样本中, 所述语言词性维度为停用词的指定词 语; 将所述指定词语替换为分隔符, 以对通过所述分隔符分隔得到的其他词语, 在其他维 度下进行分析, 得到所述 其他维度对应的第二分析 结果。 4.如权利要求3所述的方法, 其特征在于, 所述通过所述分隔符分隔得到的其他词语, 在其他维度下进行分析, 得到所述 其他维度对应的第二分析 结果, 具体包括: 确定通过 所述分隔符分隔得到的其 他词语; 针对所述其他词语 中的至少部分词语, 在实体类型维度, 和/或, 情 感分析维度, 进行分 析, 得到所述实体 类型维度, 和/或, 所述情感分析维度分别对应的第二分析 结果。 5.如权利要求1所述的方法, 其特征在于, 所述根据多个所述NLP维度模型, 实现对所述 特定语言的自然语言处 理, 具体包括: 根据用户需求, 在多个所述NLP维度模型中选择所需的NLP维度模型, 并通过所述所需 的NLP维度模型, 实现对所述特定语言的自然语言处 理。 6.如权利要求1所述的方法, 其特征在于, 所述训练得到该维度对应的NLP维度模型, 具 体包括: 确定该维度与各 所述开源NLP工具之间的关联等级; 根据所述关联等级, 确定各所述开源NLP工具在该维度中所占的占权重, 所述关联等级权 利 要 求 书 1/2 页 2 CN 114580387 A 2和所述权 重呈正相关; 根据所述权重, 在该维度中各所述开源NLP工具对应的分析结果选取部分分析结果, 用 于训练得到该维度对应的N LP维度模型。 7.如权利要求1所述的方法, 其特征在于, 所述得到所述多个维度分别对应的分析结果 之后, 所述方法还 包括: 将所述分析结果存储至基于指定搜索库的分布式搜索服务器存储中, 所述指定搜索库 为全文检索引擎的架构。 8.如权利要求2所述的方法, 其特征在于, 所述开源自然语言处理工具包括 StanfordN LP模型、 Fudan NLP模型、 HaN LP模型中的至少一种。 9.一种基于多工具的自然语言处 理设备, 其特 征在于, 包括: 至少一个处 理器; 以及, 与所述至少一个处 理器通信连接的存 储器; 其中, 所述存储器存储有可被所述至少一个处理器执行的指令, 所述指令被所述至少一个处 理器执行, 以使所述至少一个处 理器能够执 行如: 获取多个开源N LP工具, 所述 开源NLP工具支持对特定语言进行处 理; 根据所述特定语言的属性, 将所述特定语言划分成与所述特定语言适配的多个维度; 确定预先获取的训练样本, 所述训练样本中, 至少部分结构以所述特定语言的形式体 现; 针对每个所述开源NLP工具, 使用其对所述训练样本进行自然语言处理分析, 以将所述 训练样本在每 个所述维度下进行分析, 得到所述多个维度分别对应的分析 结果; 针对每个所述维度, 获取所述多个开源NLP工具在该维度下的所述分析结果, 以训练得 到该维度对应的N LP维度模型; 根据多个所述 NLP维度模型, 实现对所述特定语言的自然语言处 理。 10.一种非易失性计算机存储介质, 存储有计算机可执行指令, 其特征在于, 所述计算 机可执行指令设置为: 获取多个开源N LP工具, 所述 开源NLP工具支持对特定语言进行处 理; 根据所述特定语言的属性, 将所述特定语言划分成与所述特定语言适配的多个维度; 确定预先获取的训练样本, 所述训练样本中, 至少部分结构以所述特定语言的形式体 现; 针对每个所述开源NLP工具, 使用其对所述训练样本进行自然语言处理分析, 以将所述 训练样本在每 个所述维度下进行分析, 得到所述多个维度分别对应的分析 结果; 针对每个所述维度, 获取所述多个开源NLP工具在该维度下的所述分析结果, 以训练得 到该维度对应的N LP维度模型; 根据多个所述 NLP维度模型, 实现对所述特定语言的自然语言处 理。权 利 要 求 书 2/2 页 3 CN 114580387 A 3

.PDF文档 专利 一种基于多工具的自然语言处理方法、设备及介质

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于多工具的自然语言处理方法、设备及介质 第 1 页 专利 一种基于多工具的自然语言处理方法、设备及介质 第 2 页 专利 一种基于多工具的自然语言处理方法、设备及介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:45:06上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。