(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210209091.4
(22)申请日 2022.03.03
(71)申请人 戎行技术有限公司
地址 300143 天津市河北区铁东路街道 志
成路130号(自创区河北分园科技招商
展示服务中心407-1室)
(72)发明人 赵志庆 侯玉柱 王巍 张雨铭威
董席峰 刘孟
(74)专利代理 机构 济南千慧专利事务所(普通
合伙企业) 37232
专利代理师 傅静
(51)Int.Cl.
G06F 40/268(2020.01)
G06F 40/289(2020.01)
G06F 40/30(2020.01)G06K 9/62(2022.01)
G06N 20/00(2019.01)
(54)发明名称
一种基于多工具的自然语 言处理方法、 设备
及介质
(57)摘要
本申请公开了一种基于多工具的自然语言
处理方法、 设备及介质, 方法包括: 获取多个开源
NLP工具; 将特定语言划分成与特定语言适配的
多个维度; 确定预先获取的训练样本, 训练样本
中, 至少部分结构以特定语言的形式体现; 针对
每个开源NLP工具, 使用其对训练样本进行自然
语言处理分析, 以将训练样本在每个维度下进行
分析, 得到多个维度分别对应的分析结果; 针对
每个维度, 获取多个开源NLP工具在该维度下的
分析结果, 以训练得到该维度对应的NLP维度模
型; 根据多个NLP维度模型, 实现对特定语言的自
然语言处理。 通过多个开源NLP工具进行自然语
言处理, 得到特定语言在多个维度下的分析结
果, 解决使用单一基础NLP工具分析准确性较低
的问题, 提升 了可用性。
权利要求书2页 说明书7页 附图2页
CN 114580387 A
2022.06.03
CN 114580387 A
1.一种基于多工具的自然语言处 理方法, 其特 征在于, 包括:
获取多个开源N LP工具, 所述 开源NLP工具支持对特定语言进行处 理;
根据所述特定语言的属性, 将所述特定语言划分成与所述特定语言适配的多个维度;
确定预先获取的训练样本, 所述训练样本中, 至少部分结构以所述特定语言的形式体
现;
针对每个所述开源NLP工具, 使用其对所述训练样本进行自然语言处理分析, 以将所述
训练样本在每 个所述维度下进行分析, 得到所述多个维度分别对应的分析 结果;
针对每个所述维度, 获取所述多个开源NLP工具在该维度下的所述分析结果, 以训练得
到该维度对应的N LP维度模型;
根据多个所述 NLP维度模型, 实现对所述特定语言的自然语言处 理。
2.如权利要求1所述的方法, 其特征在于, 所述特定语言为汉语, 所述维度包括语言词
性维度;
所述针对每个所述开源NLP工具, 使用其对所述训练样本进行自然语言处理分析, 以将
所述训练样本在每个所述维度下进行分析, 得到所述多个维度分别对应的分析结果, 具体
包括:
针对每个所述开源NLP工具, 使用其对所述训练样本进行自然语言处理分析, 以将所述
训练样本在所述语言词性维度下进行分析, 得到所述语言词性维度对应的第一分析 结果;
将所述第一分析结果作为影响因子, 将所述训练样本在其他维度下进行分析, 得到所
述其他维度对应的第二分析结果, 以便通过所述第一分析结果和所述第二分析结果训练得
到不同维度对应的N LP维度模型。
3.如权利要求2所述的方法, 其特征在于, 所述将所述第一分析结果作为影响因子, 将
所述训练样本在其 他维度下进行分析, 得到所述 其他维度对应的第二分析 结果, 具体包括:
根据所述第一分析结果, 确定所述训练样本中, 所述语言词性维度为停用词的指定词
语;
将所述指定词语替换为分隔符, 以对通过所述分隔符分隔得到的其他词语, 在其他维
度下进行分析, 得到所述 其他维度对应的第二分析 结果。
4.如权利要求3所述的方法, 其特征在于, 所述通过所述分隔符分隔得到的其他词语,
在其他维度下进行分析, 得到所述 其他维度对应的第二分析 结果, 具体包括:
确定通过 所述分隔符分隔得到的其 他词语;
针对所述其他词语 中的至少部分词语, 在实体类型维度, 和/或, 情 感分析维度, 进行分
析, 得到所述实体 类型维度, 和/或, 所述情感分析维度分别对应的第二分析 结果。
5.如权利要求1所述的方法, 其特征在于, 所述根据多个所述NLP维度模型, 实现对所述
特定语言的自然语言处 理, 具体包括:
根据用户需求, 在多个所述NLP维度模型中选择所需的NLP维度模型, 并通过所述所需
的NLP维度模型, 实现对所述特定语言的自然语言处 理。
6.如权利要求1所述的方法, 其特征在于, 所述训练得到该维度对应的NLP维度模型, 具
体包括:
确定该维度与各 所述开源NLP工具之间的关联等级;
根据所述关联等级, 确定各所述开源NLP工具在该维度中所占的占权重, 所述关联等级权 利 要 求 书 1/2 页
2
CN 114580387 A
2和所述权 重呈正相关;
根据所述权重, 在该维度中各所述开源NLP工具对应的分析结果选取部分分析结果, 用
于训练得到该维度对应的N LP维度模型。
7.如权利要求1所述的方法, 其特征在于, 所述得到所述多个维度分别对应的分析结果
之后, 所述方法还 包括:
将所述分析结果存储至基于指定搜索库的分布式搜索服务器存储中, 所述指定搜索库
为全文检索引擎的架构。
8.如权利要求2所述的方法, 其特征在于, 所述开源自然语言处理工具包括
StanfordN LP模型、 Fudan NLP模型、 HaN LP模型中的至少一种。
9.一种基于多工具的自然语言处 理设备, 其特 征在于, 包括:
至少一个处 理器; 以及,
与所述至少一个处 理器通信连接的存 储器; 其中,
所述存储器存储有可被所述至少一个处理器执行的指令, 所述指令被所述至少一个处
理器执行, 以使所述至少一个处 理器能够执 行如:
获取多个开源N LP工具, 所述 开源NLP工具支持对特定语言进行处 理;
根据所述特定语言的属性, 将所述特定语言划分成与所述特定语言适配的多个维度;
确定预先获取的训练样本, 所述训练样本中, 至少部分结构以所述特定语言的形式体
现;
针对每个所述开源NLP工具, 使用其对所述训练样本进行自然语言处理分析, 以将所述
训练样本在每 个所述维度下进行分析, 得到所述多个维度分别对应的分析 结果;
针对每个所述维度, 获取所述多个开源NLP工具在该维度下的所述分析结果, 以训练得
到该维度对应的N LP维度模型;
根据多个所述 NLP维度模型, 实现对所述特定语言的自然语言处 理。
10.一种非易失性计算机存储介质, 存储有计算机可执行指令, 其特征在于, 所述计算
机可执行指令设置为:
获取多个开源N LP工具, 所述 开源NLP工具支持对特定语言进行处 理;
根据所述特定语言的属性, 将所述特定语言划分成与所述特定语言适配的多个维度;
确定预先获取的训练样本, 所述训练样本中, 至少部分结构以所述特定语言的形式体
现;
针对每个所述开源NLP工具, 使用其对所述训练样本进行自然语言处理分析, 以将所述
训练样本在每 个所述维度下进行分析, 得到所述多个维度分别对应的分析 结果;
针对每个所述维度, 获取所述多个开源NLP工具在该维度下的所述分析结果, 以训练得
到该维度对应的N LP维度模型;
根据多个所述 NLP维度模型, 实现对所述特定语言的自然语言处 理。权 利 要 求 书 2/2 页
3
CN 114580387 A
3
专利 一种基于多工具的自然语言处理方法、设备及介质
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:45:06上传分享