专利一种基于多工具的自然语言处理方法、设备及介质 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210209091.4 (22)申请日 2022.03.03 (71)申请人戎行技术有限公司地址 300143 天津市河北区铁东路街道志成路130号(自创区河北分园科技招商展示服务中心407-1室) (72)发明人赵志庆　侯玉柱　王巍　张雨铭威　董席峰　刘孟　 (74)专利代理机构济南千慧专利事务所(普通合伙企业) 37232 专利代理师傅静 (51)Int.Cl. G06F 40/268(2020.01) G06F 40/289(2020.01) G06F 40/30(2020.01)G06K 9/62(2022.01) G06N 20/00(2019.01) (54)发明名称一种基于多工具的自然语言处理方法、设备及介质 (57)摘要本申请公开了一种基于多工具的自然语言处理方法、设备及介质，方法包括：获取多个开源 NLP工具；将特定语言划分成与特定语言适配的多个维度；确定预先获取的训练样本，训练样本中，至少部分结构以特定语言的形式体现；针对每个开源NLP工具，使用其对训练样本进行自然语言处理分析，以将训练样本在每个维度下进行分析，得到多个维度分别对应的分析结果；针对每个维度，获取多个开源NLP工具在该维度下的分析结果，以训练得到该维度对应的NLP维度模型；根据多个NLP维度模型，实现对特定语言的自然语言处理。通过多个开源NLP工具进行自然语言处理，得到特定语言在多个维度下的分析结果，解决使用单一基础NLP工具分析准确性较低的问题，提升了可用性。权利要求书2页说明书7页附图2页 CN 114580387 A 2022.06.03 CN 114580387 A 1.一种基于多工具的自然语言处理方法，其特征在于，包括：获取多个开源N LP工具，所述开源NLP工具支持对特定语言进行处理；根据所述特定语言的属性，将所述特定语言划分成与所述特定语言适配的多个维度；确定预先获取的训练样本，所述训练样本中，至少部分结构以所述特定语言的形式体现；针对每个所述开源NLP工具，使用其对所述训练样本进行自然语言处理分析，以将所述训练样本在每个所述维度下进行分析，得到所述多个维度分别对应的分析结果；针对每个所述维度，获取所述多个开源NLP工具在该维度下的所述分析结果，以训练得到该维度对应的N LP维度模型；根据多个所述 NLP维度模型，实现对所述特定语言的自然语言处理。 2.如权利要求1所述的方法，其特征在于，所述特定语言为汉语，所述维度包括语言词性维度；所述针对每个所述开源NLP工具，使用其对所述训练样本进行自然语言处理分析，以将所述训练样本在每个所述维度下进行分析，得到所述多个维度分别对应的分析结果，具体包括：针对每个所述开源NLP工具，使用其对所述训练样本进行自然语言处理分析，以将所述训练样本在所述语言词性维度下进行分析，得到所述语言词性维度对应的第一分析结果；将所述第一分析结果作为影响因子，将所述训练样本在其他维度下进行分析，得到所述其他维度对应的第二分析结果，以便通过所述第一分析结果和所述第二分析结果训练得到不同维度对应的N LP维度模型。 3.如权利要求2所述的方法，其特征在于，所述将所述第一分析结果作为影响因子，将所述训练样本在其他维度下进行分析，得到所述其他维度对应的第二分析结果，具体包括：根据所述第一分析结果，确定所述训练样本中，所述语言词性维度为停用词的指定词语；将所述指定词语替换为分隔符，以对通过所述分隔符分隔得到的其他词语，在其他维度下进行分析，得到所述其他维度对应的第二分析结果。 4.如权利要求3所述的方法，其特征在于，所述通过所述分隔符分隔得到的其他词语，在其他维度下进行分析，得到所述其他维度对应的第二分析结果，具体包括：确定通过所述分隔符分隔得到的其他词语；针对所述其他词语中的至少部分词语，在实体类型维度，和/或，情感分析维度，进行分析，得到所述实体类型维度，和/或，所述情感分析维度分别对应的第二分析结果。 5.如权利要求1所述的方法，其特征在于，所述根据多个所述NLP维度模型，实现对所述特定语言的自然语言处理，具体包括：根据用户需求，在多个所述NLP维度模型中选择所需的NLP维度模型，并通过所述所需的NLP维度模型，实现对所述特定语言的自然语言处理。 6.如权利要求1所述的方法，其特征在于，所述训练得到该维度对应的NLP维度模型，具体包括：确定该维度与各所述开源NLP工具之间的关联等级；根据所述关联等级，确定各所述开源NLP工具在该维度中所占的占权重，所述关联等级权　利　要　求　书 1/2 页 2 CN 114580387 A 2和所述权重呈正相关；根据所述权重，在该维度中各所述开源NLP工具对应的分析结果选取部分分析结果，用于训练得到该维度对应的N LP维度模型。 7.如权利要求1所述的方法，其特征在于，所述得到所述多个维度分别对应的分析结果之后，所述方法还包括：将所述分析结果存储至基于指定搜索库的分布式搜索服务器存储中，所述指定搜索库为全文检索引擎的架构。 8.如权利要求2所述的方法，其特征在于，所述开源自然语言处理工具包括 StanfordN LP模型、 Fudan NLP模型、 HaN LP模型中的至少一种。 9.一种基于多工具的自然语言处理设备，其特征在于，包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如：获取多个开源N LP工具，所述开源NLP工具支持对特定语言进行处理；根据所述特定语言的属性，将所述特定语言划分成与所述特定语言适配的多个维度；确定预先获取的训练样本，所述训练样本中，至少部分结构以所述特定语言的形式体现；针对每个所述开源NLP工具，使用其对所述训练样本进行自然语言处理分析，以将所述训练样本在每个所述维度下进行分析，得到所述多个维度分别对应的分析结果；针对每个所述维度，获取所述多个开源NLP工具在该维度下的所述分析结果，以训练得到该维度对应的N LP维度模型；根据多个所述 NLP维度模型，实现对所述特定语言的自然语言处理。 10.一种非易失性计算机存储介质，存储有计算机可执行指令，其特征在于，所述计算机可执行指令设置为：获取多个开源N LP工具，所述开源NLP工具支持对特定语言进行处理；根据所述特定语言的属性，将所述特定语言划分成与所述特定语言适配的多个维度；确定预先获取的训练样本，所述训练样本中，至少部分结构以所述特定语言的形式体现；针对每个所述开源NLP工具，使用其对所述训练样本进行自然语言处理分析，以将所述训练样本在每个所述维度下进行分析，得到所述多个维度分别对应的分析结果；针对每个所述维度，获取所述多个开源NLP工具在该维度下的所述分析结果，以训练得到该维度对应的N LP维度模型；根据多个所述 NLP维度模型，实现对所述特定语言的自然语言处理。权　利　要　求　书 2/2 页 3 CN 114580387 A 3

专利 一种基于多工具的自然语言处理方法、设备及介质

专利一种基于多工具的自然语言处理方法、设备及介质