专利一种分级的智能拼音与文字匹配方法 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210298428.3 (22)申请日 2022.03.25 (71)申请人华南理工大学地址 510640 广东省广州市天河区五山路 381号 (72)发明人胡劲松　冯思铭　李文亮　贺映玲　 (74)专利代理机构广州市华学知识产权代理有限公司 4 4245 专利代理师冯炳辉 (51)Int.Cl. G06F 40/216(2020.01) G06F 40/289(2020.01) G06F 40/242(2020.01) G06F 40/30(2020.01) G06F 3/023(2006.01)G10L 15/08(2006.01) (54)发明名称一种分级的智能拼音与文字匹配方法 (57)摘要本发明公开了一种分级的智能拼音与文字匹配方法，用于提高撰写专业领域文本时的输入效率，减少错误。在输入文字时，除了通用的词汇外，还涉及专用词汇，如本地/本机专用词汇、专业领域的专业词汇以及本地专业部门特有的场所名、特定编号的设备名乃至人名等，因为同音字的广泛存在，常用的拼音输入法匹配这些文字的错误率比较高，需要频繁地做选择，导致输入效率低下，本发明提出差频原理，自动建立本地/ 本机专用词库，以差频专用词汇为中心匹配拼音与文字，采用任意位置转换机制，通过这些步骤，可以减少频繁选择同音词组的麻烦，提高输入效率。权利要求书2页说明书7页附图1页 CN 114818663 A 2022.07.29 CN 114818663 A 1.一种分级的智能拼音与文字匹配方法，其特征在于，包括：专用模式选择：选择是否进入专用词汇输入模式，若是，则进入级别优先匹配，若不是，就直接将输入的拼音与词汇的拼音进行匹配，出现的频率高的词汇优先匹配，最后余下的拼音与单个中文字匹配；其中，所述词汇指中文词组，一个中文词组包括至少2个中文字，所述专用词汇包括本地专用词汇和专业术语，所述本地专用词汇指仅在本机、本地局域网、一个特定的地域、群体或部门中使用的词汇；级别优先匹配：设输入的拼音串名为A， A为一个拼音句子，对应着一个文字句子， A变成文字的过程中，优先与差频专用词库的一级子库词汇的拼音匹配，匹配成功则A的部分拼音变成文字，匹配不成功再考虑下一级，直到最后一级子库，其中，所述匹配即求A的一部分拼音和某个中文词组或字的正确拼音之间的相似度，也简称为拼音与文字或词汇的匹配；所述差频专用词库由分级的专用词汇及其拼音组成，词汇的级别由其两个频率的差异决定，即在专用资料中出现的频率越高该词汇级别越高，而在通用资料中出现的频率越高该词汇级别越低，同级别的专用词汇构成一个子库，最高级子库为一级子库，以下依次为二级到最低级子库；频率优先匹配：在级别优先匹配完成之后，对A余下的拼音与词汇的拼音进行匹配，出现的频率高的词汇优先匹配，最后余下的拼音与单个中文字匹配。 2.如权利要求1所述的一种分级的智能拼音与文字匹配方法，其特征在于，所述差频专用词库的构建，包括以下步骤： S1、采集专用资料的词汇，包括本机和本地局域网的专业文件、本部门的专业文件，并搜索网络上的相关专业学术文章； S2、对上一步所采集的专用资料的词汇进行清理、分词操作，获得词汇列表，接着对词汇列表进行词频统计，得到专用词频词典；其中，词频＝该词重复的次数 ×该词长度/全部资料总字数，所述专用词频词典包含了专用资料中出现的全部词汇及其词频； S3、采集通用资料的词汇，包括人民日报语料库、新浪、搜狐、网易三大网站的新闻，进行词汇词频统计，得到通用词频词典，包含了通用资料中出现的全部词汇及其词频； S4、对专用词频词典的每个词汇做差频操作，得到差频专用词库，所述差频操作即：差频值＝一个词汇的专用词频－k ×其通用词频，此处k为固定的系数，专用词频和通用词频分别由专用词频词典和通用词频词典得到，词典中查不到的词汇，其词频计为0； S5、将差频值排名前25％的词汇存入一级子库， 26％至50％的词汇存入二级子库， 51％至75％的词汇存入三级子库，其它大于 0的词汇存入四级，差频值小于或等于 0的舍去； S6、为差频专用词库中每一个词汇关联其对应的拼音，最终形成面向专业领域的差频专用词库；所述差频专用词库由一、二、三、四级子库组成，差频值越高的词汇在子库排队越前面。 3.如权利要求1所述的一种分级的智能拼音与文字匹配方法，其特征在于，所述级别优先匹配的步骤包括：逆向取词：在一级子库内未匹配过的词汇中取差频值最高词汇的拼音，设其名称为B，如果一级子库中的词汇都已经进行过匹配操作则顺延到下一级子库；任意位置转换文字：在A中搜索类似于B的子串C，如果B与C匹配成功，则将C转换为相应的中文词组；如果A中有多个类似于B的子串，则都要重复上面操作；所述子串C能够位于A的权　利　要　求　书 1/2 页 2 CN 114818663 A 2任意位置。 4.如权利要求1所述的一种分级的智能拼音与文字匹配方法，其特征在于，还包括：当输入多于5个句子时，则在级别优先匹配之前先进行主题词确定、主题词队列排序和主题词匹配，具体如下：主题词确定：统计前文重复的词汇及其重复次数；如果该重复的词汇是差频专用词汇，则将该词汇加入主题词队列，否则舍去；主题词队列排序：设从开始本次拼音输入启动至当前待识句子为止，已有n个拼音串被转换为n个文字句子，当前待转换拼音串编号为第n+1句，则一个重复词汇的主题值为：式中， i、 j为该词汇在第i、 j句时重复，省略号表示其它重复句子， i， j＜n； G为该词汇所属的差频专用词库的子库的级别，其取值为 1至4整数；计算前n个句子中所有主题词的主题值，再按主题值从大至小排队，得到主题词队列；主题词匹配：将A与主题词队列进行匹配，从队列第一个主题词汇开始，匹配成功则A的部分拼音变成文字，匹配不成功再考虑下一主题词，直到队列最后一个主题词。 5.如权利要求1或3或4所述的一种分级的智能拼音与文字匹配方法，其特征在于，所述匹配包括如下步骤：计算字母编辑距离：指一个拼音串转换为一个正确的拼音单元所需的最少字母编辑操作次数；所述正确的拼音单元指该单元对应某个汉字的拼音，许可的编辑操作包括：插入一个字母、删除一个字母、将一个字母替换成另一个、两个字母交换位置；计算音素编辑距离：指两个拼音串之间，由一个转换成另一个所需的最少音素编辑操作次数；所述音素指拼音的声母或韵母，许可的编辑操作包括：插入一个声母/韵母、删除一个声母/韵母、将一个声母/韵母替换成另一个，一次模糊音之间的替换只算0.5次；计算匹配值＝字母编辑距离+音素编辑距离；如果匹配的是专用词库的词汇，则当匹配值小于给定阈值时，给出匹配成功信号，否则给出匹配失败信号，输出匹配值；如果匹配的是通用词库的词汇，仅输出匹配值。 6.如权利要求1所述的一种分级的智能拼音与文字匹配方法，其特征在于，还包括专用模式选择自动转换，包括如下步骤： S1、计算用户纠正值：如果当前输入拼音时弹出的首选词汇为通用词汇，用户纠正为专用词汇，则本次用户纠正值Z＝Z+5－G；如果输入拼音时弹出的首选词汇为专用词汇，用户纠正为通用词汇，则本次用户值Z＝Z－5+G；其中， G为该词汇所属的差频专用词库的子库的级别，其取值为1至4整数； S2、如用户纠正值大于设定值，则当前模式转为专用模式，如用户纠正值小于设定值的负数，则当前模式转为通用模式。权　利　要　求　书 2/2 页 3 CN 114818663 A 3

专利 一种分级的智能拼音与文字匹配方法

专利一种分级的智能拼音与文字匹配方法