(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210298428.3
(22)申请日 2022.03.25
(71)申请人 华南理工大 学
地址 510640 广东省广州市天河区五山路
381号
(72)发明人 胡劲松 冯思铭 李文亮 贺映玲
(74)专利代理 机构 广州市华学知识产权代理有
限公司 4 4245
专利代理师 冯炳辉
(51)Int.Cl.
G06F 40/216(2020.01)
G06F 40/289(2020.01)
G06F 40/242(2020.01)
G06F 40/30(2020.01)
G06F 3/023(2006.01)G10L 15/08(2006.01)
(54)发明名称
一种分级的智能拼音与文字匹配方法
(57)摘要
本发明公开了一种分级的智能拼音与文字
匹配方法, 用于提高撰写专业领域文本时的输入
效率, 减少错误。 在输入文字时, 除了通用的词汇
外, 还涉及专用词汇, 如本地/本机专用词汇、 专
业领域的专业词汇以及本地专业部门特有的场
所名、 特定编号的设备名乃至人名等, 因为同音
字的广泛存在, 常用的拼音输入法匹配这些文字
的错误率比较高, 需要频繁地做选择, 导致输入
效率低下, 本发明提出差频原理, 自动建立本地/
本机专用词库, 以差频专用词汇 为中心匹配拼音
与文字, 采用任意位置转换机制, 通过这些步骤,
可以减少频繁选择同音词组的麻烦, 提高输入效
率。
权利要求书2页 说明书7页 附图1页
CN 114818663 A
2022.07.29
CN 114818663 A
1.一种分级的智能拼音与文字匹配方法, 其特 征在于, 包括:
专用模式选择: 选择是否进入专用词 汇输入模式, 若是, 则进入级别优先匹配, 若不是,
就直接将输入的拼音与词汇的拼音进行匹配, 出现的频率高的词汇优先匹配, 最后余下 的
拼音与单个中文字匹配; 其中, 所述词汇指中文词组, 一个中文词组包括至少2个中文字, 所
述专用词汇包括本地专用词汇和专 业术语, 所述本地专用词汇指仅在本机、 本地局域网、 一
个特定的地 域、 群体或部门中使用的词汇;
级别优先匹配: 设输入的拼音串名为A, A为一个拼音句子, 对应着一个文字句子, A变成
文字的过程中, 优先与差频专用词库的一级子库词汇的拼音匹配, 匹配成功则A的部 分拼音
变成文字, 匹配不 成功再考虑下一级, 直到最后一级子库, 其中, 所述匹配 即求A的一部 分拼
音和某个中文词组或字的正确 拼音之间的相似度, 也简称为拼音与文字或词汇的匹配; 所
述差频专用 词库由分级的专用 词汇及其拼音组成, 词汇的级别由其两个频率的差异决定,
即在专用资料中出现的频率越高该词汇级别越高, 而在通用资料中出现的频率越高该词汇
级别越低, 同级别的专用词汇构成一个子库, 最高级子库为一级子库, 以下依次为二级到最
低级子库;
频率优先匹配: 在级别优先匹配完成之后, 对A余下的拼音与词汇 的拼音进行匹配, 出
现的频率高的词汇优先匹配, 最后余下的拼音与单个中文字匹配。
2.如权利要求1所述的一种分级的智能拼音与文字匹配方法, 其特征在于, 所述差频专
用词库的构建, 包括以下步骤:
S1、 采集专用资料的词汇, 包括本机和本地局域网的专业文件、 本部门的专业文件, 并
搜索网络上的相关专业学术文章;
S2、 对上一步所采集的专用资料的词汇进行清理、 分词操作, 获得词汇列表, 接着对词
汇列表进行词频统计, 得到专用 词频词典; 其中, 词频=该词重复的次数 ×该词长度/全部
资料总字数, 所述专用词频词典包 含了专用资料中出现的全部词汇及其词频;
S3、 采集通用资料的词汇, 包括人民日报语料库、 新浪、 搜狐、 网易三大网站的新闻, 进
行词汇词频统计, 得到通用词频词典, 包 含了通用资料中出现的全部词汇及其词频;
S4、 对专用词频词典的每 个词汇做差频操作, 得到 差频专用词库, 所述差频操作即:
差频值=一个词汇的专用词频-k ×其通用词频, 此处k为固定的系数, 专用词频和通
用词频分别由专用词频词典和通用词频词典得到, 词典中查 不到的词汇, 其词频计为0;
S5、 将差频值排名前25% 的词汇存入一级子库, 26%至50%的词汇存入二级子库, 51%
至75%的词汇存 入三级子库, 其它大于 0的词汇存 入四级, 差频值小于或等于 0的舍去;
S6、 为差频专用词库中每一个词汇关联其对应的拼音, 最终形成面向专业领域的差频
专用词库; 所述差频专用词 库由一、 二、 三、 四级子库组成, 差频值越高的词汇在子库排队越
前面。
3.如权利要求1所述的一种分级的智能拼音与文字匹配方法, 其特征在于, 所述级别优
先匹配的步骤 包括:
逆向取词: 在一级子库内未匹配过的词汇中取差频值最高词汇的拼音, 设其名称为B,
如果一级子库中的词汇都已经进行 过匹配操作则顺延到下一级子库;
任意位置转换文字: 在A中搜索类似于B的子串C, 如果B与C匹配成功, 则将C转换为相应
的中文词组; 如果A中有多个类似于B的子串, 则都要重复上面操作; 所述子串C能够位于A的权 利 要 求 书 1/2 页
2
CN 114818663 A
2任意位置。
4.如权利要求1所述的一种分级的智能拼音与文字匹配方法, 其特征在于, 还包括: 当
输入多于5个句子时, 则 在级别优先匹配之前先进 行主题词确定、 主题词队列排序和主题词
匹配, 具体如下:
主题词确定: 统计前文重复的词 汇及其重复次数; 如果该重复的词汇是差频专用词汇,
则将该词汇加入主题词队列, 否则舍去;
主题词队列排序: 设从开始本次拼音输入启动至当前待识句子为止, 已有n个拼音串被
转换为n个文字句子, 当前待转换拼音 串编号为第n+1句, 则一个重复词汇的主题值 为:
式中, i、 j为该词汇在第i、 j句时重复, 省略号表示其它重复句子, i, j<n; G为该词汇所
属的差频专用词 库的子库的级别, 其取值为 1至4整数; 计算前n个句子中所有主题词的主题
值, 再按主题值从大至小排队, 得到主题词队列;
主题词匹配: 将A与主题词队列进行匹配, 从队列第一个主题词 汇开始, 匹配成功则A的
部分拼音变成文字, 匹配不成功再考虑下一主题词, 直到队列最后一个主题词。
5.如权利要求1或3或4所述的一种分级的智能拼音与文字匹配方法, 其特征在于, 所述
匹配包括如下步骤:
计算字母编 辑距离: 指一个拼音串转换为一个正确的拼音单元所需的最少字母编辑操
作次数; 所述正确的拼音 单元指该单元对应某个汉字的拼音, 许可的编辑操作包括: 插入一
个字母、 删除一个字母、 将一个字母替换成另一个、 两个字母交换位置;
计算音素编辑距离: 指两个拼音串之间, 由一个转换成另一个所需的最少音素编辑操
作次数; 所述音 素指拼音的声母或韵母, 许可的编辑操作包括: 插入一个声母/韵母、 删除一
个声母/韵母、 将一个声母/韵母替换成另一个, 一次模糊音之间的替换只算0.5次;
计算匹配值 =字母编辑距离+音素编辑距离;
如果匹配的是专用词库的词汇, 则当匹配值小于给定阈值时, 给出匹配成功信号, 否则
给出匹配失败信号, 输出匹配值;
如果匹配的是通用词库的词汇, 仅输出匹配值。
6.如权利要求1所述的一种分级的智能拼音与文字匹配方法, 其特征在于, 还包括专用
模式选择自动转换, 包括如下步骤:
S1、 计算用户纠正值: 如果当前输入拼音时弹出的首选词 汇为通用词汇, 用户纠正为专
用词汇, 则本次用户纠正值Z=Z+5-G; 如果输入拼音 时弹出的首选词汇为专用词汇, 用户
纠正为通用词汇, 则本次用户值Z=Z-5+G; 其中, G为该词汇所属的差频专用词库的子库的
级别, 其取值 为1至4整数;
S2、 如用户纠正值大于设定值, 则当前模式转为专用模式, 如用户纠正值小于设定值的
负数, 则当前模式转 为通用模式。权 利 要 求 书 2/2 页
3
CN 114818663 A
3
专利 一种分级的智能拼音与文字匹配方法
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:44:29上传分享