(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210298428.3 (22)申请日 2022.03.25 (71)申请人 华南理工大 学 地址 510640 广东省广州市天河区五山路 381号 (72)发明人 胡劲松 冯思铭 李文亮 贺映玲  (74)专利代理 机构 广州市华学知识产权代理有 限公司 4 4245 专利代理师 冯炳辉 (51)Int.Cl. G06F 40/216(2020.01) G06F 40/289(2020.01) G06F 40/242(2020.01) G06F 40/30(2020.01) G06F 3/023(2006.01)G10L 15/08(2006.01) (54)发明名称 一种分级的智能拼音与文字匹配方法 (57)摘要 本发明公开了一种分级的智能拼音与文字 匹配方法, 用于提高撰写专业领域文本时的输入 效率, 减少错误。 在输入文字时, 除了通用的词汇 外, 还涉及专用词汇, 如本地/本机专用词汇、 专 业领域的专业词汇以及本地专业部门特有的场 所名、 特定编号的设备名乃至人名等, 因为同音 字的广泛存在, 常用的拼音输入法匹配这些文字 的错误率比较高, 需要频繁地做选择, 导致输入 效率低下, 本发明提出差频原理, 自动建立本地/ 本机专用词库, 以差频专用词汇 为中心匹配拼音 与文字, 采用任意位置转换机制, 通过这些步骤, 可以减少频繁选择同音词组的麻烦, 提高输入效 率。 权利要求书2页 说明书7页 附图1页 CN 114818663 A 2022.07.29 CN 114818663 A 1.一种分级的智能拼音与文字匹配方法, 其特 征在于, 包括: 专用模式选择: 选择是否进入专用词 汇输入模式, 若是, 则进入级别优先匹配, 若不是, 就直接将输入的拼音与词汇的拼音进行匹配, 出现的频率高的词汇优先匹配, 最后余下 的 拼音与单个中文字匹配; 其中, 所述词汇指中文词组, 一个中文词组包括至少2个中文字, 所 述专用词汇包括本地专用词汇和专 业术语, 所述本地专用词汇指仅在本机、 本地局域网、 一 个特定的地 域、 群体或部门中使用的词汇; 级别优先匹配: 设输入的拼音串名为A, A为一个拼音句子, 对应着一个文字句子, A变成 文字的过程中, 优先与差频专用词库的一级子库词汇的拼音匹配, 匹配成功则A的部 分拼音 变成文字, 匹配不 成功再考虑下一级, 直到最后一级子库, 其中, 所述匹配 即求A的一部 分拼 音和某个中文词组或字的正确 拼音之间的相似度, 也简称为拼音与文字或词汇的匹配; 所 述差频专用 词库由分级的专用 词汇及其拼音组成, 词汇的级别由其两个频率的差异决定, 即在专用资料中出现的频率越高该词汇级别越高, 而在通用资料中出现的频率越高该词汇 级别越低, 同级别的专用词汇构成一个子库, 最高级子库为一级子库, 以下依次为二级到最 低级子库; 频率优先匹配: 在级别优先匹配完成之后, 对A余下的拼音与词汇 的拼音进行匹配, 出 现的频率高的词汇优先匹配, 最后余下的拼音与单个中文字匹配。 2.如权利要求1所述的一种分级的智能拼音与文字匹配方法, 其特征在于, 所述差频专 用词库的构建, 包括以下步骤: S1、 采集专用资料的词汇, 包括本机和本地局域网的专业文件、 本部门的专业文件, 并 搜索网络上的相关专业学术文章; S2、 对上一步所采集的专用资料的词汇进行清理、 分词操作, 获得词汇列表, 接着对词 汇列表进行词频统计, 得到专用 词频词典; 其中, 词频=该词重复的次数 ×该词长度/全部 资料总字数, 所述专用词频词典包 含了专用资料中出现的全部词汇及其词频; S3、 采集通用资料的词汇, 包括人民日报语料库、 新浪、 搜狐、 网易三大网站的新闻, 进 行词汇词频统计, 得到通用词频词典, 包 含了通用资料中出现的全部词汇及其词频; S4、 对专用词频词典的每 个词汇做差频操作, 得到 差频专用词库, 所述差频操作即: 差频值=一个词汇的专用词频-k ×其通用词频, 此处k为固定的系数, 专用词频和通 用词频分别由专用词频词典和通用词频词典得到, 词典中查 不到的词汇, 其词频计为0; S5、 将差频值排名前25% 的词汇存入一级子库, 26%至50%的词汇存入二级子库, 51% 至75%的词汇存 入三级子库, 其它大于 0的词汇存 入四级, 差频值小于或等于 0的舍去; S6、 为差频专用词库中每一个词汇关联其对应的拼音, 最终形成面向专业领域的差频 专用词库; 所述差频专用词 库由一、 二、 三、 四级子库组成, 差频值越高的词汇在子库排队越 前面。 3.如权利要求1所述的一种分级的智能拼音与文字匹配方法, 其特征在于, 所述级别优 先匹配的步骤 包括: 逆向取词: 在一级子库内未匹配过的词汇中取差频值最高词汇的拼音, 设其名称为B, 如果一级子库中的词汇都已经进行 过匹配操作则顺延到下一级子库; 任意位置转换文字: 在A中搜索类似于B的子串C, 如果B与C匹配成功, 则将C转换为相应 的中文词组; 如果A中有多个类似于B的子串, 则都要重复上面操作; 所述子串C能够位于A的权 利 要 求 书 1/2 页 2 CN 114818663 A 2任意位置。 4.如权利要求1所述的一种分级的智能拼音与文字匹配方法, 其特征在于, 还包括: 当 输入多于5个句子时, 则 在级别优先匹配之前先进 行主题词确定、 主题词队列排序和主题词 匹配, 具体如下: 主题词确定: 统计前文重复的词 汇及其重复次数; 如果该重复的词汇是差频专用词汇, 则将该词汇加入主题词队列, 否则舍去; 主题词队列排序: 设从开始本次拼音输入启动至当前待识句子为止, 已有n个拼音串被 转换为n个文字句子, 当前待转换拼音 串编号为第n+1句, 则一个重复词汇的主题值 为: 式中, i、 j为该词汇在第i、 j句时重复, 省略号表示其它重复句子, i, j<n; G为该词汇所 属的差频专用词 库的子库的级别, 其取值为 1至4整数; 计算前n个句子中所有主题词的主题 值, 再按主题值从大至小排队, 得到主题词队列; 主题词匹配: 将A与主题词队列进行匹配, 从队列第一个主题词 汇开始, 匹配成功则A的 部分拼音变成文字, 匹配不成功再考虑下一主题词, 直到队列最后一个主题词。 5.如权利要求1或3或4所述的一种分级的智能拼音与文字匹配方法, 其特征在于, 所述 匹配包括如下步骤: 计算字母编 辑距离: 指一个拼音串转换为一个正确的拼音单元所需的最少字母编辑操 作次数; 所述正确的拼音 单元指该单元对应某个汉字的拼音, 许可的编辑操作包括: 插入一 个字母、 删除一个字母、 将一个字母替换成另一个、 两个字母交换位置; 计算音素编辑距离: 指两个拼音串之间, 由一个转换成另一个所需的最少音素编辑操 作次数; 所述音 素指拼音的声母或韵母, 许可的编辑操作包括: 插入一个声母/韵母、 删除一 个声母/韵母、 将一个声母/韵母替换成另一个, 一次模糊音之间的替换只算0.5次; 计算匹配值 =字母编辑距离+音素编辑距离; 如果匹配的是专用词库的词汇, 则当匹配值小于给定阈值时, 给出匹配成功信号, 否则 给出匹配失败信号, 输出匹配值; 如果匹配的是通用词库的词汇, 仅输出匹配值。 6.如权利要求1所述的一种分级的智能拼音与文字匹配方法, 其特征在于, 还包括专用 模式选择自动转换, 包括如下步骤: S1、 计算用户纠正值: 如果当前输入拼音时弹出的首选词 汇为通用词汇, 用户纠正为专 用词汇, 则本次用户纠正值Z=Z+5-G; 如果输入拼音 时弹出的首选词汇为专用词汇, 用户 纠正为通用词汇, 则本次用户值Z=Z-5+G; 其中, G为该词汇所属的差频专用词库的子库的 级别, 其取值 为1至4整数; S2、 如用户纠正值大于设定值, 则当前模式转为专用模式, 如用户纠正值小于设定值的 负数, 则当前模式转 为通用模式。权 利 要 求 书 2/2 页 3 CN 114818663 A 3

.PDF文档 专利 一种分级的智能拼音与文字匹配方法

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种分级的智能拼音与文字匹配方法 第 1 页 专利 一种分级的智能拼音与文字匹配方法 第 2 页 专利 一种分级的智能拼音与文字匹配方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:44:29上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。