国家标准网
文库搜索
切换导航
首页
频道
仅15元无限下载
联系我们
首页
仅15元无限下载
联系我们
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210195321.6 (22)申请日 2022.03.01 (71)申请人 黄连福 地址 361005 福建省厦门市思明区滨 海街 道厦大学生公寓 7号楼513宿舍 (72)发明人 黄连福 (74)专利代理 机构 武汉菲翔 知识产权代理有限 公司 42284 专利代理师 张红 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/289(2020.01) G06F 40/30(2020.01) (54)发明名称 一种基于改进TFIDF的文本特 征选择方法 (57)摘要 本发明公开了一种基于改进TFIDF的文本特 征选择方法, 包括如下改进步骤: 初步修改IDF 公 式; 针对未考虑类间分布的改进; 针对未考虑类 内分布的改进; 针对未考虑文档内分布的改进; 针对词性的改进; 针对被修饰词的改进; 改进TF ‑ IDTF‑WI算法。 本发明通过实验证明相比于传统 的TF‑IDF方法, TF ‑IDTF‑WI算法在文本分类中能 取得更高的准确率, 并且在其它评价指标上也表 现更加出色。 权利要求书3页 说明书11页 附图5页 CN 114547309 A 2022.05.27 CN 114547309 A 1.一种基于改进 TFIDF的文本特 征选择方法, 其特 征在于, 包括如下改进步骤: S1初步修改IDF公式; 在IDF公式中, 并没有考虑类别信息, 而且可能会受到文本中出现次数极少的词的扰 动; 因此, 在这里结合类别信息, 让特征词可以基于不同类别得出不同的IDF值, 使能代表某 类文本的特征词在该类中得到较高的IDF值, 并让一些无关 的特征词得到较低的IDF值, 并 结合词频信息, 防止一些 出现次数较低的特 征词对IDF进行扰动, 新的IDTF公式如下 所示: 其中N代表原始数据集, |N|代表数据集的文档数量, Nj代表原始数据集中所有j类文档 组成的集合, |Nj|代表数据集中j类文档的数量, tf(ti, dk)代表在文档dk中词ti的词频, 代表j类文档中单词ti的平均词频, 代表在非j 类文档中, 对于单词ti, 其词频比j类文档平均词频高的文档数量, 后面+1是为了避免分母 为0; 如果一个特征词在某个类别文档 中的平均词频很高, 在其他类别文档 中的词频不高, 其很有可能是该类文档的关键词, 其IDTF值也就越大, 同时在IDTF公式计数时并不考虑该 类文档, 这样可以让与某一类别有较强关联的特征词拥有更高的IDTF值, 如果一个特征词 在某个类别的平均词频很低, 或者其在所有类别中的平均词频都很高, 比如 “虽然”、“但 是”、“如果”这类词, 可能这个特征词对当前类别关联性就不 强, 其IDT F值也就较低, 如果说 IDF可以衡量一个词语在语料库中的普遍重要性, 那么IDTF则是在衡量一个词语在不同类 别文本中的重要性; S2针对未考虑类间分布的改进; 如果一个特征词在不同类别内的文档中分布均匀, 容易推测出这个特征词对文本分类 任务能起到的作用就比较小, 在特征选择评分时应给予较低的权重, 如果一个特征词在某 些类别中大量出现, 在另一些文本中几乎不怎么出现, 容易推测 这个特征词对文本分类任 务能起到较好的作用, 应给予较高的权 重; 卡法检验(chi ‑square test, x2test)是一种用途非常广泛的假设检验方法, 是统计样 本的实际观测值和假设推断值之 间的偏离程度, 如果卡方值越 大, 二者的偏 差程度越大; 如 果卡方值越小, 二者的偏差程度越小; 若观测值与推断值相等, 卡方值为0, 表 示假设完全符 合, 在考虑特征词在类间分布情况的时候, 我们可以使用卡方检验方法, 作出原假设: 特征 词在所有类别 之间均匀分布, 如果实际情况与假设一致, 那么卡方值就会接近于0, 如果特 征词在类别 之间分布越分散, 那么卡方值就越大, 所以卡方值可以直接用来判断词在类间 的分布情况, 并用做词加权因子; 令词类间卡方值 为: 如果词ti在类别中均匀分布, 表明其在类 间没什么区分度, 就越小, 如果词 ti在类别中分布分散, 值就越大; S3针对未考虑类内分布的改进;权 利 要 求 书 1/3 页 2 CN 114547309 A 2类内分布与类间分布完全相反, 一个词若在类内分布越均匀, 说明其与该类的联系越 强, 应给予较高的权重, 反之, 若一个特征词在类内分布越分散, 说明其与该类的联系较弱, 应给予较低的权 重; 令逆词类内卡方值 为: 其中tf(ti, d)表示特征词ti在文本d中的词频, 表示特征词ti在类别cj中的平均 词频, 如果逆词类内卡方值越大, 则说明特征词在当前类内分布越均匀, 其有较大概率是该 类文本的关键词, 如果逆词类内卡方值越小, 则说明特征词在当前类内分布越分散, 该特征 词与当前类的关联度就可能较低, 对该类文本分类的贡献就较低; S4针对未考虑文档内分布的改进; 在单个文本中, 一个特征词如果在首尾段中均有出现, 其有较大的概率是该文本的主 题词, 应给予较大的权重, 如果一个特征词只集中出现在某个段落中, 其可能只是该段落的 主题, 与文本主题关系不大, 不应给予较大的权 重; 令词跨度系数(W ord Span Factor, WSF)为 其中, fir stPos(ti, dk)为单词ti在文本dk中出现的第一个位置, lastPos(ti, dk)为单词 ti在文本dk中出现的最后一个位置, len(dk)为文本的长度, WSF可以反映词语在 文本中出现 的范围, 通常来说, 词语在文章中分布范围越广, 该词越能代表文章的类型, WSF值也就越 大, 相反, 词语在 文章中的出现范围越集中, 该词可能就不能很好地概括全文主旨, WSF值也 就越小; S5针对词性的改进; 首先从特征词的词性考虑, 文本在经过预处理阶段后会变成一个个词语构成的列表, 这些词按照词性又可以分为名词、 动词、 形容词、 副词、 连词, 在大部分语言中, 一篇文章的 关键词往往是名词或则是动词, 而形容词和副词等往往起到的是一个修饰的作用, 其自身 难以反映文章的内容, 而连接词, 语气词, 量词等更像是一些功能词, 本身并无意思, 基于 此, 文本提出词性系数WCF, 针对不同词性给予不同权 重, WCF公式如下: WCF针对每个词性的具体权重值是基于实验调整得到, 若针对其它语言的文本数据集, 也应当进行调整; S6针对被修饰词的改进; 形容词和副词是中文文本的重要组成部分, 形容词主要用来描述或修饰名词, 表示人 或事物的属性、 性质、 特征、 状态、 形状, 如 “帅气”、“美丽”、“大”、“小”词汇, 副词主要用来修权 利 要 求 书 2/3 页 3 CN 114547309 A 3
专利 一种基于改进TFIDF的文本特征选择方法
文档预览
中文文档
20 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 17:45:29
上传分享
举报
下载
原文档
(1.2 MB)
分享
友情链接
GB-T 38666-2020 信息技术 大数据 工业应用参考架构.pdf
GB-T 30275-2013 信息安全技术 鉴别与授权 认证中间件框架与接口规范.pdf
GB-T 35008-2018 串行NOR型快闪存储器接口规范.pdf
GB-T 41843-2022 功能、残疾、健康分类的康复组合评定.pdf
T-CSTM 00065—2019 丙烯酸催化剂.pdf
斯元商业咨询 网络安全科技供应链报告:厂商成分分析及国产化替代指南 2022.pdf
GB-T 30903-2014 无机化工产品 杂质元素的测定 电感耦合等离子体质谱法(ICP-MS).pdf
DB37-T 3444-2018 学生资助服务规范 山东省.pdf
GB-T 42381.61-2023 数据质量 第61部分:数据质量管理:过程参考模型.pdf
GB-T 41773-2022 信息安全技术 步态识别数据安全要求.pdf
绿盟 2015绿盟科技云安全解决方案.pdf
GB-T 43208.1-2023 信息技术服务 智能运维 第1部分:通用要求.pdf
GB-T 39965-2021 节能量前评估计算方法.pdf
GB-T 32488-2016 球墨铸铁管和管件 水泥砂浆内衬密封涂层.pdf
DB3212-T 1117—2022 政务数据安全风险评估规范 泰州市.pdf
GB-T 29234-2012 基于公用电信网的宽带客户网络安全技术要求.pdf
GB-T 20042.3-2022 质子交换膜燃料电池 第3部分:质子交换膜测试方法.pdf
GB-T 36351.2-2018 信息技术 学习、教育和培训 教育管理数据元素 第2部分:公共数据元素.pdf
CSA 量子时代的区块链.pdf
T-SMA 0021—2021 华东电网跨省关口电能表状态检验与状态更换技术规范.pdf
1
/
3
20
评价文档
赞助2.5元 点击下载(1.2 MB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
点击进入官方售后微信群
支付 完成后 如未跳转 点击这里下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。