(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210195321.6 (22)申请日 2022.03.01 (71)申请人 黄连福 地址 361005 福建省厦门市思明区滨 海街 道厦大学生公寓 7号楼513宿舍 (72)发明人 黄连福  (74)专利代理 机构 武汉菲翔 知识产权代理有限 公司 42284 专利代理师 张红 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/289(2020.01) G06F 40/30(2020.01) (54)发明名称 一种基于改进TFIDF的文本特 征选择方法 (57)摘要 本发明公开了一种基于改进TFIDF的文本特 征选择方法, 包括如下改进步骤: 初步修改IDF 公 式; 针对未考虑类间分布的改进; 针对未考虑类 内分布的改进; 针对未考虑文档内分布的改进; 针对词性的改进; 针对被修饰词的改进; 改进TF ‑ IDTF‑WI算法。 本发明通过实验证明相比于传统 的TF‑IDF方法, TF ‑IDTF‑WI算法在文本分类中能 取得更高的准确率, 并且在其它评价指标上也表 现更加出色。 权利要求书3页 说明书11页 附图5页 CN 114547309 A 2022.05.27 CN 114547309 A 1.一种基于改进 TFIDF的文本特 征选择方法, 其特 征在于, 包括如下改进步骤: S1初步修改IDF公式; 在IDF公式中, 并没有考虑类别信息, 而且可能会受到文本中出现次数极少的词的扰 动; 因此, 在这里结合类别信息, 让特征词可以基于不同类别得出不同的IDF值, 使能代表某 类文本的特征词在该类中得到较高的IDF值, 并让一些无关 的特征词得到较低的IDF值, 并 结合词频信息, 防止一些 出现次数较低的特 征词对IDF进行扰动, 新的IDTF公式如下 所示: 其中N代表原始数据集, |N|代表数据集的文档数量, Nj代表原始数据集中所有j类文档 组成的集合, |Nj|代表数据集中j类文档的数量, tf(ti, dk)代表在文档dk中词ti的词频, 代表j类文档中单词ti的平均词频, 代表在非j 类文档中, 对于单词ti, 其词频比j类文档平均词频高的文档数量, 后面+1是为了避免分母 为0; 如果一个特征词在某个类别文档 中的平均词频很高, 在其他类别文档 中的词频不高, 其很有可能是该类文档的关键词, 其IDTF值也就越大, 同时在IDTF公式计数时并不考虑该 类文档, 这样可以让与某一类别有较强关联的特征词拥有更高的IDTF值, 如果一个特征词 在某个类别的平均词频很低, 或者其在所有类别中的平均词频都很高, 比如 “虽然”、“但 是”、“如果”这类词, 可能这个特征词对当前类别关联性就不 强, 其IDT F值也就较低, 如果说 IDF可以衡量一个词语在语料库中的普遍重要性, 那么IDTF则是在衡量一个词语在不同类 别文本中的重要性; S2针对未考虑类间分布的改进; 如果一个特征词在不同类别内的文档中分布均匀, 容易推测出这个特征词对文本分类 任务能起到的作用就比较小, 在特征选择评分时应给予较低的权重, 如果一个特征词在某 些类别中大量出现, 在另一些文本中几乎不怎么出现, 容易推测 这个特征词对文本分类任 务能起到较好的作用, 应给予较高的权 重; 卡法检验(chi ‑square test, x2test)是一种用途非常广泛的假设检验方法, 是统计样 本的实际观测值和假设推断值之 间的偏离程度, 如果卡方值越 大, 二者的偏 差程度越大; 如 果卡方值越小, 二者的偏差程度越小; 若观测值与推断值相等, 卡方值为0, 表 示假设完全符 合, 在考虑特征词在类间分布情况的时候, 我们可以使用卡方检验方法, 作出原假设: 特征 词在所有类别 之间均匀分布, 如果实际情况与假设一致, 那么卡方值就会接近于0, 如果特 征词在类别 之间分布越分散, 那么卡方值就越大, 所以卡方值可以直接用来判断词在类间 的分布情况, 并用做词加权因子; 令词类间卡方值 为: 如果词ti在类别中均匀分布, 表明其在类 间没什么区分度, 就越小, 如果词 ti在类别中分布分散, 值就越大; S3针对未考虑类内分布的改进;权 利 要 求 书 1/3 页 2 CN 114547309 A 2类内分布与类间分布完全相反, 一个词若在类内分布越均匀, 说明其与该类的联系越 强, 应给予较高的权重, 反之, 若一个特征词在类内分布越分散, 说明其与该类的联系较弱, 应给予较低的权 重; 令逆词类内卡方值 为: 其中tf(ti, d)表示特征词ti在文本d中的词频, 表示特征词ti在类别cj中的平均 词频, 如果逆词类内卡方值越大, 则说明特征词在当前类内分布越均匀, 其有较大概率是该 类文本的关键词, 如果逆词类内卡方值越小, 则说明特征词在当前类内分布越分散, 该特征 词与当前类的关联度就可能较低, 对该类文本分类的贡献就较低; S4针对未考虑文档内分布的改进; 在单个文本中, 一个特征词如果在首尾段中均有出现, 其有较大的概率是该文本的主 题词, 应给予较大的权重, 如果一个特征词只集中出现在某个段落中, 其可能只是该段落的 主题, 与文本主题关系不大, 不应给予较大的权 重; 令词跨度系数(W ord Span Factor, WSF)为 其中, fir stPos(ti, dk)为单词ti在文本dk中出现的第一个位置, lastPos(ti, dk)为单词 ti在文本dk中出现的最后一个位置, len(dk)为文本的长度, WSF可以反映词语在 文本中出现 的范围, 通常来说, 词语在文章中分布范围越广, 该词越能代表文章的类型, WSF值也就越 大, 相反, 词语在 文章中的出现范围越集中, 该词可能就不能很好地概括全文主旨, WSF值也 就越小; S5针对词性的改进; 首先从特征词的词性考虑, 文本在经过预处理阶段后会变成一个个词语构成的列表, 这些词按照词性又可以分为名词、 动词、 形容词、 副词、 连词, 在大部分语言中, 一篇文章的 关键词往往是名词或则是动词, 而形容词和副词等往往起到的是一个修饰的作用, 其自身 难以反映文章的内容, 而连接词, 语气词, 量词等更像是一些功能词, 本身并无意思, 基于 此, 文本提出词性系数WCF, 针对不同词性给予不同权 重, WCF公式如下: WCF针对每个词性的具体权重值是基于实验调整得到, 若针对其它语言的文本数据集, 也应当进行调整; S6针对被修饰词的改进; 形容词和副词是中文文本的重要组成部分, 形容词主要用来描述或修饰名词, 表示人 或事物的属性、 性质、 特征、 状态、 形状, 如 “帅气”、“美丽”、“大”、“小”词汇, 副词主要用来修权 利 要 求 书 2/3 页 3 CN 114547309 A 3

.PDF文档 专利 一种基于改进TFIDF的文本特征选择方法

文档预览
中文文档 20 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于改进TFIDF的文本特征选择方法 第 1 页 专利 一种基于改进TFIDF的文本特征选择方法 第 2 页 专利 一种基于改进TFIDF的文本特征选择方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:45:29上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。