专利一种基于改进TFIDF的文本特征选择方法 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210195321.6 (22)申请日 2022.03.01 (71)申请人黄连福地址 361005 福建省厦门市思明区滨海街道厦大学生公寓 7号楼513宿舍 (72)发明人黄连福　 (74)专利代理机构武汉菲翔知识产权代理有限公司 42284 专利代理师张红 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/289(2020.01) G06F 40/30(2020.01) (54)发明名称一种基于改进TFIDF的文本特征选择方法 (57)摘要本发明公开了一种基于改进TFIDF的文本特征选择方法，包括如下改进步骤：初步修改IDF 公式；针对未考虑类间分布的改进；针对未考虑类内分布的改进；针对未考虑文档内分布的改进；针对词性的改进；针对被修饰词的改进；改进TF ‑ IDTF‑WI算法。本发明通过实验证明相比于传统的TF‑IDF方法， TF ‑IDTF‑WI算法在文本分类中能取得更高的准确率，并且在其它评价指标上也表现更加出色。权利要求书3页说明书11页附图5页 CN 114547309 A 2022.05.27 CN 114547309 A 1.一种基于改进 TFIDF的文本特征选择方法，其特征在于，包括如下改进步骤： S1初步修改IDF公式；在IDF公式中，并没有考虑类别信息，而且可能会受到文本中出现次数极少的词的扰动；因此，在这里结合类别信息，让特征词可以基于不同类别得出不同的IDF值，使能代表某类文本的特征词在该类中得到较高的IDF值，并让一些无关的特征词得到较低的IDF值，并结合词频信息，防止一些出现次数较低的特征词对IDF进行扰动，新的IDTF公式如下所示：其中N代表原始数据集， |N|代表数据集的文档数量， Nj代表原始数据集中所有j类文档组成的集合， |Nj|代表数据集中j类文档的数量， tf(ti， dk)代表在文档dk中词ti的词频，代表j类文档中单词ti的平均词频，代表在非j 类文档中，对于单词ti，其词频比j类文档平均词频高的文档数量，后面+1是为了避免分母为0；如果一个特征词在某个类别文档中的平均词频很高，在其他类别文档中的词频不高，其很有可能是该类文档的关键词，其IDTF值也就越大，同时在IDTF公式计数时并不考虑该类文档，这样可以让与某一类别有较强关联的特征词拥有更高的IDTF值，如果一个特征词在某个类别的平均词频很低，或者其在所有类别中的平均词频都很高，比如 “虽然”、“但是”、“如果”这类词，可能这个特征词对当前类别关联性就不强，其IDT F值也就较低，如果说 IDF可以衡量一个词语在语料库中的普遍重要性，那么IDTF则是在衡量一个词语在不同类别文本中的重要性； S2针对未考虑类间分布的改进；如果一个特征词在不同类别内的文档中分布均匀，容易推测出这个特征词对文本分类任务能起到的作用就比较小，在特征选择评分时应给予较低的权重，如果一个特征词在某些类别中大量出现，在另一些文本中几乎不怎么出现，容易推测这个特征词对文本分类任务能起到较好的作用，应给予较高的权重；卡法检验(chi ‑square test， x2test)是一种用途非常广泛的假设检验方法，是统计样本的实际观测值和假设推断值之间的偏离程度，如果卡方值越大，二者的偏差程度越大；如果卡方值越小，二者的偏差程度越小；若观测值与推断值相等，卡方值为0，表示假设完全符合，在考虑特征词在类间分布情况的时候，我们可以使用卡方检验方法，作出原假设：特征词在所有类别之间均匀分布，如果实际情况与假设一致，那么卡方值就会接近于0，如果特征词在类别之间分布越分散，那么卡方值就越大，所以卡方值可以直接用来判断词在类间的分布情况，并用做词加权因子；令词类间卡方值为：如果词ti在类别中均匀分布，表明其在类间没什么区分度，就越小，如果词 ti在类别中分布分散，值就越大； S3针对未考虑类内分布的改进；权　利　要　求　书 1/3 页 2 CN 114547309 A 2类内分布与类间分布完全相反，一个词若在类内分布越均匀，说明其与该类的联系越强，应给予较高的权重，反之，若一个特征词在类内分布越分散，说明其与该类的联系较弱，应给予较低的权重；令逆词类内卡方值为：其中tf(ti， d)表示特征词ti在文本d中的词频，表示特征词ti在类别cj中的平均词频，如果逆词类内卡方值越大，则说明特征词在当前类内分布越均匀，其有较大概率是该类文本的关键词，如果逆词类内卡方值越小，则说明特征词在当前类内分布越分散，该特征词与当前类的关联度就可能较低，对该类文本分类的贡献就较低； S4针对未考虑文档内分布的改进；在单个文本中，一个特征词如果在首尾段中均有出现，其有较大的概率是该文本的主题词，应给予较大的权重，如果一个特征词只集中出现在某个段落中，其可能只是该段落的主题，与文本主题关系不大，不应给予较大的权重；令词跨度系数(W ord Span Factor， WSF)为其中， fir stPos(ti， dk)为单词ti在文本dk中出现的第一个位置， lastPos(ti， dk)为单词 ti在文本dk中出现的最后一个位置， len(dk)为文本的长度， WSF可以反映词语在文本中出现的范围，通常来说，词语在文章中分布范围越广，该词越能代表文章的类型， WSF值也就越大，相反，词语在文章中的出现范围越集中，该词可能就不能很好地概括全文主旨， WSF值也就越小； S5针对词性的改进；首先从特征词的词性考虑，文本在经过预处理阶段后会变成一个个词语构成的列表，这些词按照词性又可以分为名词、动词、形容词、副词、连词，在大部分语言中，一篇文章的关键词往往是名词或则是动词，而形容词和副词等往往起到的是一个修饰的作用，其自身难以反映文章的内容，而连接词，语气词，量词等更像是一些功能词，本身并无意思，基于此，文本提出词性系数WCF，针对不同词性给予不同权重， WCF公式如下： WCF针对每个词性的具体权重值是基于实验调整得到，若针对其它语言的文本数据集，也应当进行调整； S6针对被修饰词的改进；形容词和副词是中文文本的重要组成部分，形容词主要用来描述或修饰名词，表示人或事物的属性、性质、特征、状态、形状，如 “帅气”、“美丽”、“大”、“小”词汇，副词主要用来修权　利　要　求　书 2/3 页 3 CN 114547309 A 3

专利 一种基于改进TFIDF的文本特征选择方法

专利一种基于改进TFIDF的文本特征选择方法