实现方法简单并且会对长文有较好的提取效果
更新日期:2021-09-02     浏览次数:114
核心提示:3.1TF-IDF算法TF-IDF算法主要评估一字词对于一个文件集或一个语料库中其中一份文件的重要程度。字词对于一个文本的重要性会随着它在此文中的出现频率T

3.1 TF-IDF算法

TF-IDF算法主要评估一字词对于一个文件集或一个语料库中其中一份文件的重要程度。字词对于一个文本的重要性会随着它在此文中的出现频率TF的增加而增加,也会随着它在文档集合的其他文档中的出现频率IDF的增加而减少[8]。TF-IDF算法基本思想是找到现文中出现频率较高但在其它文档中出现频率低的词语,这样的词语具有较高的代表性,可以用它去代表这篇文章,所以,它只需要对文章进行分词,计算各个词的TF值与IDF值。这样实现方法简单并且会对长文有较好的提取效果。