TF-IDF算法
简介
TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术,常用于挖掘文章中的关键词,而且算法简单高效,常被工业用于最开始的文本数据清洗。
TF-IDF有两层意思,一层是"词频"(Term Frequency,缩写为TF),另一层是"逆文档频率"(Inverse Document Frequency,缩写为IDF)。
假设我们现在有一片长文叫做《量化系统架构设计》词频高在文章中往往是停用词,“的”,“是”,“了”等,这些在文档中最常见但对结果毫无帮助、需要过滤掉的词,用TF可以统计到这些停用词并把它们过滤。当高频词过滤后就只需考虑剩下的有实际意义的词。
但这样又会遇到了另一个问题,我们可能发现"量化"、"系统"、"架构"这三个词的出现次数一样多。这是不是意味着,作为关键词,它们的重要性是一样的?事实上系统应该在其他文章比较常见,所以在关键词排序上,“量化”和“架构”应该排在“系统”前面,这个时候就需要IDF,IDF会给常见的词较小的权重,它的大小与一个词的常见程度成反比。
- TF: 通过统计频数,过滤一些没有实际意义的停用词
- IDF: 对常见词赋予较小权重,权重大小与词的常见程度成反比
当有TF(词频)和IDF(逆文档频率)后,将这两个词相乘,就能得到一个词的TF-IDF的值。
某个词在文章中的TF-IDF越大,那么一般而言这个词对该文档分类的影响价值就越高,所以通过计算文章中各个词的TF-IDF,由大到小排序,排在最前面的几个词,就是该文章的关键词。
TF-IDF算法步骤
- 计算词频: $词频(TF)=某个词在文章中出现的次数$
- 考虑到文章有长短之分,为了便于不同文章的比较,进行"词频"标准化: $词频(TF) =\frac{\text { 某个词在文章中的出现次数 }}{\text { 文章的总词数 }}$
- 计算逆文档频率
- 数据:一个语料库(corpus),包含多篇文档,用于模拟语言的使用环境
- $文档频率(IDF) =\log \left(\frac{\text { 语料库的文档总数 }}{\text { 包含该词的文档数 }+1}\right) .$
- 如果一个词越常见,则包含该词的文档数就越多,此时IDF计算式中的分母越小,IDF值越小就越接近0,
- 分母+1是为了避免分母为0
- 计算TF-IDF
- $\mathrm{TF}-\mathrm{IDF}=词频(TF ) \times 逆文档频率(\mathrm{IDF})$
TF-IDF与一个词在文档中的出现次数成正比,与该词在整个语言环境中的出现次数成反比。计算出文档的每个词的TF-IDF值,然后按降序排列,取排在最前面的几个词。
优缺点
- 优点:
- 简单快速,容易理解
- 缺点:
- 有时候用词频来衡量文章中的一个词的重要性不够全面
- 有时候重要的词出现的可能不够多
- 这种计算无法体现位置信息,无法体现**词在上下文的重要性*
- tf-idf算法可以给我们提供词在文档中的相对重要性的信息,然而却无法带给我们任何关于词语义的信息
如果要体现词的上下文结构,那么你可能需要使用word2vec算法来支持。