弄懂系列: TF-IDF算法

TF-IDF算法

简介

TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术,常用于挖掘文章中的关键词,而且算法简单高效,常被工业用于最开始的文本数据清洗

TF-IDF有两层意思,一层是"词频"(Term Frequency,缩写为TF),另一层是"逆文档频率"(Inverse Document Frequency,缩写为IDF)。

假设我们现在有一片长文叫做《量化系统架构设计》词频高在文章中往往是停用词,“的”,“是”,“了”等,这些在文档中最常见但对结果毫无帮助、需要过滤掉的词,用TF可以统计到这些停用词并把它们过滤。当高频词过滤后就只需考虑剩下的有实际意义的词。

但这样又会遇到了另一个问题,我们可能发现"量化"、"系统"、"架构"这三个词的出现次数一样多。这是不是意味着,作为关键词,它们的重要性是一样的?事实上系统应该在其他文章比较常见,所以在关键词排序上,“量化”和“架构”应该排在“系统”前面,这个时候就需要IDFIDF会给常见的词较小的权重,它的大小与一个词的常见程度成反比

  • TF: 通过统计频数,过滤一些没有实际意义的停用词
  • IDF: 对常见词赋予较小权重,权重大小与词的常见程度成反比

当有TF(词频)和IDF(逆文档频率)后,将这两个词相乘,就能得到一个词的TF-IDF的值。

某个词在文章中的TF-IDF越大,那么一般而言这个词对该文档分类的影响价值就越高,所以通过计算文章中各个词的TF-IDF,由大到小排序,排在最前面的几个词,就是该文章的关键词。


TF-IDF算法步骤

  1. 计算词频: $词频(TF)=某个词在文章中出现的次数$
    1. 考虑到文章有长短之分,为了便于不同文章的比较,进行"词频"标准化: $词频(TF) =\frac{\text { 某个词在文章中的出现次数 }}{\text { 文章的总词数 }}$
  2. 计算逆文档频率
    1. 数据:一个语料库(corpus),包含多篇文档,用于模拟语言的使用环境
    2. $文档频率(IDF) =\log \left(\frac{\text { 语料库的文档总数 }}{\text { 包含该词的文档数 }+1}\right) .$
    3. 如果一个词越常见,则包含该词的文档数就越多,此时IDF计算式中的分母越小,IDF值越小就越接近0,
    4. 分母+1是为了避免分母为0
  3. 计算TF-IDF
    1. $\mathrm{TF}-\mathrm{IDF}=词频(TF ) \times 逆文档频率(\mathrm{IDF})$

TF-IDF与一个词在文档中的出现次数成正比,与该词在整个语言环境中的出现次数成反比。计算出文档的每个词的TF-IDF值,然后按降序排列,取排在最前面的几个词。


优缺点

  • 优点:
    • 简单快速,容易理解
  • 缺点:
    • 有时候用词频来衡量文章中的一个词的重要性不够全面
    • 有时候重要的词出现的可能不够多
    • 这种计算无法体现位置信息,无法体现**词在上下文的重要性*
    • tf-idf算法可以给我们提供词在文档中的相对重要性的信息,然而却无法带给我们任何关于词语义的信息

如果要体现词的上下文结构,那么你可能需要使用word2vec算法来支持。

updatedupdated2022-08-172022-08-17
加载评论