VSMVector Space Modal 是一个应用于资讯过滤,资讯撷取,索引以及评估相关性的线性代数模型。由 Salton 等人于 60 年代提出,并成功地应用于著名的 SMART 文本检索系统。

一个文档可以表示成一个向量。一个维度相当于一个词项(Term)。如果一个词项出现在一篇文档中,它在向量中的值是非零的。有几种不同的计算这些被看作(词项)权重的向量值的方法被逐渐提出来。其中一种最著名的方法是 tf-idf 加权(看下面的例子)。

词项的定义是依赖于应用的。一般而言,词项就是单字(单词),关键字,或者长短语。如果词(Word)被选作词项(Term),向量的维度就等于词汇表中的词数(出现在文档全集中所有不同的词的数量)。

tfterm frequency (词频)

idfinverse document frequency (反文档频率)

TF-IDF 是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF 是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。

  • 基于关键字检索的文档相关度计算,可以用文档相似度理论的假设来实现,就是比较每个文档向量和原始查询向量的夹角,其中查询是表示为与文档一样的向量。

    在实践中,计算两个向量夹角的余弦值(Cosine)


    余弦值为 0 时表示查询向量和文档向量之间呈直角,也就是查询和文档完全不相似(也就是查询的词项在被查询的文档中不存在)。查看余弦相似度以获得更多信息。

  • Salton 提出的经典向量空间模型中,文档向量中词项的权重是局部参数和全局参数的乘积。该模型被认为是词频-倒文档频率模型。文档的权重向量 d

    其中 

    在上面公式中,

    • tft 是词项t在文档 d 中的频率(一个局部参数)。
    •  是倒文档频率(一个全局参数)。 | D | 是文档集合中的文档总数;是包含词项 t 的文档数。

    有时可以直接使用一个词的全局 idf 值。

    但是,如果要区分很细的分类如:足球、网球使用全局的 idf 值则不合适。需要专门的语料训练。

  • 优点:原理简单,可以比较计算文档之间的相似度,算法也比较成熟。

    缺点:

    1. 语言敏感度差,一些同义词不能正确识别。
    2. 由于算法建立在各个 Term 完全独立的基础上(其实不合理),未利用一些词的同现特征,以及上下文关联,造成结果一定有误差。
    3. 有新的训练文档加入时,则必须重新计算词的权值;(影响了 IDF 值)
    1. 文本分类、专名验证,训练出软件、游戏、影视、音乐等分类向量后,可以为专名验证提供理论基础和方法。
    2. 页面分类:理论上,可以对网页进行分类,为每个网页打上分类的标签。这个信息对于分析、统计用户行为 session。指导 DA 需求识别也有很大帮助。
    3. 难点:提炼实体 Termtf-idf 计算权重(简单的模型计算恐怕效果不好,需要改进和微调)。