向量空间模型
向量空间模型(向量 Space Model,VSM)是一种代数模型,用于信息过滤、信息检索、索引以及相关性评估。它将文本文件表示为标识符(如索引词)的向量,从而简化了文本内容的处理。Salton等人在20世纪70年代提出了这一模型,并将其成功应用于SMART文本检索系统。在VSM中,文本的语义相似度通过向量空间中的相似度来表达,使得模型直观且易于理解。
概念
向量空间模型的核心概念是将文档和查询都表示为向量,其中每一维对应一个独立的词组。文档被转换为特征项向量,通过计算向量之间的相似性来度量文档间的相似性。最常用的相似性度量方法是余弦距离,它计算两个向量的点积与各自模的乘积的比值。SMART系统是首个使用VSM的信息检索系统,它将文件视为索引词形成的多维向量空间,而搜索时输入的检索词也被转换成向量。通过比较文件向量和检索词向量的夹角偏差,可以确定文件与检索词的相关程度。
应用
向量空间模型在关键词查询中通过比较文档向量和查询向量之间的角度偏差来计算文档间的相关排序。计算向量之间夹角的余弦比直接计算夹角本身更为简单。余弦值为零表示查询向量与文档向量正交,即文档中不含检索词。通过余弦相似性,可以将文本数据转换为计算机可以处理的结构化数据,从而解决文档间相似性问题。
tf-idf权重
在Salton、Wong和Yang提出的传统向量空间模型中,词组在文档向量中的权重是局部参数(词频tf)和全局参数(逆文档频率idf)的乘积,即tf-idf模型。文档和查询之间的余弦相似度通过特定公式计算,其中包括词组权重的计算。在简单的词组计数模型中,词组权重仅计算词组出现的次数。
优点
向量空间模型相对于标准布尔模型具有多个优点,包括基于线性代数的简单模型、非二元的词组权重、连续的相似度取值、允许根据文档间的相关性进行排序、以及允许局部匹配。
局限
向量空间模型的局限包括不适用于较长文档、检索词组必须与文档中的词组精确匹配、语义敏感度不佳、无法表示词组在文档中的顺序、假定词组统计上独立、以及权重的直观性不够正式。尽管如此,这些局限可以通过各种方法解决,如数学技术(如奇异值分解)和词汇数据库(如WordNet)。
基于及扩展了向量空间模型的模型
向量空间模型的基础上发展出了多种模型,包括广义向量空间模型、基于主题的向量空间模型、潜在语义学、潜在语义索引、DSIR模型、词汇鉴别、Rocchio分类等。
以向量空间模型为工具的软件
向量空间模型的应用涵盖了多种软件包,包括Apache Lucene、SemanticVectors、Gensim、Compressed 向量 space in C++、文本 to Matrix Generator (TMG)、SenseClusters、S-Space Package等。这些软件包提供了从文本搜索引擎到文本挖掘工具箱的广泛功能,支持如潜在语义分析、随机投影、聚类、分类等多种文本处理技术。