Jaccard index [1], 又称为Jaccard相似系数(Jaccard similarity coefficient)用于比较有限样本集之间的相似性与差异性。Jaccard系数值越大,样本相似度越高。
- 中文名
- 杰卡德系数
- 外文名
- Jaccard index
- 提出者
- PaulJaccard
- 别 名
- Jaccard similarity coefficient
- 提出时间
- 20世纪初
- 常用领域
- 机器学习,数据挖掘等
系数基本概念
播报编辑
定义
当集合A,屑懂承胶体寻B都为空时,J(A润狼糊,B)定义为枣道1。
与Jaccard 系数相关的指标叫做Jaccard 距离,用于描述集合之间的不相似度。Jaccard 距离越大,样本相似度越低。公式定义如下:
其中对称差(symmetric difference)
酷协员 踏她。
性质
相似性
播报编辑
非对称二元属性的相似性
在数据挖掘领域,常常需要比较两个具有布尔值属性的对象之间的距离,Jaccard距离就是常用的一种方法。给定两个比较对象A,B。A, B 均有n个二元属性,即每个属性取值为{0,1}。定义如下4个统计量:
如图1数示:
显然有
Jaccard 系数:
Jaccard距离:
广义系数
播报编辑
广义Jaccard系数
(1)给定两个n维向量 则 Jaccard 系数定义如下:
(2)给定两个关于 的非负函数 f 和 g ,则 Jaccard 系数定义如下:
主要应用场景
播报编辑
比较文本相似度,用于文本查重与去重;
计算对象间距离,用于数据聚类等。
应用举例
播报编辑
项目相似性度量是协同过滤系统的核心。 相关研究中,基于物品协同过滤系统的相似性度量方法普遍使用余弦相似性。 然而,在许多实际应用中,评价数据稀疏度过高,物品之间通过余弦相似度计算会产生误导性结果。 将杰卡德相似性度量应用到基于物品的协同过滤系统中,并建立起相应的评价分析方法。 与传统相似性度量方法相比,杰卡德方法完善了余弦相似性只考虑用户评分而忽略了其他信息量的弊端,特别适合于应用到稀疏度过高的数据 [2]。