分布的相似度（距离）用什么模型比较好

Flawy • 2023年7月23日下午10:21 • 科技

在统计和机器学习中，度量分布之间的相似度或距离是一项基本任务。以下是一些主要方法：1、KL散度；2、Wasserstein距离；3、总变差距离；4、Hellinger距离；5、Jensen-Shannon散度；6、Cosine相似度。其中，KL散度衡量了两个概率分布之间的差异，但它不是一个真正的距离。

1、KL散度

KL散度又称为Kullback-Leibler散度，是一种非对称的度量方法，用于比较两个概率分布。它衡量了使用一个分布来近似另一个分布时，所需的额外信息量。

2、Wasserstein距离

Wasserstein距离有时称为地面运输距离，是衡量两个概率分布之间差异的方法。它度量了将一个分布转换为另一个分布所需的”成本”。

3、总变差距离

总变差距离衡量两个概率分布之间的差异，具体来说，它是两个分布的差的绝对值的积分。

4、Hellinger距离

Hellinger距离是衡量两个概率分布之间的相似性的一种方法。它是两个分布的平方根之差的欧几里得距离。

5、Jensen-Shannon散度

Jensen-Shannon散度是KL散度的扩展，衡量两个概率分布的相似性。与KL散度不同的是，它是对称的，并且有定义良好的界限。

6、Cosine相似度

Cosine相似度通常用于高维空间中的向量，测量两个向量之间的夹角的余弦值，以此来判断它们的相似度。

延伸阅读：

概率分布的距离度量

度量概率分布之间的距离是众多应用中的关键任务，例如，在异常检测、图像分割和文本分类等领域都有广泛应用。通过合适的距离度量，可以更好地理解和解释数据的特性和模式。选择适当的度量标准取决于具体的应用和所面临的问题，因此理解各种距离和相似度的性质和应用场景是至关重要的。

文章标题：分布的相似度（距离）用什么模型比较好，发布者：Flawy，转载请注明出处：https://worktile.com/kb/p/61586