数据科学家Maarten Grootendorst向我们介绍了9种距离度量方法-德赢Vwin官网网

在数据挖掘中，我们经常需要计算样本之间的相似度，通常的做法是计算样本之间的距离。在本文中，数据科学家 Maarten Grootendorst 向我们介绍了 9 种距离度量方法，其中包括欧氏距离、余弦相似度等，并探讨如何以及何时以最佳的方式使用它们。此外 Maarten Grootendorst 还对它们的缺点进行了介绍，以及如何规避不足。欧氏距离（Euclidean Distance）

欧式距离。我们从最常见的欧式距离开始，欧式距离可解释为连接两个点的线段的长度。欧式距离公式非常简单，使用勾股定理从这些点的笛卡尔坐标计算距离。

缺点：尽管这是一种常用的距离度量，但欧式距离并不是尺度不变的，这意味着所计算的距离可能会根据特征的单位发生倾斜。通常，在使用欧式距离度量之前，需要对数据进行归一化处理。此外，随着数据维数的增加，欧氏距离的作用也就越小。这与维数灾难（curse of dimensionality）有关。用例：当你拥有低维数据且向量的大小非常重要时，欧式距离的效果非常好。如果在低维数据上使用欧式距离，则如 k-NN 和 HDBSCAN 之类的方法可达到开箱即用的效果。余弦相似度（Cosine Similarity）

余弦相似度。余弦相似度经常被用作抵消高维欧式距离问题。余弦相似度是指两个向量夹角的余弦。如果将向量归一化为长度均为 1 的向量，则向量的点积也相同。两个方向完全相同的向量的余弦相似度为 1，而两个彼此相对的向量的余弦相似度为 - 1。注意，它们的大小并不重要，因为这是在方向上的度量。

缺点：余弦相似度的一个主要缺点是没有考虑向量的大小，而只考虑它们的方向。以推荐系统为例，余弦相似度就没有考虑到不同用户之间评分尺度的差异。用例：当我们对高维数据向量的大小不关注时，可以使用余弦相似度。对于文本分析，当数据以单词计数表示时，经常使用此度量。例如，当一个单词在一个文档中比另一个单词更频繁出现时，这并不一定意味着文档与该单词更相关。可能是文件长度不均匀或者计数的重要性不太重要。我们最好使用忽略幅度的余弦相似度。汉明距离（Hamming Distance）

汉明距离。汉明距离是两个向量之间不同值的个数。它通常用于比较两个相同长度的二进制字符串。它还可以用于字符串，通过计算不同字符的数量来比较它们之间的相似程度。缺点：当两个向量长度不相等时，汉明距离使用起来很麻烦。当幅度是重要指标时，建议不要使用此距离指标。用例：典型的用例包括数据通过计算机网络传输时的错误纠正 / 检测。它可以用来确定二进制字中失真的数目，作为估计误差的一种方法。此外，你还可以使用汉明距离来度量分类变量之间的距离。曼哈顿距离（Manhattan Distance）

曼哈顿距离。曼哈顿距离通常称为出租车距离或城市街区距离，用来计算实值向量之间的距离。想象一下均匀网格棋盘上的物体，如果它们只能移动直角，曼哈顿距离是指两个向量之间的距离，在计算距离时不涉及对角线移动。

缺点：尽管曼哈顿距离在高维数据中似乎可以工作，但它比欧式距离直观性差，尤其是在高维数据中使用时。此外，由于它可能不是最短路径，有可能比欧氏距离给出一个更高的距离值。用例：当数据集具有离散或二进制属性时，曼哈顿距离似乎工作得很好，因为它考虑了在这些属性的值中实际可以采用的路径。以欧式距离为例，它会在两个向量之间形成一条直线，但实际上这是不可能的。切比雪夫距离（Chebyshev Distance）

切比雪夫距离。切比雪夫距离定义为两个向量在任意坐标维度上的最大差值。换句话说，它就是沿着一个轴的最大距离。切比雪夫距离通常被称为棋盘距离，因为国际象棋的国王从一个方格到另一个方格的最小步数等于切比雪夫距离。

缺点：切比雪夫距离通常用于特定的用例，这使得它很难像欧氏距离或余弦相似度那样作为通用的距离度量。因此，在确定适合用例时才使用它。用例：切比雪夫距离用于提取从一个方块移动到另一个方块所需的最小移动次数。此外，在允许无限制八向移动的游戏中，这可能是有用的方法。在实践中，切比雪夫距离经常用于仓库物流，因为它非常类似于起重机移动一个物体的时间。闵氏距离（Minkowski）

闵氏距离。闵氏距离比大多数距离度量更复杂。它是在范数向量空间（n 维实数空间）中使用的度量，这意味着它可以在一个空间中使用，在这个空间中，距离可以用一个有长度的向量来表示。闵氏距离公式如下：

最有趣的一点是，我们可以使用参数 p 来操纵距离度量，使其与其他度量非常相似。常见的 p 值有：

p=1：曼哈顿距离

p=2：欧氏距离

p=∞：切比雪夫距离

缺点：闵氏距离与它们所代表的距离度量有相同的缺点，因此，对哈顿距离、欧几里得距离和切比雪夫距离等度量标准有个好的理解非常重要。此外，参数 p 的使用可能很麻烦，因为根据用例，查找正确的 p 值在计算上效率低。用例：p 的积极一面是可迭代，并找到最适合用例的距离度量。它允许在距离度量上有很大的灵活性，如果你非常熟悉 p 和许多距离度量，将会获益多多。雅卡尔指数（Jaccard Index）

雅卡尔指数。雅卡尔指数（交并比）是用于比较样本集相似性与多样性的统计量。雅卡尔系数能够量度有限样本集合的相似度，其定义为两个集合交集大小与并集大小之间的比例。例如，如果两个集合有 1 个共同的实体，而有 5 个不同的实体，那么雅卡尔指数为 1/5 = 0.2。要计算雅卡尔距离，我们只需从 1 中减去雅卡尔指数：

缺点：雅卡尔指数的一个主要缺点是它受数据大小的影响很大。大数据集对指数有很大影响，因为它可以显著增加并集，同时保持交集相似。用例：雅卡尔指数通常用于使用二进制或二进制数据的应用程序中。当你有一个深度学习模型来预测图像分割时，比如一辆汽车，雅卡尔指数可以用来计算给定真实标签的预测分割的准确度。类似地，它可以用于文本相似性分析，以测量文档之间有多少词语重叠。因此，它可以用来比较模式集合。半正矢（Haversine）

半正矢距离。半正矢距离是指球面上的两点在给定经纬度条件下的距离。它与欧几里得距离非常相似，因为它可以计算两点之间的最短连线。主要区别在于半正矢距离不可能有直线，因为这里的假设是两个点都在一个球面上。

缺点：这种距离测量的一个缺点是，假定这些点位于一个球体上。实际上，这种情况很少出现，例如，地球不是完美的圆形，在某些情况下可能使计算变得困难。相反，如果假定是椭球，使用 Vincenty 距离比较好。用例：半正矢距离通常用于导航。例如，你可以使用它来计算两个国家之间的飞行距离。请注意，如果距离本身不那么大，则不太适合。 Sørensen-Dice 系数

Sørensen-Dice 系数。 Sørensen-Dice 系数与雅卡尔指数非常相似，都是度量样本集的相似性和多样性。尽管它们的计算方法相似，但是 Sørensen-Dice 系数更直观一些，因为它可以被视为两个集合之间重叠的百分比，这个值在 0 到 1 之间：

缺点：正如雅卡尔指数，Sørensen-Dice 系数也夸大了很少或没有真值的集合的重要性，因此，它可以控制多集合的平均得分，还可以控制多组平均得分并按相关集合的大小成反比地加权每个项目，而不是平等对待它们。用例：用例与雅卡尔指数相似，它通常用于图像分割任务或文本相似性分析。

责任编辑：lq

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表德赢Vwin官网网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

数据

数据

+关注

关注
8

文章
7002

浏览量
88938
系数

系数

+关注

关注
0

文章
15

浏览量
8239
度量

度量

+关注

关注
0

文章
8

浏览量
2669

原文标题：一文读懂常见的9种距离度量方法

文章出处：【微信号：vision263com，微信公众号：新机器视觉】欢迎添加关注！文章转载请注明出处。

西湖大学：科学家+AI，科研新范式的样本

研究，创新科研新范式。这一点在西湖大学的科研项目中已得到体现。成立于2018年的西湖大学是由施一公院士领衔创办的、聚焦前沿科学研究的研究型大学，该校鼓励科学家们探索AI与各学科交叉融合，为科研创新提速。为此，西湖大学在浪潮信息等企业助力下打造

发表于 12-12 15:59 •149次阅读

西湖大学：<b class='flag-5'>科学家</b>+AI，科研新范式的样本

AI for Science：人工智能驱动科学创新》第4章-AI与生命科学读后感

了传统学科界限，使得科学家们能够从更加全面和深入的角度理解生命的奥秘。同时，AI技术的引入也催生了一种全新的科学研究范式，即数据驱动的研究范式，这种范式强调从大量

发表于 10-14 09:21

《AI for Science：人工智能驱动科学创新》第一章人工智能驱动的科学创新学习心得

如何激发科学家的创新思维。AI不仅仅是工具，更是一种思维方式，它鼓励我们跳出传统框架，以数据为驱动，探索未知。这种思维方式的转变，不仅促进了科学方法

发表于 10-14 09:12

名单公布！【书籍评测活动NO.44】AI for Science：人工智能驱动科学创新

！《AI for Science：人工智能驱动科学创新》这本书便将为读者徐徐展开AI for Science的美丽图景，与大家一起去了解：人工智能究竟帮科学家做了什么？人工智能将如何改变我们所生

发表于 09-09 13:54

受人眼启发！科学家开发出新型改良相机

新型事件相机系统与标准事件相机系统对比图。马里兰大学计算机科学家领导的一个研究小组发明了一种照相机装置，可以改善机器人观察周围世界并做出反应的方式。受人眼工作原理的启发，他们的创新型照相机系统模仿

发表于 07-22 06:24 •302次阅读

天津大学科学家突破人类大脑器官成功驱动机器人

在科技探索的征途上，天津大学的科研团队再次迈出了令人瞩目的步伐。7月5日，该校宣布了一项革命性的成果——科学家们利用前沿的干细胞技术，成功培育出了高度模拟人类大脑的类脑器官，并创新性地将其与机器人系统通过先进的片上脑机接口技术紧密相连，开启

发表于 07-08 16:00 •602次阅读

新华社：突破性成果！祝贺我国科学家成功研发这一传感器！

6月25日，新华社以《突破性成果！祝贺我国科学家》为标题，报道了由我国科学家研发的传感器成果。我国科学家研发高通道神经探针实现猕猴全脑尺度神经活动监测神经探针是一

发表于 06-27 18:03 •484次阅读

前OpenAI首席科学家创办新的AI公司

消息在业界引起了广泛关注，因为苏茨克维曾是OpenAI的联合创始人及首席科学家，并在去年在OpenAI董事会上扮演了重要角色。

发表于 06-21 10:42 •518次阅读

本源量子参与的国家重点研发计划青年科学家项目启动会顺利召开

2024年4月23日，国家重点研发计划“先进计算与新兴软件”重点专项“面向复杂物理系统求解的量子科学计算算法、软件、应用与验证”青年科学家项目启动会暨实施方案论证会在合肥顺利召开。该项目由合肥综合性国家科学中心人工智能研究院（安

发表于 05-11 08:22 •675次阅读

量子梦

计算机无法解决或需要花费巨大时间和资源才能解决的问题，从而推动科学技术的发展，改变我们的生活方式。虽然目前仍面临诸多挑战，但科学家们正在努力克服这些障碍，相信量子计算机的实现将会给我们

发表于 03-13 18:18

NVIDIA首席科学家Bill Dally：深度学习硬件趋势

Bill Dally于2009年1月加入NVIDIA担任首席科学家，此前在斯坦福大学任职12年，担任计算机科学系主任。Dally及其斯坦福团队开发了系统架构、网络架构、信号传输、路由和同步技术，在今天的大多数大型并行计算机中都可以找到。

发表于 02-25 16:16 •1131次阅读

康奈尔大学科学家研制出5分钟快速充电锂电池

锂离子电池如今广泛应用于电动汽车及智能手机领域。其优点包括轻巧、抗震、环保，但充电时间较长及承受大功率电涌的能力不足。随着最新研究成果发布，科学家找到了一种独特的铟阳极材料，与锂离子电池内的阴极材料实现良好配合。

发表于 01-26 09:57 •674次阅读

谷歌DeepMind科学家欲建AI初创公司

据知情人士透露，谷歌人工智能部门DeepMind的两名杰出科学家Laurent Sifre和Karl Tuyls正在与投资者商讨在巴黎成立一家新的人工智能初创公司的事宜。

发表于 01-22 14:41 •485次阅读

飞腾首席科学家窦强荣获 “国家卓越工程师” 称号

飞腾首席科学家窦强荣获 “国家卓越工程师” 称号 1月19日上午，首届 “国家工程师奖” 表彰大会在北京人民大会堂隆重举行。81 名个人被授予 “国家卓越工程师” 称号，50 个团队被授予

发表于 01-19 19:22 •1711次阅读

AI PC时代正在向我们走来

AI无处不在，充满未知和期待的AI PC时代正在向我们走来，我们的生活和工作方式即将发生改变。

发表于 01-19 09:49 •606次阅读