1700533620
(2.7)
1700533621
1700533622
其中|| A−B ||2表示欧氏距离,cos(A,B)表示余弦相似度,(1−cos(A,B))表示余弦距离。在此场景下,如果选择距离最小(相似度最大)的近邻,那么使用余弦相似度和欧氏距离的结果是相同的。
1700533623
1700533624
总体来说,欧氏距离体现数值上的绝对差异,而余弦距离体现方向上的相对差异。例如,统计两部剧的用户观看行为,用户A的观看向量为(0,1),用户B为(1,0);此时二者的余弦距离很大,而欧氏距离很小;我们分析两个用户对于不同视频的偏好,更关注相对差异,显然应当使用余弦距离。而当我们分析用户活跃度,以登陆次数(单位:次)和平均观看时长(单位:分钟)作为特征时,余弦距离会认为(1,10)、(10,100)两个用户距离很近;但显然这两个用户活跃度是有着极大差异的,此时我们更关注数值绝对差异,应当使用欧氏距离。
1700533625
1700533626
特定的度量方法适用于什么样的问题,需要在学习和研究中多总结和思考,这样不仅仅对面试有帮助,在遇到新的问题时也可以活学活用。
1700533627
1700533628
问题2 余弦距离是否是一个严格定义的距离?
1700533629
1700533630
难度:★★★☆☆
1700533631
1700533632
分析与解答
1700533633
1700533634
该题主要考察面试者对距离的定义的理解,以及简单的反证和推导。首先看距离的定义:在一个集合中,如果每一对元素均可唯一确定一个实数,使得三条距离公理(正定性,对称性,三角不等式)成立,则该实数可称为这对元素之间的距离。
1700533635
1700533636
余弦距离满足正定性和对称性,但是不满足三角不等式,因此它并不是严格定义的距离。具体来说,对于向量A和B,三条距离公理的证明过程如下。
1700533637
1700533638
1700533639
1700533640
1700533641
正定性 根据余弦距离的定义,有 .
1700533642
1700533643
(2.8)
1700533644
1700533645
1700533646
1700533647
考虑到,因此有恒成立。特别地,有
1700533648
1700533649
1700533650
dist
1700533651
1700533652
(2.9)
1700533653
1700533654
因此余弦距离满足正定性。
1700533655
1700533656
1700533657
1700533658
1700533659
对称性 根据余弦距离的定义,有
1700533660
1700533661
(2.10)
1700533662
1700533663
因此余弦距离满足对称性。
1700533664
1700533665
1700533666
1700533667
1700533668
三角不等式 该性质并不成立,下面给出一个反例。给定A=(1,0),B=(1,1),C=(0,1),则有 ,
1700533669
[
上一页 ]
[ :1.70053362e+09 ]
[
下一页 ]