打字猴:1.700535496e+09
1700535496 分析与解答
1700535497
1700535498 说起高斯分布,大家都不陌生,通常身高、分数等都大致符合高斯分布。因此,当我们研究各类数据时,假设同一类的数据符合高斯分布,也是很简单自然的假设;当数据事实上有多个类,或者我们希望将数据划分为一些簇时,可以假设不同簇中的样本各自服从不同的高斯分布,由此得到的聚类算法称为高斯混合模型。
1700535499
1700535500 高斯混合模型的核心思想是,假设数据可以看作从多个高斯分布中生成出来的。在该假设下,每个单独的分模型都是标准高斯模型,其均值μi和方差Σi是待估计的参数。此外,每个分模型都还有一个参数πi,可以理解为权重或生成数据的概率。高斯混合模型的公式为
1700535501
1700535502
1700535503
1700535504
1700535505 (5.14)
1700535506
1700535507 高斯混合模型是一个生成式模型。可以这样理解数据的生成过程,假设一个最简单的情况,即只有两个一维标准高斯分布的分模型N(0,1)和N(5,1),其权重分别为0.7和0.3。那么,在生成第一个数据点时,先按照权重的比例,随机选择一个分布,比如选择第一个高斯分布,接着从N(0,1)中生成一个点,如−0.5,便是第一个数据点。在生成第二个数据点时,随机选择到第二个高斯分布N(5,1),生成了第二个点4.7。如此循环执行,便生成出了所有的数据点。
1700535508
1700535509 然而,通常我们并不能直接得到高斯混合模型的参数,而是观察到了一系列数据点,给出一个类别的数量K后,希望求得最佳的K个高斯分模型。因此,高斯混合模型的计算,便成了最佳的均值μ,方差Σ、权重π的寻找,这类问题通常通过最大似然估计来求解。遗憾的是,此问题中直接使用最大似然估计,得到的是一个复杂的非凸函数,目标函数是和的对数,难以展开和对其求偏导。
1700535510
1700535511 在这种情况下,可以用上一节已经介绍过的EM算法框架来求解该优化问题。EM算法是在最大化目标函数时,先固定一个变量使整体函数变为凸优化函数,求导得到最值,然后利用最优参数更新被固定的变量,进入下一个循环。具体到高斯混合模型的求解,EM算法的迭代过程如下。
1700535512
1700535513 首先,初始随机选择各参数的值。然后,重复下述两步,直到收敛。
1700535514
1700535515 (1)E步骤。根据当前的参数,计算每个点由某个分模型生成的概率。
1700535516
1700535517 (2)M步骤。使用E步骤估计出的概率,来改进每个分模型的均值,方差和权重。
1700535518
1700535519 也就是说,我们并不知道最佳的K个高斯分布的各自3个参数,也不知道每个数据点究竟是哪个高斯分布生成的。所以每次循环时,先固定当前的高斯分布不变,获得每个数据点由各个高斯分布生成的概率。然后固定该生成概率不变,根据数据点和生成概率,获得一个组更佳的高斯分布。循环往复,直到参数的不再变化,或者变化非常小时,便得到了比较合理的一组高斯分布。
1700535520
1700535521 高斯混合模型与K均值算法的相同点是,它们都是可用于聚类的算法;都需要指定K值;都是使用EM算法来求解;都往往只能收敛于局部最优。而它相比于K均值算法的优点是,可以给出一个样本属于某类的概率是多少;不仅仅可以用于聚类,还可以用于概率密度的估计;并且可以用于生成新的样本点。
1700535522
1700535523
1700535524
1700535525
1700535526 百面机器学习:算法工程师带你去面试 [:1700532195]
1700535527 百面机器学习:算法工程师带你去面试 03 自组织映射神经网络
1700535528
1700535529
1700535530
1700535531 场景描述
1700535532
1700535533 自组织映射神经网络(Self-Organizing Map,SOM)是无监督学习方法中一类重要方法,可以用作聚类、高维可视化、数据压缩、特征提取等多种用途。在深度神经网络大为流行的今天,谈及自组织映射神经网络依然是一件非常有意义的事情,这主要是由于自组织映射神经网络融入了大量人脑神经元的信号处理机制,有着独特的结构特点。该模型由芬兰赫尔辛基大学教授Teuvo Kohonen于1981年提出,因此也被称为Kohonen网络。
1700535534
1700535535 知识点
1700535536
1700535537 自组织映射神经网络
1700535538
1700535539 问题1 自组织映射神经网络是如何工作的?它与K均值算法有何区别?
1700535540
1700535541 难度:★★★☆☆
1700535542
1700535543 分析与解答
1700535544
1700535545 生物学研究表明,在人脑的感知通道上,神经元组织是有序排列的;同时,大脑皮层会对外界特定时空信息的输入在特定区域产生兴奋,而且相类似的外界信息输入产生对应兴奋的大脑皮层区域也连续映像的。例如,生物视网膜中有许多特定的细胞对特定的图形比较敏感,当视网膜中有若干个接收单元同时受特定模式刺激时,就使大脑皮层中的特定神经元开始兴奋,且输入模式接近时与之对应的兴奋神经元也接近;在听觉通道上,神经元在结构排列上与频率的关系十分密切,对于某个频率,特定的神经元具有最大的响应,位置相邻的神经元具有相近的频率特征,而远离的神经元具有的频率特征差别也较大。大脑皮层中神经元的这种响应特点不是先天安排好的,而是通过后天的学习自组织形成的。
[ 上一页 ]  [ :1.700535496e+09 ]  [ 下一页 ]