1700536277
1700536278
分析与解答
1700536279
1700536280
首先对题目做进一步的解释。推荐系统中的冷启动问题是指在没有大量用户数据的情况下如何给用户进行个性化推荐,目的是最优化点击率、转化率或用户体验(用户停留时间、留存率等)。冷启动问题一般分为用户冷启动、物品冷启动和系统冷启动三大类。用户冷启动是指对一个之前没有行为或行为极少的新用户进行推荐;物品冷启动是指为一个新上市的商品或电影(这时没有与之相关的评分或用户行为数据)寻找到具有潜在兴趣的用户;系统冷启动是指如何为一个新开发的网站设计个性化推荐系统。
1700536281
1700536282
解决冷启动问题的方法一般是基于内容的推荐。以Hulu的场景为例,对于用户冷启动来说,我们希望根据用户的注册信息(如:年龄、性别、爱好等)、搜索关键词或者合法站外得到的其他信息(例如用户使用Facebook账号登录,并得到授权,可以得到Facebook中的朋友关系和评论内容)来推测用户的兴趣主题。得到用户的兴趣主题之后,我们就可以找到与该用户兴趣主题相同的其他用户,通过他们的历史行为来预测用户感兴趣的电影是什么。同样地,对于物品冷启动问题,我们也可以根据电影的导演、演员、类别、关键词等信息推测该电影所属于的主题,然后基于主题向量找到相似的电影,并将新电影推荐给以往喜欢看这些相似电影的用户。可以使用主题模型(pLSA、LDA等)得到用户和电影的主题。以用户为例,我们将每个用户看作主题模型中的一篇文档,用户对应的特征作为文档中的单词,这样每个用户可以表示成一袋子特征的形式。通过主题模型学习之后,经常共同出现的特征将会对应同一个主题,同时每个用户也会相应地得到一个主题分布。每个电影的主题分布也可以用类似的方法得到。
1700536283
1700536284
那么如何解决系统冷启动问题呢?首先可以得到每个用户和电影对应的主题向量,除此之外,还需要知道用户主题和电影主题之间的偏好程度,也就是哪些主题的用户可能喜欢哪些主题的电影。当系统中没有任何数据时,我们需要一些先验知识来指定,并且由于主题的数目通常比较小,随着系统的上线,收集到少量的数据之后我们就可以对主题之间的偏好程度得到一个比较准确的估计。
1700536285
1700536286
1700536287
1700536288
1700536290
百面机器学习:算法工程师带你去面试 第7章 优化算法
1700536291
1700536292
优化是应用数学的一个分支,也是机器学习的核心组成部分。实际上,机器学习算法 = 模型表征 + 模型评估 + 优化算法。其中,优化算法所做的事情就是在模型表征空间中找到模型评估指标最好的模型。不同的优化算法对应的模型表征和评估指标不尽相同,比如经典的支持向量机对应的模型表征和评估指标分别为线性分类模型和最大间隔,逻辑回归对应的模型表征和评估指标则分别为线性分类模型和交叉熵。
1700536293
1700536294
随着大数据和深度学习的迅猛发展,在实际应用中面临的大多是大规模、高度非凸的优化问题,这给传统的基于全量数据、凸优化的优化理论带来了巨大的挑战。如何设计适用于新场景的、高效的、准确的优化算法成为近年来的研究热点。优化虽然是一门古老的学科,但是大部分能够用于训练深度神经网络的优化算法都是近几年才被提出,如Adam算法等。
1700536295
1700536296
虽然,目前大部分机器学习的工具已经内置了常用的优化算法,实际应用时只需要一行代码即可完成调用。但是,鉴于优化算法在机器学习中的重要作用,了解优化算法的原理也很有必要。
1700536297
1700536298
1700536299
1700536300
1700536302
百面机器学习:算法工程师带你去面试 01 有监督学习的损失函数
1700536303
1700536304
1700536305
1700536306
场景描述
1700536307
1700536308
机器学习算法的关键一环是模型评估,而损失函数定义了模型的评估指标。可以说,没有损失函数就无法求解模型参数。不同的损失函数优化难度不同,最终得到的模型参数也不同,针对具体的问题需要选取合适的损失函数。
1700536309
1700536310
知识点
1700536311
1700536312
损失函数
1700536313
1700536314
问题 有监督学习涉及的损失函数有哪些?请列举并简述它们的特点。
1700536315
1700536316
难度:★☆☆☆☆
1700536317
1700536318
分析与解答
1700536319
1700536320
1700536321
1700536322
1700536323
1700536324
在有监督学习中,损失函数刻画了模型和训练样本的匹配程度。假设训练样本的形式为(xi, yi),其中 xi∈X表示第i个样本点的特征,yi∈Y表示该样本点的标签。参数为θ的模型可以表示为函数,模型关于第i 个样本点的输出为。为了刻画模型输出与样本标签的匹配程度,定义损失函数,越小,表明模型在该样本点匹配得越好。
1700536325
1700536326
对二分类问题,Y={1,−1},我们希望sign f(xi,θ)=yi,最自然的损失函数是0-1损失,即
[
上一页 ]
[ :1.700536277e+09 ]
[
下一页 ]