1704849983
1704849984
上述系统架构描述,为降低理解成本尽可能地简化了各个环节的算法复杂度。事实上,随着深度学习、神经网络的逐步工业化应用,尽管整体架构不变,但是各个环节的复杂度和算法的理解成本已经相对较高了。
1704849985
1704849986
以YouTube(世界上最大的视频网站)为例,2016年其已经将深度学习应用于自己的系统中,并获得了显著的效果。其系统架构如下:
1704849987
1704849988
YouTube的推荐架构,包含了两个神经网络,分别用于产出候选集(召回)和排序。召回层的神经网络将用户在YouTube上的历史行为作为输入内容,完成从百万量级到百量级的候选内容筛选。但其并非唯一的召回方式,YouTube历史上应用有效的其他召回方式也同时在线上运行,如基于用户观看历史相似性、基于搜索行为、基于协同行为等方式。多种召回方式共同构建的视频候选集会被一并送进排序环节。在排序环节中,神经网络基于用户个体的特征和视频的特征对候选集进行打分,最后给用户返回得分靠前的十余个视频。
1704849989
1704849990
1704849991
1704849992
1704849993
图1–5 YouTube内容推荐系统架构
1704849994
1704849995
相对YouTube较为抽象简化的数据流图,Netflix(网飞)的架构图就更复杂一些了,但整体上仍然保持了离线模型训练、在线召回排序、更新用户画像与内容画像的基础结构。系统在实时响应用户请求的在线层和负责数据处理、模型训练的离线层之间增加了NearLine(近线)层,以实现计算规模和时效性的折中。
1704849996
1704849997
1704849998
1704849999
1704850000
图1–6 Netflix内容推荐架构图
1704850001
1704850002
在数据流上,用户的所有动作(播放、评分、浏览等行为)共同构成了在线层的输入。根据业务需求,Netflix将用户行为拆分为数据和事件。其中,数据的时间敏感度更低,事件的时间敏感度更高。比如,在用户观看一部电影后,如果希望及时更新用户的推荐列表,那么这次观看动作就会被视作事件型进入NearLine层,以更快地更新用户画像数据。用户的请求经由多种召回方式从离线索引中获取结果后,经过在线的模型排序计算,将最终结果返回给用户。
1704850003
1704850004
基于推荐架构的优化启示
1704850005
1704850006
了解了推荐系统的基础架构后,站在不同角度的我们就有了不同的优化空间和迭代导向。
1704850007
1704850008
用户
1704850009
1704850010
我们常说要把用户当作小白来看待,以不断降低用户的使用成本。但不论如何让产品普世化、小白化,每一个产品都客观存在由浅入深的功能进阶。如果作为用户的你想享有更有效率、更贴心的服务,我建议你去“训练”推荐系统。
1704850011
1704850012
“训练”推荐系统就请你不吝表达和互动,用你的反馈支持服务提供商和内容创作者。对于令你满意的服务和产品,登录是最好的肯定,在登录后,你的所有行为轨迹就不会丢失,在更换设备之后仍然能够获得稳定的服务体验;对于令你满意的内容,请果断地点赞、评论;对于你喜欢的作者,可以关注他的后续动态。“赠人玫瑰、手有余香”,这些典型正向反馈能够让算法更快速地收敛并确定你的喜好。对于令你厌恶的内容,也请点个“×”,明确屏蔽掉特定关键字,让系统不再做无用的探索。
1704850013
1704850014
在谷歌和百度已经成为互联网基础建设、自然语言搜索已经相对完善的当下,掌握搜索技巧、高效地使用搜索引擎仍然值得一书。那么,对于意图表达更隐晦、发展更不完善的内容推荐系统来说,了解推荐引擎的工作机制,更积极的参与才能够给用户自身带来更好的推荐内容。
1704850015
1704850016
自媒体
1704850017
1704850018
对内容创作者来说,只有清楚自己的内容是如何触达用户的,才能够更好地“包装”和“加工”内容。一篇内容有机会触达用户,是因为它能够被机器理解;一篇内容有机会扩散给足够多的用户,则是因为它能够收获用户的满意点击。服务于机器、服务于人,这样的内容才能够在推荐系统中获得良好的分发量。更详细的内容,会在后续章节中进行探讨。
1704850019
1704850020
产品经理
1704850021
1704850022
对产品经理来说,理解推荐系统架构有助于更好地优化产品体验、迭代分发策略,主要表现在以下几方面:
1704850023
1704850024
第一,完善用户画像。
1704850025
1704850026
通过上面的介绍我们知道,一个用户的画像越完善,就越能让一次查询的语义变得丰富,从而获得更多的候选集合,进而可能得到更好的推荐体验。
1704850027
1704850028
以NBA为例,每年的6月下旬到10月底,是休赛期。在这一时段内,除了偶尔哪个球星的花边消息还算得上NBA相关新闻外,基本看不到什么有关NBA的内容。对推荐系统来说,如果对用户的认知只停留在NBA这一个兴趣点上,那么这段时间显然没有办法给用户提供优质的消费内容。只有知道用户尽可能多的兴趣,内容推荐的体验才不至于因某一内容源的断供而跳崖。
1704850029
1704850030
完善用户画像既可以通过尽可能多的外部渠道数据塑造用户来实现,也可以借助产品设计和运营活动引导用户多沉淀行为来实现。以支付宝为例,一次过年的集五福活动,就让它收集了数以亿计的关系链数据。而紧随其后的蚂蚁森林、蚂蚁庄园等轻社交游戏,间接地丰富了用户的线下支付数据、用户的健康数据等。
1704850031
1704850032
第二,优化信息召回。
[
上一页 ]
[ :1.704849983e+09 ]
[
下一页 ]