1704850191
除了常住城市的应用外,对于朝九晚五的上班族来说,还有常住地点的概念,如高德地图和滴滴打车中提供的“家”和“公司”的选项。基于日常轨迹和常住地点,系统可以进行一些远距离的推荐,如可以在下班时段推荐家附近的饮食或尝试推荐沿途的消费地点。
1704850192
1704850193
搜索信息。搜索是一个显著表明短期意图的行为,具有随时间衰减的特性。以淘宝为例,当你搜索“螃蟹”之后,那么无论是在淘宝的首页横幅广告,还是在接入了淘宝广告的应用,你都能看到关于“螃蟹”的广告。而当搜索行为过去一段时间或是在你显式购买之后,这类广告的展现就应该降低或停止。
1704850194
1704850195
1704850196
1704850197
1704850198
图2–9 淘宝基于搜索推荐示例图
1704850199
1704850200
评分。评分是最常见的量化行为。如淘宝、京东等购物网站对购物行为不同维度的点评,豆瓣对书籍和电影的打分等,一般都设置为1~5分的评分机制。需要注意的是,不同用户有不同的打分偏好,比如有人习惯性好评,有人则偏严格。因此,需要将用户的历史平均分作为基准进行归一化处理,以衡量用户评分行为背后的认可度。
1704850201
1704850202
收藏。收藏表达了用户对内容的偏好程度。在内容领域,具有工具性或实用性的内容通常更容易被收藏。在电商领域,收藏和加入购物车一样都是用户购买意图的体现。
1704850203
1704850204
分享。除了表达喜好外,分享还传递了用户的立场和态度。比如,用户会阅读、评论很多热门的内容,但在转发的操作上是审慎的。转发到微博或微信朋友圈的动作代表了用户在用自己的社会身份扩散内容。从某种角度而言,转发的肯定意义比收藏、评论等行为的意义要大。
1704850205
1704850206
评论。评论代表了参与度,但不一定明确地关联到态度的好恶。对评论的处理需要进一步进行文本分析,以获取用户的表意性和情感倾向性。在产品层上,淘宝的宝贝印象算是一个典型应用,通过抽离出用户的共同评语来辅助新的消费者进行决策。
1704850207
1704850208
1704850209
1704850210
1704850211
图2–10 淘宝网站宝贝印象截图
1704850212
1704850213
播放比例或播放时长。与点击行为相比,播放时长是一个相对隐性的行为。我们通常可以用播放时长来衡量用户对特定视频点击后的消费体验。2012年,YouTube就已经调整视频排序算法,将获得观看时长更多的视频排在更优先的位置。
1704850214
1704850215
1704850216
1704850217
1704850219
内容算法:把内容变成价值的效率系统 推荐算法:物以类聚,人以群分
1704850220
1704850221
在理解了内容和用户的基础特征之后,我们将进一步探讨推荐算法是如何匹配用户和内容的。概括而言,这一过程所做的就是“物以类聚,人以群分”。
1704850222
1704850223
物以类聚:基于内容属性的相似性推荐
1704850224
1704850225
有了完善的物品画像,我们就可以基于其固有属性来计算物品与物品之间的相似度,从而推荐与用户历史消费相似的新物品。以内容推荐为例,其用于相似度计算的常见因素有:作者层面的相似性(基于订阅或偏好关系),内容层面的相似性(如关键词、话题、类目、聚类、标签等)。
1704850226
1704850227
基于内容属性的推荐方式,常见于音乐(如潘多拉)、电影和书籍(如豆瓣)的推荐场景中。以图书推荐场景为例,在豆瓣图书上,有三本书分别有如下标签:
1704850228
1704850229
表3–1 图书标签举例
1704850230
1704850231
1704850232
1704850233
1704850234
从标签层面不难看出,《推荐系统实践》与《推荐系统》在标签集合层面拥有更多的相同标签,具有更高的相似度。那么,当用户A选择了《推荐系统实践》之后,系统应当优先给他推荐的是《推荐系统》,而非《大数据时代》。
1704850235
1704850236
如果想要进一步细化,那么可以借助TF–IDF方式给不同的标签设定权重。其基本思想是:出现频率越高的标签区分度越低,反之亦然。比如“计算机”是一个高频出现的标签,那么这个标签的区分度就没有那么高,权重较低;而“推荐系统”是一个低频出现的标签,则该标签就更具有显著性和区分度,权重较高。
1704850237
1704850238
基于内容属性推荐的好处在于,只依赖物品本身的特征而不依赖用户的行为,让新的物品、冷僻的物品都能得到展示的机会。其存在的问题在于,推荐质量的优劣完全依赖于特征构建的完备性,但特征构建本身是一项系统的工程,存在一定成本。在上面的例子中,如果标签词粒度不够细,不能够全面描述书的内容(比如每本书的标签词只有三个),就很难计算出置信的相似度,达不到足够好的推荐效果。
1704850239
1704850240
此外,基于内容属性推荐没有考虑用户对物品的态度,用户的品位和调性很难得到诠释和表达。比如,市面上关于内容分发的书籍很多,仅从标签词上很难分辨出高下。为了在推荐中更好地引入受众反馈因素,提出了基于用户行为的“协同过滤”概念。
[
上一页 ]
[ :1.704850191e+09 ]
[
下一页 ]