打字猴:1.704850418e+09
1704850418
1704850419 作为连接内容与人的推荐系统,无时无刻不面对着增量的问题:增量的用户,增量的内容。
1704850420
1704850421 新的用户、新的内容对推荐系统来说都是没有过往信息量积累的、陌生的,需要通过累积一定的曝光量和互动量(阅读、分享等)来收集基础数据。这个从0到1积累基础数据的过程就是冷启动,其效果的好坏直接关系到用户端、作者端的满意度和留存率。
1704850422
1704850423 如果我们假设一篇新内容要经过100次阅读才能得到相对可信的内容画像,新用户同样需要完成100次阅读之后才能够建立起可用的用户画像。那么,一个最直观的问题就是:怎样达成这100次有效的阅读?
1704850424
1704850425 这就是冷启动面临的问题。下面我们从内容和用户两个维度来分别论述。
1704850426
1704850427 内容的冷启动
1704850428
1704850429 在推荐系统中,一篇内容借助探索性展示完成了从0到1的用户反馈积累过程。
1704850430
1704850431 在这个冷启动过程中,如果没能得到足够的正面用户反馈(点击行为和阅读体验),系统就会认为这篇内容是不受欢迎的,为了控制负面影响,就会逐步降低这篇内容的推荐量;反之,如果内容在冷启动过程中顺利找到了自己的目标人群,收获了很高的点击率,就有可能被推荐系统快速放大,具有了成为爆款的可能。因此,“冷启动决定一篇内容的命运”的说法丝毫不为过。
1704850432
1704850433 如推荐算法部分所提到的,在内容被提交进入系统伊始,由于缺乏用户行为反馈,推荐系统更依赖于内容本身的固有属性来进行冷启动。
1704850434
1704850435 基于内容的展示和消费,这些属性可以拆分为内容展现维度和内容消费维度。
1704850436
1704850437 其中,内容展现维度是列表页展现给用户的信息,如标题、封面、发布时间等。
1704850438
1704850439 内容消费维度包括作者层和内容层两方面:作者层内容消费维度是指,作者的粉丝群体更应该看到该作者的新内容,一个过往表现更好的作者可以得到更高的冷启动推荐量;内容层内容消费维度是指分类信息、关键词、命中的实体和话题等,用于判断内容与用户的偏好是否匹配。
1704850440
1704850441 没有点击就没有阅读体验,推荐系统首先考虑的就是表现层信息与用户的匹配度。在不同的应用场景中,用户决策的依据是不一样的,信息的表现方式也是不一样的,故需要结合不同应用的展现方式进行个案分析。以内容在信息流中的展示样式为例,展示出来的信息有标题、封面、作者信息(头像、名称)、发布时间等(如图5–1)。
1704850442
1704850443
1704850444
1704850445
1704850446 图5–1 内容在信息流中的展示示例
1704850447
1704850448 对新发布的内容而言,评论数和发布时间是可以忽略的,那么,展示的重点就集中在标题、封面和作者信息上:标题吸引人,封面清晰、表意明确,作者名称有权威度、与内容的领域保持一致等。
1704850449
1704850450 图5–1中展示的两篇内容其实都存在一些偏差:上方的内容作者名为“武陵之荣光”,对关心内容发布来源的用户来说,作者名称的权威度不够,看上去更像一个地区账号;下方的内容从作者名称看有一定可信度,但只选用了单图方式且图的表意同标题并无直接关联,不足以对用户构成有效引导。选用单图模式的另外一个问题在于,内容在信息流里的高度变矮了,不利于获取用户的注意和点击。
1704850451
1704850452 如前面算法部分所提到的,系统采用协同过滤的方式来对内容进行扩散,只有满意度较高的点击才算得上是对内容的有效正向反馈。冷启动阶段就是为了收获尽可能多的正向反馈,所以在预判用户有点击意图之后,还需要进一步考虑阅读体验是否同用户相匹配,即内容消费层的信息。
1704850453
1704850454 例如,对NBA领域的内容而言,有的是从球赛报道的角度,有的是从赛事版权的角度,还有的是从体育娱乐产业、泛娱乐经济的角度。它们在表现层展现的标题、封面的差异或许不太大,但是在内容的主题、作者或行文用字上,必然存在差异。系统通过分析作者过往的表现(如财经类作者的内容更容易倾向财经角度)、统计词频(如提及版权、分销,还是比分、MVP等关键字)等方式来预估这篇内容的分类话题属性以及用户点击后是否会满意。
1704850455
1704850456 就题材而言,图文载体可供系统分析的信息相对丰富。对视频载体或短内容来说,由于文本信息匮乏,系统会更倾向于从标题、描述、作者维度来预估其点击率和内容质量。
1704850457
1704850458 在实践中,我们经常会碰到由于冷启动有误导致内容推荐出现偏差的情况。先来看几个例子:
1704850459
1704850460 • 视频标题:“普京曾经实习的单位,最厉害的国家狗仔队是如何工作的”
1704850461
1704850462 • 短内容标题:“感恩一起战斗的日子,感谢我的战友”
1704850463
1704850464 • 视频标题:“堪比电影中出现的场景:死神来了!”
1704850465
1704850466 第一个视频标题可以拆分为“普京”“单位、实习、工作”“狗仔队”三部分。第二个短内容标题,从文本特征上来看,基本上命中“战斗”“战友”。第三个视频标题,只从标题上来看,基本上命中电影《死神来了》。
1704850467
[ 上一页 ]  [ :1.704850418e+09 ]  [ 下一页 ]