1704850880
对于短时效性内容,在识别层面,可以首先基于消费规模进行头部类目的覆盖(如介入可枚举的天气、股市、赛事、时事等信息),其次进行通用的时效性识别。在推荐层面,短时效性内容需要更快速地传播到用户消费列表和推送场景上去。如果一篇内容正常需要一个小时的缓慢冷启动过程的话,短时效性内容可以依赖规则触发机制,在半小时内完成全量传播。比如天气、股市等信息,是完全可以对接权威官方机构,实现自动化分发乃至推送的。
1704850881
1704850882
对于中时效性内容,大多数在两三天的维度内均可消费(如娱乐、汽车、游戏、行业分析等),系统通常会视自己的内容产出速度来制定对应的衰减周期。大平台的衰减周期短一些,小平台的衰减周期长一些。
1704850883
1704850884
对于长时效性内容,最典型的应用场景就是搜索,什么时候被用户主动检索出来都具有一定的消费价值。对推荐系统而言,越大的候选集理论上能够产出的推荐效果越好。所以,我们实际做的是计算资源与点击收益的平衡,即什么样的内容值得被长时间保留在推荐候选集当中。用内容在垂类中的消费量衡量是个相对简便的方法。比如,围棋视频的平均消费量是1万次,而其中柯洁大战AlphaGo(阿尔法狗)的消费量是10万次,那么,就可以把它视作围棋领域内相对经典的内容,从而获得更长的推荐周期。
1704850885
1704850886
除了时效性,内容还具有地域消费性的特点:即时天气、本地新闻、同城活动、新店试吃等内容,都应当局限在特定的城市进行分发。如果分发到错误的城市,内容的实用性就会降低。
1704850887
1704850888
对于地域的识别,我们通常从正反两方面着手。正面的地域识别,可以通过标注本地媒体的方式来区分内容分发的范围(如《金陵晚报》的内容直接往南京分发),也可以通过内容中的关键词密度进行补充识别,如大篇幅提到海淀、朝阳,可能就是北京地区的内容。反面的识别豁免,需要对如旅游、历史等类目的内容进行豁免,此类内容中会频繁出现地名,容易造成误伤。
1704850889
1704850890
1704850891
1704850892
1704850894
内容算法:把内容变成价值的效率系统 带着偏见看推荐
1704850895
1704850896
也许,这一章的名字叫作“竟然被骗了?! 关于算法推荐的3个误解,快来看看你有没有?”效果更好。
1704850897
1704850898
推荐其实不是一个新事物,它早已被应用在了如淘宝购物推荐、豆瓣电影推荐、点评美食推荐、携程差旅推荐等不同的场景中,以提升服务质量、优化系统效率。
1704850899
1704850900
当推荐技术应用于内容分发领域后,在已有传统媒体、门户网站仍然占据重要分发位置的情况下,质疑的声浪频传。如果你经历过PC时代,也许会觉得这一幕似曾相识:当年,传统媒体对门户发出过质疑声,中心化的门户模式对去中心化的微博模式同样质疑过。只是岁月轮回,昨日的挑战者成了今日的卫道士,何其唏嘘。
1704850901
1704850902
在本章里,我所做的并非辩护,因为真实的数据表现和传统新闻应用的推荐化转型都充分证明了内容推荐模式是有一定存在价值和发展空间的。我试图从自己的认知角度,对一些常见的误解进行阐述供大家参考。
1704850903
1704850904
站在从业者的角度,我觉得现在的内容推荐产品还远远没有达到理想态,其迭代过程中是存在种种瑕疵和待改进空间的。但发展的进程并不会因为人们的误解而止步。我坚信,科技产品的存在是为了让生活更加美好。
1704850905
1704850906
信息茧房
1704850907
1704850908
当内容分发全面进入推荐分发时代,对这一分发模式的质疑也就越来越多,很多人站出来号召大家要一起戳破“算法的泡泡”。
1704850909
1704850910
一种普遍观点是:机器算法主导的精准分发,在提升阅读体验的同时,也极易导致由信息收窄带来的一叶障目。即在算法分发下,用户将深陷信息茧房当中。
1704850911
1704850912
哈佛大学法学院教授、美国前总统奥巴马的法律顾问凯斯·桑斯坦在其2006年的著作《信息乌托邦——众人如何生产知识》中提出了“信息茧房”这一概念。通过对互联网的考察,桑斯坦指出,在信息传播中,由于公众自身的信息需求并非全方位的,公众只注意自己选择的东西和使自己愉悦的领域,久而久之,会将自身桎梏于像蚕茧一般的“茧房”中。
1704850913
1704850914
这顶“信息茧房”的帽子,随着信息流量分发的迁移,被扣到了不同的内容分发服务头上:
1704850915
1704850916
在国外,先后被吐槽的是谷歌的个性化搜索结果和脸谱网的信息流服务。
1704850917
1704850918
在国内,早在2012年就有人吐槽微博是“信息茧房”,如今吐槽的对象又变成了机器推荐分发。
1704850919
1704850920
当信息生产的门槛不断降低造成内容量的大繁荣,当信息消费者的选择权越来越大、越来越能够主动选择而非被动接受的时候,令人担忧的“信息茧房”就会被越来越多地提及。
1704850921
1704850922
然而,过滤你的并不是算法泡泡。
1704850923
1704850924
在纸媒时代,当用户从特定的媒体人、特定的媒体刊物处获取信息的时候,其信息获取方式不就是纸媒版的订阅关系分发吗?各家纸媒有自己的题材偏好和内容风格,不也构成了一个“茧房”吗?当面对报亭中琳琅满目的刊物和邮局的订阅表时,用户的主动选择便构成了他的认知世界。
1704850925
1704850926
还记得那本月发行量逾700万册的杂志——《知音》吗?其刊载的内容正是今天饱受诟病的典型标题党样例:《风之谷啊我的妹妹,哥哥的未来献给你》(2007年第7期)、《再大的恨放下吧,唤醒前夫赢得亲情一片天》(2007年第35期)。
1704850927
1704850928
在10年前,为什么会有那么多人消费这本杂志,在10年后的今天,就为什么会有同样规模的人在消费着类似内容。从用户需求的角度看,这些内容符合大众用户偏好、可以满足他们打发时间的需求,高阅读量就是用户主动选择的结果。
1704850929
[
上一页 ]
[ :1.70485088e+09 ]
[
下一页 ]