打字猴:1.704850843e+09
1704850843
1704850844
1704850845 在确认了问题的影响面和优先级之后,就需要针对各类问题达成一致可理解的定义。在这一环节中,我们需要抽离出问题最重要的抽象信息,让第一次看到这些信息的人也能迅速明白这类问题的主要表征是怎样的;然后,辅以大量的正例、负例,以帮助参与的人能够通过例证更好地对齐理解、把握尺度。比如,对迷信类内容的标注为:
1704850846
1704850847 表6–3 迷信类内容标注示例
1704850848
1704850849
1704850850
1704850851
1704850852 数据收集与标注是为模型训练做准备的。基于对标准的理解,标注人员通过双盲校验的方式标注出足够进行模型训练的数据。在大型互联网公司,通常都有专门的数据标注人员负责企业数据的标注和整理。
1704850853
1704850854 在研发产出识别模型后,产品经理还需要对模型的准确度和召回度进行评估。在不同的应用场景下,准确和召回的平衡度是不一样的。在易反感问题上:如果要强化读者端的体验,尽量不让用户看到易反感的内容,就需要重视召回率,宁肯误删也不能漏删;如果要强化作者端体验,希望作者的内容尽量不要被误删,则需要重视准确率,适当露出一些置信度低的结果或增加人工复审捞回流程以保证内容不至于被错杀。
1704850855
1704850856 在推荐过程中,对易反感内容的推荐处理是一个强化负反馈的过程。
1704850857
1704850858 在列表页展示层,对普通内容而言,如果用户不点击的话可以视作无损,而对于易反感内容,即使用户不点击,也应当视作一个负向反馈,拉长此类内容的二次探索周期。
1704850859
1704850860 以推荐蛇和NBA内容给女性用户为例。如果用户都没有点击,那么可以将NBA内容在下一个周期(比如5天)再次推荐给用户,作为二次探索尝试;但蛇的内容就应该推迟多个周期后才推荐,以降低对用户可能的影响。
1704850861
1704850862 在令用户反感的行为上亦然。用户往往只会点击页面上的关闭按纽,而不会选择具体原因。如果一篇内容同时命中多个点的话,容易引起反感的原因理应受到更大的惩罚值。
1704850863
1704850864 由于易反感内容多发生在探索环节,主要影响用户的列表页体验,故在统计上并不会显著影响留存。但对此类内容进行更细致化的处理印证是做内容分发的初心:如你所愿,阅你所悦。
1704850865
1704850866 时空限定内容
1704850867
1704850868 作为一种消费品,内容是有特定消费时空限定的。如果以商品做对比的话,就如同端午节卖月饼、在上海卖豆汁儿一样,销量必然惨淡。深入理解内容的时效性和空间性消费特点,能够帮助我们更好地提升消费体验、促进内容消费规模增长。
1704850869
1704850870 在时效性上,不同的内容有不同的保鲜期。
1704850871
1704850872 短时效性内容,以赛事、股市信息为代表。这类内容具有保质期短、时效性强的特点。它们可能会每半小时更新一次。在新版本的消息出来后,旧的消息就完全没有价值了。比如:演唱会预告的内容,就不应该在演唱会之后再推荐出来;赛事结束后,中场的消息就不应该再展示了。
1704850873
1704850874 中时效性内容,通常可以覆盖绝大多数新闻内容,涉及最近发生的新闻事件,以天和周为时效性周期。比如,与电视剧《权力游戏》相关的内容生产与消费通常与电视剧播出节奏保持一致,在剧集播出之后,其热度逐渐衰减。
1704850875
1704850876 长时效性内容,具有跨时间维度的消费价值,可以是知识、案例分析等非虚构内容,也可以是小说、散文等虚构内容。
1704850877
1704850878 对大型推荐系统来说,在处理内容时效性问题上,需要平衡两方面的问题:长时效性内容推荐的日期短了,会造成资源浪费;短时效性内容推荐的时间长了,会对用户体验造成伤害。因此,推荐系统会基于内容的特点预判不同内容的衰减周期和推荐策略。
1704850879
1704850880 对于短时效性内容,在识别层面,可以首先基于消费规模进行头部类目的覆盖(如介入可枚举的天气、股市、赛事、时事等信息),其次进行通用的时效性识别。在推荐层面,短时效性内容需要更快速地传播到用户消费列表和推送场景上去。如果一篇内容正常需要一个小时的缓慢冷启动过程的话,短时效性内容可以依赖规则触发机制,在半小时内完成全量传播。比如天气、股市等信息,是完全可以对接权威官方机构,实现自动化分发乃至推送的。
1704850881
1704850882 对于中时效性内容,大多数在两三天的维度内均可消费(如娱乐、汽车、游戏、行业分析等),系统通常会视自己的内容产出速度来制定对应的衰减周期。大平台的衰减周期短一些,小平台的衰减周期长一些。
1704850883
1704850884 对于长时效性内容,最典型的应用场景就是搜索,什么时候被用户主动检索出来都具有一定的消费价值。对推荐系统而言,越大的候选集理论上能够产出的推荐效果越好。所以,我们实际做的是计算资源与点击收益的平衡,即什么样的内容值得被长时间保留在推荐候选集当中。用内容在垂类中的消费量衡量是个相对简便的方法。比如,围棋视频的平均消费量是1万次,而其中柯洁大战AlphaGo(阿尔法狗)的消费量是10万次,那么,就可以把它视作围棋领域内相对经典的内容,从而获得更长的推荐周期。
1704850885
1704850886 除了时效性,内容还具有地域消费性的特点:即时天气、本地新闻、同城活动、新店试吃等内容,都应当局限在特定的城市进行分发。如果分发到错误的城市,内容的实用性就会降低。
1704850887
1704850888 对于地域的识别,我们通常从正反两方面着手。正面的地域识别,可以通过标注本地媒体的方式来区分内容分发的范围(如《金陵晚报》的内容直接往南京分发),也可以通过内容中的关键词密度进行补充识别,如大篇幅提到海淀、朝阳,可能就是北京地区的内容。反面的识别豁免,需要对如旅游、历史等类目的内容进行豁免,此类内容中会频繁出现地名,容易造成误伤。
1704850889
1704850890
1704850891
1704850892
[ 上一页 ]  [ :1.704850843e+09 ]  [ 下一页 ]