1704849931
其中,离线部分专注于内容的搜集和处理。搜索引擎的爬虫系统会从海量网站上抓取原始内容,并针对搜索系统的不同要求建立不同的索引体系。比如,我们假设新内容是有时效性消费价值的,那么,为了让新内容能够被更好地检索,就可以建立专门的时效性索引用于存储几小时之内发布的内容。
1704849932
1704849933
索引是一个基于关键词的序列,每一个关键词对应一长串提及该关键词的内容(倒排索引)。比如,“教育”这个词命中内容1、2、3,“NBA”命中了另外一批内容1、2、4。
1704849934
1704849935
在线部分负责响应用户的搜索请求,完成内容的筛选和排序,并最终把结果返回给用户。
1704849936
1704849937
当用户输入搜索词后,系统会首先对搜索词进行分词、变换、扩充、纠错等处理过程,以便更好地理解用户的搜索意图。如图1–2所示,用户只输入了“NBA”一个关键词,系统发现“NBA”和“美职篮”是同义词,就会将其扩充,以便两个词都可以应用在索引的查询上。又如,你输入了“NB2K”,系统认为你的输入有误,就会将其纠正为“NBA2K”,并首先返回相应结果。
1704849938
1704849939
1704849940
1704849941
1704849942
图1–2 搜索系统架构
1704849943
1704849944
经历完搜索词处理后,将进入召回环节。系统通过多种方式从不同的索引数据里获得候选集合。在图1–2中,就进行了一个“2×2”的过程,两个搜索词“NBA”与“美职篮”分别查询了全量的索引数据和时效性索引数据,一共获得了8篇内容的集合。
1704849945
1704849946
1704849947
1704849948
1704849949
图1–3 输入“NB2K”的显示结果
1704849950
1704849951
召回得到的候选集合会继续进入排序环节,通过更精细的计算模型对每一篇候选内容进行分值计算,从而获得最终结果(如图1–2中的文章10和文章1)。
1704849952
1704849953
在展示给用户之前,搜索结果还需要经过规则干预这一环节。规则通常服务于特定的产品目的,对计算产出的内容进行最终的调整。假如我们有这样一条“官方网站保护规则:确保所有品牌名搜索词都可以优先返回官网”,那么规则层就会在文章10和文章1之前,强行插入NBA官方网站返回给用户。
1704849954
1704849955
在结果展示给用户之后,用户的点击反馈会影响到排序环节的模型。在图1–4中,用户在展示给他的两篇内容中只点击了文章10,这一行为会被模型记录为统计文章10和文章1在搜索词“NBA”下的表现情况。如果在“NBA”的搜索结果中,更多人点击了文章10,那么文章10在后续计算中的权重会升高,从而获得更靠前的展现位置(即点击调权的过程)。
1704849956
1704849957
以搜索系统为参考基础,我们可以更好地理解推荐系统的工作方式。
1704849958
1704849959
推荐系统的离线部分同样需要通过各种方式来获取待推荐的内容(如用户提交、协议同步、数据库导入等)。对内容平台来说,其内容的结构化要远胜于推荐引擎爬虫抓取的内容。
1704849960
1704849961
之后,离线系统依据推荐引擎对信息的不同理解维度对这些内容进行索引化处理,如话题、类目、实体词等。图1–4中展示了两个维度:分类维度和实体词维度。
1704849962
1704849963
在线部分,其理亦然:量化用户的请求,完成内容的筛选和排序。
1704849964
1704849965
推荐与搜索最大的差异在于用户表意是否明确。因此,推荐系统需要尽可能地完善用户的长期画像(对哪些类目、实体词、话题感兴趣)和短期场景(时间、地点信息),这样才能够在用户每一次请求时更好地揣摩用户当下的意图,以进行后续的内容匹配。
1704849966
1704849967
当用户打开内容推荐应用时,提交给系统的信息包括时间、地理位置、网络环境、手机设备型号、登录用户ID(身份认证)等。基于用户ID,推荐系统会从数据库中取出用户的画像数据(User Profile)。如图1–4所示的推荐系统支持分类和实体词两个维度的用户画像:在分类维度,用户对体育和科技内容感兴趣;在实体词维度,用户对NBA感兴趣。基于体育、科技、NBA,推荐系统会进行下一步的内容召回和排序操作。
1704849968
1704849969
1704849970
1704849971
1704849972
图1–4 点击调权过程图
1704849973
1704849974
召回和排序操作与搜索系统比较相似,系统基于类目查询和实体词查询分别获得候选内容集合。排序模块按照特定预估目标(如点击导向、互动导向、停留时长导向等)对候选集统一排序,并经过规则层的处理后最终反馈给用户。
1704849975
1704849976
值得注意的是,在推荐系统中,用户的行为不仅像在搜索系统中那样具有针对内容价值的群体评估意义,而且还具有针对自身画像的个体进化意义。
1704849977
1704849978
在群体评估意义层面,每一个读者就像是一名陪审团成员,通过自己的行为来决定某篇内容的好坏。比如某篇关于NBA的内容,如果连偏好NBA的用户都不怎么点击,那么这篇内容在“NBA”这个实体词下的权重自然应该降低。这一部分的应用与搜索场景比较类似。
1704849979
1704849980
在个体进化意义层面,用户的阅读反馈行为在持续改进着自身的画像。比如,用户是热火队的粉丝,那么在行为层他就会更多地点击与热火队相关的NBA内容,系统捕捉到这一信息后,就会在他的画像中补充“热火”这个实体词,从而影响后续的推荐内容流。
[
上一页 ]
[ :1.704849931e+09 ]
[
下一页 ]