打字猴:1.703952361e+09
1703952361 上下文引擎,通过顾客的浏览轨迹,结合上下文内容,给顾客推荐与上下文相关的商品。
1703952362
1703952363 规则引擎,通过人为配置一些规则,包括节日、季节、热点事件等社会化信息,给顾客推荐更应景的商品,例如在情人节来临之前,推荐鲜花、巧克力、浪漫餐厅等商品。
1703952364
1703952365 在上面的描述中,我们了解到了顾客画像的重要性,如图9-6所示是顾客画像的组成,包括人口中统计学信息、兴趣图谱、消费类型、忠诚度、第三方网站的顾客画像。通过对这些信息的分析,个性化推荐引擎就能够做到比用户自己更了解自己。
1703952366
1703952367
1703952368
1703952369
1703952370 图9-6 顾客画像组成
1703952371
1703952372 根据顾客画像信息,给顾客“打标签”,每个顾客都有一系列的“标签”,个性化推荐引擎根据场景来选择哪些是主标签、哪些是辅助标签。
1703952373
1703952374 以上我们了解了个性化推荐引擎的业务实现,接下来我们来学习个性化推荐引擎的技术架构,如图9-7所示。从下往上看,最底层是规则数据层,是对规则数据的存储和加工,它通过数据总线,向上输出规则数据;规则引擎层,包括用户资料、上下文等规则处理模块,向上输出适合场景的规则,将用户画像、商品关联、类目和商品属性数据输入到规则引擎中,得出了初步的推荐结果;再经过场景引擎的规则过滤、去重、结果优化,把最终推荐结果展示给顾客;最后根据顾客的点击情况,再反馈给推荐引擎,用于优化下一次的推荐结果,这也是个机器学习的过程,实现了程序的自我进化,数据和规则积累得越多,个性化推荐引擎的计算结果就越接近顾客的真正需要。
1703952375
1703952376
1703952377
1703952378
1703952379 图9-7 个性化推荐引擎技术架构
1703952380
1703952381 技术管理之巅:如何从零打造高质效互联网技术团队? [:1703949772]
1703952382 9.1.4 电商搜索引擎架构设计
1703952383
1703952384 电商搜索引擎,是帮助顾客快速找到需要购买的商品的工具,衡量一个电商搜索引擎是否成功的标准是,顾客在一连串的搜索行为当中,是否越来越接近自己的真实需求。顾客越快进入商品页面去浏览商品,越表明搜索引擎推荐的搜索结果越精确。电商搜索引擎,是传统搜索引擎的一个垂直领域,为了更好地学习搜索引擎的相关知识,我们首先要看一个完整的搜索引擎的技术架构。
1703952385
1703952386 一个完整的搜索引擎技术框架,如图9-8所示,搜索引擎的技术架构,分成3个部分:信息采集、建立索引库、提供检索服务,下面我们分别来探讨这3部分内容。
1703952387
1703952388
1703952389
1703952390
1703952391 图9-8 搜索引擎技术架构
1703952392
1703952393 信息采集,在互联网中发现、搜集信息和数据。通常,这个步骤是通过爬虫(Crawler/Spider)抓取网页来实现的。每个独立的搜索引擎都有自己的网页抓取程序爬虫。爬虫Spider顺着网页中的超链接,从这个网站爬到另一个网站,通过超链接分析连续访问抓取更多网页。被抓取的网页被称之为网页快照。由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。
1703952394
1703952395 建立索引库,对收集到的信息进行提取和组织建立索引库。搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引库和索引。根据应用场景的不同,其他可能的处理还包括去除重复网页、分词(中文)、判断网页类型、分析超链接、计算网页的重要度/丰富度等。
1703952396
1703952397 提供检索服务,由检索器根据用户输入的查询关键字,提供检索服务。接受到关键词后,系统在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并将查询结果返回给用户。通常,为了用户便于判断,除了网页标题和URL外,还会提供一段来自网页的摘要及其他信息。
1703952398
1703952399 其实搜索已经是一项非常成熟的技术,这里不打算展开讨论了,只介绍几个在搜索技术架构上比较重要的技术点:分布式索引、分布式搜索。
1703952400
1703952401 分布式索引,就是通过很多普通配置的硬件,同时进行索引建立的工作,最后进行索引的合并操作。这样处理的好处在于,具备可扩展性,当数据增加的时候,无须增加单台机器的存储设备,而是通过水平扩展,增加配置普通的机器来解决。建立分布式索引,可采用Hadoop这类分布式系统进行构建,Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的硬件上;同时它提供高传输率来访问应用程序的数据,适合那些有着超大数据集的应用程序。HDFS的上一层是MapReduce引擎,用于大规模数据集的并行运算。概念Map(映射)和Reduce(规约),和它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。基于这些分布式特性,搜索索引建立可以非常容易地通过它来进行扩展。利用Hadoop的平台和MapReduce的机制,来实现建立分布式搜索索引,是非常好的实践。
1703952402
1703952403 分布式搜索,是将原来的单个索引文件划分成n个切片(shards)。搜索时,并行的搜索这n个切片,每个切片返回当前shard的topK命中结果;然后将n个切片的局部topK进行归并排序,得到全局的topK排序结果。分布式搜索的好处在于:更好的可扩展性,在用户访问次数和索引大小两个维度都具有水平扩展能力;更高的稳定性,容许部分失败,调用成功率显著提高;更灵活的全量更新策略,可针对不同类型的数据;更灵活的排序算法,可以针对不同类目,做定制化的排序;更好的可维护性和通用性,支持不同类型的搜索。
1703952404
1703952405
1703952406
1703952407
1703952408 技术管理之巅:如何从零打造高质效互联网技术团队? [:1703949773]
1703952409 技术管理之巅:如何从零打造高质效互联网技术团队? 9.2 最接地气的基础架构设计
1703952410
[ 上一页 ]  [ :1.703952361e+09 ]  [ 下一页 ]