打字猴:1.703952361e+09

1703952361 上下文引擎，通过顾客的浏览轨迹，结合上下文内容，给顾客推荐与上下文相关的商品。

1703952362

1703952363 规则引擎，通过人为配置一些规则，包括节日、季节、热点事件等社会化信息，给顾客推荐更应景的商品，例如在情人节来临之前，推荐鲜花、巧克力、浪漫餐厅等商品。

1703952364

1703952365 在上面的描述中，我们了解到了顾客画像的重要性，如图9-6所示是顾客画像的组成，包括人口中统计学信息、兴趣图谱、消费类型、忠诚度、第三方网站的顾客画像。通过对这些信息的分析，个性化推荐引擎就能够做到比用户自己更了解自己。

1703952366

1703952367

1703952368

1703952369

1703952370 图9-6　顾客画像组成

1703952371

1703952372 根据顾客画像信息，给顾客“打标签”，每个顾客都有一系列的“标签”，个性化推荐引擎根据场景来选择哪些是主标签、哪些是辅助标签。

1703952373

1703952374 以上我们了解了个性化推荐引擎的业务实现，接下来我们来学习个性化推荐引擎的技术架构，如图9-7所示。从下往上看，最底层是规则数据层，是对规则数据的存储和加工，它通过数据总线，向上输出规则数据；规则引擎层，包括用户资料、上下文等规则处理模块，向上输出适合场景的规则，将用户画像、商品关联、类目和商品属性数据输入到规则引擎中，得出了初步的推荐结果；再经过场景引擎的规则过滤、去重、结果优化，把最终推荐结果展示给顾客；最后根据顾客的点击情况，再反馈给推荐引擎，用于优化下一次的推荐结果，这也是个机器学习的过程，实现了程序的自我进化，数据和规则积累得越多，个性化推荐引擎的计算结果就越接近顾客的真正需要。

1703952375

1703952376

1703952377

1703952378

1703952379 图9-7　个性化推荐引擎技术架构

1703952380

1703952381 技术管理之巅：如何从零打造高质效互联网技术团队？ [:1703949772]

1703952382 9.1.4　电商搜索引擎架构设计

1703952383

1703952384 电商搜索引擎，是帮助顾客快速找到需要购买的商品的工具，衡量一个电商搜索引擎是否成功的标准是，顾客在一连串的搜索行为当中，是否越来越接近自己的真实需求。顾客越快进入商品页面去浏览商品，越表明搜索引擎推荐的搜索结果越精确。电商搜索引擎，是传统搜索引擎的一个垂直领域，为了更好地学习搜索引擎的相关知识，我们首先要看一个完整的搜索引擎的技术架构。

1703952385

1703952386 一个完整的搜索引擎技术框架，如图9-8所示，搜索引擎的技术架构，分成3个部分：信息采集、建立索引库、提供检索服务，下面我们分别来探讨这3部分内容。

1703952387

1703952388

1703952389

1703952390

1703952391 图9-8　搜索引擎技术架构

1703952392

1703952393 信息采集，在互联网中发现、搜集信息和数据。通常，这个步骤是通过爬虫（Crawler/Spider）抓取网页来实现的。每个独立的搜索引擎都有自己的网页抓取程序爬虫。爬虫Spider顺着网页中的超链接，从这个网站爬到另一个网站，通过超链接分析连续访问抓取更多网页。被抓取的网页被称之为网页快照。由于互联网中超链接的应用很普遍，理论上，从一定范围的网页出发，就能搜集到绝大多数的网页。

1703952394

1703952395 建立索引库，对收集到的信息进行提取和组织建立索引库。搜索引擎抓到网页后，还要做大量的预处理工作，才能提供检索服务。其中，最重要的就是提取关键词，建立索引库和索引。根据应用场景的不同，其他可能的处理还包括去除重复网页、分词（中文）、判断网页类型、分析超链接、计算网页的重要度/丰富度等。

1703952396

1703952397 提供检索服务，由检索器根据用户输入的查询关键字，提供检索服务。接受到关键词后，系统在索引库中快速检出文档，进行文档与查询的相关度评价，对将要输出的结果进行排序，并将查询结果返回给用户。通常，为了用户便于判断，除了网页标题和URL外，还会提供一段来自网页的摘要及其他信息。

1703952398

1703952399 其实搜索已经是一项非常成熟的技术，这里不打算展开讨论了，只介绍几个在搜索技术架构上比较重要的技术点：分布式索引、分布式搜索。

1703952400

1703952401 分布式索引，就是通过很多普通配置的硬件，同时进行索引建立的工作，最后进行索引的合并操作。这样处理的好处在于，具备可扩展性，当数据增加的时候，无须增加单台机器的存储设备，而是通过水平扩展，增加配置普通的机器来解决。建立分布式索引，可采用Hadoop这类分布式系统进行构建，Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。HDFS有高容错性的特点，并且设计用来部署在低廉的硬件上；同时它提供高传输率来访问应用程序的数据，适合那些有着超大数据集的应用程序。HDFS的上一层是MapReduce引擎，用于大规模数据集的并行运算。概念Map（映射）和Reduce（规约），和它们的主要思想，都是从函数式编程语言里借来的，还有从矢量编程语言里借来的特性。基于这些分布式特性，搜索索引建立可以非常容易地通过它来进行扩展。利用Hadoop的平台和MapReduce的机制，来实现建立分布式搜索索引，是非常好的实践。

1703952402

1703952403 分布式搜索，是将原来的单个索引文件划分成n个切片（shards）。搜索时，并行的搜索这n个切片，每个切片返回当前shard的topK命中结果；然后将n个切片的局部topK进行归并排序，得到全局的topK排序结果。分布式搜索的好处在于：更好的可扩展性，在用户访问次数和索引大小两个维度都具有水平扩展能力；更高的稳定性，容许部分失败，调用成功率显著提高；更灵活的全量更新策略，可针对不同类型的数据；更灵活的排序算法，可以针对不同类目，做定制化的排序；更好的可维护性和通用性，支持不同类型的搜索。

1703952404

1703952405

1703952406

1703952407

1703952408 技术管理之巅：如何从零打造高质效互联网技术团队？ [:1703949773]

1703952409 技术管理之巅：如何从零打造高质效互联网技术团队？ 9.2　最接地气的基础架构设计

1703952410

[ 上一页 ] [ :1.703952361e+09 ] [ 下一页 ]