打字猴:1.704850102e+09

1704850102

1704850103 专家系统产出最经典的例子莫过于音乐推荐引擎潘多拉（Pandora）的音乐基因工程（Music Genome Project）。在这项工程中，歌曲体系被抽离出450个标签，细化到如主唱性别、电吉他失真程度、背景和声类型等。每一首歌曲都会经由工作人员耗时二三十分钟，有选择性地标注一些标签，并以0~5的分值代表这一标签的表征程度。在收听过程中，潘多拉也会向用户解释为什么会推荐这首歌曲，从中我们能够一窥其对音乐进行的标签化标注。正是这项浩瀚的工程奠定了潘多拉音乐推荐的基础，并成为它的专利法宝。（参考链接：https://en.wikipedia.org/wiki/Music_Genome_Project）

1704850104

1704850105

1704850106

1704850107

1704850108 图2–2 潘多拉音乐基因工程

1704850109

1704850110

1704850111

1704850112

1704850113 图2–3 潘多拉向用户展示的推荐理由

1704850114

1704850115 而在豆瓣，给音乐贴标签的活计则从专家系统产出转为了普通网友产出。群体的力量为豆瓣积累了大量具有语义表意性的标签。当然，由于用户的多样性和编辑的开放性，用户标签系统需要经过特定的清洗和归一处理。以图2–4为例，该图截自豆瓣音乐的标签系统（https://music.douban.com/tag/）。图中被框选中的部分，“摇滚”和“rock”（摇滚）表意相同为重复标签，足以说明对用户标签进行数据清洗的必要性。

1704850116

1704850117

1704850118

1704850119

1704850120 图2–4 豆瓣音乐的标签系统截图

1704850121

1704850122 为了更好地促进用户标签的产出，我们可以借助产品层的调整和引导。豆瓣引导用户对专辑点评的界面如图2–5，它展示了层级递进的关系。

1704850123

1704850124

1704850125

1704850126

1704850127 图2–5 豆瓣音乐引导用户点评专辑界面

1704850128

1704850129 • 五星评价：门槛最低的评判。

1704850130

1704850131 • 标签输入：给出了输入框，同时也给出了候选标签集合（包含用户自己制定的标签，以及该专辑的常见标签）。用户从已有候选集里选择的成本是显著低于输入成本的，这一设计同时实现了促进用户表达和规范化输入的效果。

1704850132

1704850133 • 简短评论：最高门槛的评判，深度用户沉淀内容。

1704850134

1704850135 当然，对断物而言，标签体系也有它力有未逮的地方，并不一定适合所有场景。

1704850136

1704850137 在上面的案例中，标签适合的是文字表意歧义较小、可以枚举的类型。但在某些领域，标签很难准确地表意或概括。比如，你怎样给人介绍什么是爵士乐？“余音绕梁”“节奏感十足”等，似乎都不能准确传递爵士乐的特点。又如，怎样定义一个人是帅的或漂亮的？大家各有各的标准，很难达成统一。

1704850138

1704850139 在这种情况下，我们需要引入聚类的方式来描述。这种方式并不是以标签词的方式来定义事物是怎样的，而是基于某一维度的特征将相关物品组成一个集合，并告诉你这个新的物品同哪个集合相似。比如，一段藏獒捕食的视频，会同动物世界里猛兽捕食的内容聚为一类，而不会同家猫捕捉老鼠的内容聚为一类。

1704850140

1704850141 在图2–6中，一则汽车降价促销的内容，就同多条汽车销售的内容一起被系统聚合成一类。

1704850142

1704850143 待聚类内容：英朗XT降2.6万贷款购车免息送油卡

1704850144

1704850145 马自达CX–7现金最高直降2万元

1704850146

1704850147 别克君越现金最高直降3.6万元现车销售

1704850148

1704850149 沃尔沃V40现金最高直降5万元现车销售

1704850150

1704850151 揽胜极光促销，置换再享优惠

[ 上一页 ] [ :1.704850102e+09 ] [ 下一页 ]