打字猴:1.704850102e+09
1704850102
1704850103 专家系统产出最经典的例子莫过于音乐推荐引擎潘多拉(Pandora)的音乐基因工程(Music Genome Project)。在这项工程中,歌曲体系被抽离出450个标签,细化到如主唱性别、电吉他失真程度、背景和声类型等。每一首歌曲都会经由工作人员耗时二三十分钟,有选择性地标注一些标签,并以0~5的分值代表这一标签的表征程度。在收听过程中,潘多拉也会向用户解释为什么会推荐这首歌曲,从中我们能够一窥其对音乐进行的标签化标注。正是这项浩瀚的工程奠定了潘多拉音乐推荐的基础,并成为它的专利法宝。(参考链接:https://en.wikipedia.org/wiki/Music_Genome_Project)
1704850104
1704850105
1704850106
1704850107
1704850108 图2–2 潘多拉音乐基因工程
1704850109
1704850110
1704850111
1704850112
1704850113 图2–3 潘多拉向用户展示的推荐理由
1704850114
1704850115 而在豆瓣,给音乐贴标签的活计则从专家系统产出转为了普通网友产出。群体的力量为豆瓣积累了大量具有语义表意性的标签。当然,由于用户的多样性和编辑的开放性,用户标签系统需要经过特定的清洗和归一处理。以图2–4为例,该图截自豆瓣音乐的标签系统(https://music.douban.com/tag/)。图中被框选中的部分,“摇滚”和“rock”(摇滚)表意相同为重复标签,足以说明对用户标签进行数据清洗的必要性。
1704850116
1704850117
1704850118
1704850119
1704850120 图2–4 豆瓣音乐的标签系统截图
1704850121
1704850122 为了更好地促进用户标签的产出,我们可以借助产品层的调整和引导。豆瓣引导用户对专辑点评的界面如图2–5,它展示了层级递进的关系。
1704850123
1704850124
1704850125
1704850126
1704850127 图2–5 豆瓣音乐引导用户点评专辑界面
1704850128
1704850129 • 五星评价:门槛最低的评判。
1704850130
1704850131 • 标签输入:给出了输入框,同时也给出了候选标签集合(包含用户自己制定的标签,以及该专辑的常见标签)。用户从已有候选集里选择的成本是显著低于输入成本的,这一设计同时实现了促进用户表达和规范化输入的效果。
1704850132
1704850133 • 简短评论:最高门槛的评判,深度用户沉淀内容。
1704850134
1704850135 当然,对断物而言,标签体系也有它力有未逮的地方,并不一定适合所有场景。
1704850136
1704850137 在上面的案例中,标签适合的是文字表意歧义较小、可以枚举的类型。但在某些领域,标签很难准确地表意或概括。比如,你怎样给人介绍什么是爵士乐?“余音绕梁”“节奏感十足”等,似乎都不能准确传递爵士乐的特点。又如,怎样定义一个人是帅的或漂亮的?大家各有各的标准,很难达成统一。
1704850138
1704850139 在这种情况下,我们需要引入聚类的方式来描述。这种方式并不是以标签词的方式来定义事物是怎样的,而是基于某一维度的特征将相关物品组成一个集合,并告诉你这个新的物品同哪个集合相似。比如,一段藏獒捕食的视频,会同动物世界里猛兽捕食的内容聚为一类,而不会同家猫捕捉老鼠的内容聚为一类。
1704850140
1704850141 在图2–6中,一则汽车降价促销的内容,就同多条汽车销售的内容一起被系统聚合成一类。
1704850142
1704850143 待聚类内容:英朗XT降2.6万 贷款购车免息送油卡
1704850144
1704850145 马自达CX–7现金最高直降2万元
1704850146
1704850147 别克君越现金最高直降3.6万元 现车销售
1704850148
1704850149 沃尔沃V40现金最高直降5万元 现车销售
1704850150
1704850151 揽胜极光促销,置换再享优惠
[ 上一页 ]  [ :1.704850102e+09 ]  [ 下一页 ]