1704850091
图2–1 淘宝网购物分类
1704850092
1704850093
应用分类时必须考虑分类权威性和信息完备性问题,避免因为子节点覆盖不全或分类错误导致的认知问题。比如,在一些内容创作平台上,用户就经常会反映自己上传作品没有合适的可选择分类的情况。通常,我们建议由专家系统进行编辑分类,这样才能够最大化分类结构的可用性。
1704850094
1704850095
标签是网状的,更强调表达属性关系(has a)而非继承关系(is a),只有权重大小之分,不强调包含与被包含关系。这就使得相对于分类而言,标签的灵活性更强。在权威性方面,标签是弱化的,每个用户都可参与进来,基于自己的偏好贴标签,从而借助规模效应实现对信息表意完备性的覆盖。
1704850096
1704850097
由于网状结构包含树状结构,故而标签可以被应用于分类的场景。在我们设计系统时,可以先基于产品场景快速覆盖主要标签,再结合标签集合的使用频次、专家建议等因素逐步将部分入口收敛到树状的分类体系中来。
1704850098
1704850099
标签的产出
1704850100
1704850101
标签从何而来?典型的产出方式有专家系统产出(PGC)和普通网友产出(UGC)两种。
1704850102
1704850103
专家系统产出最经典的例子莫过于音乐推荐引擎潘多拉(Pandora)的音乐基因工程(Music Genome Project)。在这项工程中,歌曲体系被抽离出450个标签,细化到如主唱性别、电吉他失真程度、背景和声类型等。每一首歌曲都会经由工作人员耗时二三十分钟,有选择性地标注一些标签,并以0~5的分值代表这一标签的表征程度。在收听过程中,潘多拉也会向用户解释为什么会推荐这首歌曲,从中我们能够一窥其对音乐进行的标签化标注。正是这项浩瀚的工程奠定了潘多拉音乐推荐的基础,并成为它的专利法宝。(参考链接:https://en.wikipedia.org/wiki/Music_Genome_Project)
1704850104
1704850105
1704850106
1704850107
1704850108
图2–2 潘多拉音乐基因工程
1704850109
1704850110
1704850111
1704850112
1704850113
图2–3 潘多拉向用户展示的推荐理由
1704850114
1704850115
而在豆瓣,给音乐贴标签的活计则从专家系统产出转为了普通网友产出。群体的力量为豆瓣积累了大量具有语义表意性的标签。当然,由于用户的多样性和编辑的开放性,用户标签系统需要经过特定的清洗和归一处理。以图2–4为例,该图截自豆瓣音乐的标签系统(https://music.douban.com/tag/)。图中被框选中的部分,“摇滚”和“rock”(摇滚)表意相同为重复标签,足以说明对用户标签进行数据清洗的必要性。
1704850116
1704850117
1704850118
1704850119
1704850120
图2–4 豆瓣音乐的标签系统截图
1704850121
1704850122
为了更好地促进用户标签的产出,我们可以借助产品层的调整和引导。豆瓣引导用户对专辑点评的界面如图2–5,它展示了层级递进的关系。
1704850123
1704850124
1704850125
1704850126
1704850127
图2–5 豆瓣音乐引导用户点评专辑界面
1704850128
1704850129
• 五星评价:门槛最低的评判。
1704850130
1704850131
• 标签输入:给出了输入框,同时也给出了候选标签集合(包含用户自己制定的标签,以及该专辑的常见标签)。用户从已有候选集里选择的成本是显著低于输入成本的,这一设计同时实现了促进用户表达和规范化输入的效果。
1704850132
1704850133
• 简短评论:最高门槛的评判,深度用户沉淀内容。
1704850134
1704850135
当然,对断物而言,标签体系也有它力有未逮的地方,并不一定适合所有场景。
1704850136
1704850137
在上面的案例中,标签适合的是文字表意歧义较小、可以枚举的类型。但在某些领域,标签很难准确地表意或概括。比如,你怎样给人介绍什么是爵士乐?“余音绕梁”“节奏感十足”等,似乎都不能准确传递爵士乐的特点。又如,怎样定义一个人是帅的或漂亮的?大家各有各的标准,很难达成统一。
1704850138
1704850139
在这种情况下,我们需要引入聚类的方式来描述。这种方式并不是以标签词的方式来定义事物是怎样的,而是基于某一维度的特征将相关物品组成一个集合,并告诉你这个新的物品同哪个集合相似。比如,一段藏獒捕食的视频,会同动物世界里猛兽捕食的内容聚为一类,而不会同家猫捕捉老鼠的内容聚为一类。
1704850140
[
上一页 ]
[ :1.704850091e+09 ]
[
下一页 ]