打字猴:1.70485008e+09
1704850080 但是,这个人只有上述这些特点吗?当然不是。也许他又帅又高,有八块腹肌;也许他爱好跑步,能够跑下来马拉松全程。那为什么你在介绍的时候,只选择了他的部分标签呢?因为你考虑了受众的特点,选择了对受众来说,最容易引起共鸣、也最具有代表性的标签。给球友介绍他是高级工程师、给酒友介绍他是校篮球队的成员,尽管从输出信息的准确性上来看并无错误,但是在信息的接收效果上就产生了偏差。
1704850081
1704850082 标签是我们对多维事物的降维理解,抽象出事物更具有表意性、更为显著的特点。在不同的应用场景下,我们会对标签全集进行有针对性地投射,有倾向性地选用不同的标签以换取信息匹配效率最大化。
1704850083
1704850084 在上面这个例子中,有人会关心:对推荐对象的信息整理是否可以更好地结构化呢?比如,可以将一个人的信息划分为基本信息(性别、生日)、教育背景、职业信息(公司、职级)、兴趣爱好等。通过更系统化的分类方式,可以完整地呈现出一个人的特点。这其实涉及“标签”和“分类”的关系。
1704850085
1704850086 通常来说,分类是树状的,是自上而下依次划分的。在分类体系里,每个节点都有严格的父类继承关系,在兄弟节点层都具有可以被完全枚举的属性值。比如,将人类属性基于性别划分为男女,就能够覆盖全部人类属性了。由于树状的层次结构性较好,所以在内容的分类查找领域有很多应用。比如,在淘宝购物时筛选的路径如图2–1所示,就是一种分类体系的应用场景之一。
1704850087
1704850088
1704850089
1704850090
1704850091 图2–1 淘宝网购物分类
1704850092
1704850093 应用分类时必须考虑分类权威性和信息完备性问题,避免因为子节点覆盖不全或分类错误导致的认知问题。比如,在一些内容创作平台上,用户就经常会反映自己上传作品没有合适的可选择分类的情况。通常,我们建议由专家系统进行编辑分类,这样才能够最大化分类结构的可用性。
1704850094
1704850095 标签是网状的,更强调表达属性关系(has a)而非继承关系(is a),只有权重大小之分,不强调包含与被包含关系。这就使得相对于分类而言,标签的灵活性更强。在权威性方面,标签是弱化的,每个用户都可参与进来,基于自己的偏好贴标签,从而借助规模效应实现对信息表意完备性的覆盖。
1704850096
1704850097 由于网状结构包含树状结构,故而标签可以被应用于分类的场景。在我们设计系统时,可以先基于产品场景快速覆盖主要标签,再结合标签集合的使用频次、专家建议等因素逐步将部分入口收敛到树状的分类体系中来。
1704850098
1704850099 标签的产出
1704850100
1704850101 标签从何而来?典型的产出方式有专家系统产出(PGC)和普通网友产出(UGC)两种。
1704850102
1704850103 专家系统产出最经典的例子莫过于音乐推荐引擎潘多拉(Pandora)的音乐基因工程(Music Genome Project)。在这项工程中,歌曲体系被抽离出450个标签,细化到如主唱性别、电吉他失真程度、背景和声类型等。每一首歌曲都会经由工作人员耗时二三十分钟,有选择性地标注一些标签,并以0~5的分值代表这一标签的表征程度。在收听过程中,潘多拉也会向用户解释为什么会推荐这首歌曲,从中我们能够一窥其对音乐进行的标签化标注。正是这项浩瀚的工程奠定了潘多拉音乐推荐的基础,并成为它的专利法宝。(参考链接:https://en.wikipedia.org/wiki/Music_Genome_Project)
1704850104
1704850105
1704850106
1704850107
1704850108 图2–2 潘多拉音乐基因工程
1704850109
1704850110
1704850111
1704850112
1704850113 图2–3 潘多拉向用户展示的推荐理由
1704850114
1704850115 而在豆瓣,给音乐贴标签的活计则从专家系统产出转为了普通网友产出。群体的力量为豆瓣积累了大量具有语义表意性的标签。当然,由于用户的多样性和编辑的开放性,用户标签系统需要经过特定的清洗和归一处理。以图2–4为例,该图截自豆瓣音乐的标签系统(https://music.douban.com/tag/)。图中被框选中的部分,“摇滚”和“rock”(摇滚)表意相同为重复标签,足以说明对用户标签进行数据清洗的必要性。
1704850116
1704850117
1704850118
1704850119
1704850120 图2–4 豆瓣音乐的标签系统截图
1704850121
1704850122 为了更好地促进用户标签的产出,我们可以借助产品层的调整和引导。豆瓣引导用户对专辑点评的界面如图2–5,它展示了层级递进的关系。
1704850123
1704850124
1704850125
1704850126
1704850127 图2–5 豆瓣音乐引导用户点评专辑界面
1704850128
1704850129 • 五星评价:门槛最低的评判。
[ 上一页 ]  [ :1.70485008e+09 ]  [ 下一页 ]