打字猴:1.700431733e+09
1700431733 从非结构化文本中提取结构数据
1700431734
1700431735 文本分析的例子很好地说明了该过程:获取非结构化数据,然后处理该数据,最后创建出可以用于分析和报表过程的结构化数据。驾驭大数据的一个重要部分是,利用这种创造性的方式将非结构化数据和半结构化数据变成可用于分析的数据。
1700431736
1700431737 解释文本数据实际上是相当困难的。强调的词汇和语境不同,同一个单词表达出来的意思就不同。面对纯文本,我们根本不知道重点在哪里,也不知道整个语境。这说明我们得事先进行一些假设,我们会在第6章中更详细地讨论这个问题。
1700431738
1700431739 文本分析既是一门艺术,也是一门科学,总会存在一定的不确定性。文本分析往往会有分类错误和含义模糊的问题。没错,如果我们在文本集合中发现了更好的决策支持模式,那就应该使用它。文本分析的目标是改进你的决策,但并不是令你的决策变得完美。文本数据可以有效地提升决策效果,它能提供比没有它时更好的结果,即使数据有噪音或含义模糊时,这一点也成立。
1700431740
1700431741 使用文本数据
1700431742
1700431743 一种目前很流行的文本分析应用是所谓的情感分析。情感分析是从大量人群中挖掘出总体观点,并提供市场对某个公司的评论、看法和感受等相关信息。情感分析通常使用社会化媒体网站的数据。以下是情感分析的几个例子。
1700431744
1700431745 ■ 公司或产品的口碑怎么样?
1700431746
1700431747 ■ 大家正在讨论的是公司的哪些活动?
1700431748
1700431749 ■ 大家对公司、产品和服务的评价是好是坏?
1700431750
1700431751 如前所述,文本分析的难点在于词汇和语境是相关的。我们要考虑到这个问题,但大量的评价会让客户情感的倾向变得明确。如果我们可以解读出人们在社交媒体上所说内容、与客服互动信息的趋势,这会对规划下一步的工作有很大的价值。
1700431752
1700431753 如果公司可以掌握每一个客户的情感信息,就能了解客户的意图和态度。与使用网络数据推断客户意图的方法类似,了解客户对某种产品的总体情感是正面情感还是负面情感也是很有价值的信息。如果这名客户此时还没有购买该产品,那价值就更大了。情感分析提供的信息可以让我们知道要说服这名客户购买该产品的难易程度。
1700431754
1700431755 文本数据的另一个用途是模式识别。我们对客户的投诉、维修记录和其他的评价进行排序,期望在问题变大之前,能够更快地识别和修正问题。产品首次发布,然后开始出现投诉,文本分析可以识别出客户在哪些方面存在问题。我们甚至可以做到在客服电话接二连三打进来之前,先把问题识别出来。这样我们就能更快地、更积极地做出响应。公司可以及时地做出反应,解决产品未来发行版本中同样的问题,也能主动与客户进行接触,缓解他们当下遇到困难时的焦躁情绪。
1700431756
1700431757 欺诈检测也是文本数据的重要应用之一。在健康险或伤残保险的投诉事件中,使用文本分析技术可以解析出客户的评论和理由。文本分析可以将欺诈模式识别出来,标记出风险的高低。面对高风险的投诉,需要更仔细地检查。另一方面,投诉在某种程度上还能自动地执行。如果系统发现了投诉模式、词汇和短语没有问题,就可以认定这些投诉是低风险的,并可以加速处理,同时将更多的资源投入高风险的投诉中。
1700431758
1700431759 法律事务也会从文本分析中受益。按照惯例,任何法律案件在上诉前都会索取相应的电子邮件和其他通信历史记录。这些通信文本会被批量地检查,识别出与本案相关的那些语句。例如,哪些电子邮件中有隐藏的内幕消息?哪些人在和别人交流时说的是假话?威胁背后的实质是什么?
1700431760
1700431761 在法律案件中应用文本分析的做法称为电子侦察。所有预先进行的分析将帮助起诉获得成功。不使用文本分析,仅通过人工的方式将无法浏览所有的所需文档。即使我们可以做到人工浏览那些文档,但因为任务本身过于单调枯燥,我们很可能会漏掉其中的一些关键信息。
1700431762
1700431763 文本数据可能会对所有的行业都产生影响。它可能是如今使用最广泛的一类大数据。对企业来讲,掌握如何收集、解析和分析文本是很重要的。文本是我们必须驾驭的一种大数据源。
1700431764
1700431765 驾驭大数据 [:1700430552]
1700431766 3.3 多个行业:时间数据与位置数据的价值
1700431767
1700431768 随着全球定位系统(GPS)、个人GPS设备、手机的出现,时间和位置的信息一直在增加。从Foursquare到Google Places,再到Facebook Places,它们提供了大量的服务与应用,可以记录每个人在某个时间点的位置。手机应用程序可以记录我们的位置和移动的轨迹。即使手机没有正式开启GPS,我们还是可以使用基站信号来获得相当准确的位置信息。
1700431769
1700431770 消费者应用程序中有一些新颖的使用这些信息的方法,这些方法可以捕捉到消费者允许其捕获的信息。例如,有一些应用使我们可以追踪锻炼中行进的路线,路线的长度,以及走完该路线所需要的时间。事实上,如果携带了手机,我们就能记录去过的每一个地方。我们还可以选择把数据公开给他人。当更多的人向公众公开了自己的时间和位置数据,就会出现一些非常有趣的事情。
1700431771
1700431772 许多公司已经开始意识到掌握客户的时间与位置数据的威力,它们开始尝试从客户那里收集这类信息。当然,这类信息必须建立在筛选的基础上,并且必须制定明确的隐私政策,并严格地遵守这些政策。许多公司推出了令人难以抗拒的位置价值服务,吸引用户把时间和位置信息开放给它们。
1700431773
1700431774 我们并非只想了解消费者的时间和位置信息。卡车车队的领导也想掌握每辆卡车在某个时间点的位置,比萨店肯定想知道每名外送人员某个时间在什么地方,养宠物的人肯定想知道宠物在外面的什么地方,大型宴会中组织人员需要知道侍者四处走动的效率和响应顾客的速度。
1700431775
1700431776 从收集个人、资产的时间和位置数据开始,企业可以快速地进入大数据领域。如果这些信息能够频繁地更新就更好了。知道每辆卡车每天早晚的位置是一回事儿,知道每辆卡车每秒钟在哪儿就是另外一回事儿了。时间和位置数据被采用、应用的程度将越来越高,其造成的影响也将越来越大。
1700431777
1700431778 使用时间和位置数据
1700431779
1700431780 时间和位置数据是对隐私最敏感的一类大数据。我们面对的不仅有隐私问题,还有道德和伦理问题。我们是否要在孩子们的胳膊上安装芯片,以便当他们迷路时可以追踪到他们?老年痴呆患者离家出走或者擅自离开护理机构时我们应该怎么做?当然,时间和位置数据被滥用的可能性会相当高。但从好的方面想,它们被合理使用的可能性同样也会很高。下面我们来看一些例子。
1700431781
1700431782 可能很快人们就会在警察局和消防部门注册,并提供自己日常会去哪些地方的信息。这样,如果遇到洪水、火灾或封路这类大事件,人们会收到警察局和消防部门发送的警告信息,告诉他们即将路过的地方有情况,提醒他们绕道。如果人们可以主动避开是非之地,就能使交通中断的时间降到最低,这样每个人的时间都能节省下来。最后,在得到你的许可后,当地政府甚至可以接收你的实时位置信息。
[ 上一页 ]  [ :1.700431733e+09 ]  [ 下一页 ]