打字猴:1.7004317e+09

1700431700 无论交通是否阻塞，无论什么日期，这种数据反馈方式都会提供大量的车载通信信息。研究人员可以知道每辆车在道路上的行驶速度，他们还可以知道车流开始的时间、结束的时间，以及持续的时间。这种真实的交通流信息视图将会多么令人惊讶！试想这会对交通阻塞和道路系统规划的研究产生多么大的影响！

1700431701

1700431702 无心插柳柳成阴

1700431703

1700431704 车载信息服务数据的多种用途只是一个例子，它说明了可以用最初预见不到的方式来使用大数据。对于某种特定的数据源，我们最后发现它最有效的用途可能与其创建之初的用途大相径庭。面对我们碰到的每一类大数据源，我们要开拓思路，多想想常规之外的其他用途。

1700431705

1700431706 如果研究人员能够掌握大量汽车在每一个高峰时段、每一天、每个城市中的动向，他们就能非常清晰地判断出车流产生的前因后果。此外，还能查明下述问题的答案。

1700431707

1700431708 ■　一个在路中央的轮胎会对交通产生什么影响？

1700431709

1700431710 ■　左侧车道堵车会发生什么？

1700431711

1700431712 ■　如果路口的交通灯不同步，会产生何种结果？

1700431713

1700431714 ■　哪些十字路口虽然按照预期设定方式工作，但通行时间的设计仍然不合理？

1700431715

1700431716 ■　如果某条道路堵塞，堵塞会以多快的速度蔓延到其他道路？

1700431717

1700431718 即使我们集中精力投入到昂贵的测试中，现在要想有效地研究诸如此类的问题也几乎是不可能的。除非我们安排人手来实际地监测每一条道路，记录下所有的信息，只有这样我们才能解决交通堵塞的问题。或者，我们可以安装大量的传感器来监测过往的车辆，还可以安装视频摄像头，但这些选择因为成本问题被严重限制了推广。

1700431719

1700431720 交通道路工程师做梦都想得到我们所讲的车载通信信息。如果车载通信装置变得随处可见，那任何交通拥堵的地方都能被发现。城市道路和交通管理系统的革新，以及城市道路建设规划，都将惠及普通大众。车载通信刚开始出现时是为了满足保险定价的需求，但有了它还可以缓解交通压力和驾驶员堵车时焦急等待的心情，它的存在终将使高速公路的管理模式发生革命性的改变。

1700431721

1700431722 驾驭大数据 [:1700430551]

1700431723 3.2　多个行业：文本数据的价值

1700431724

1700431725 文本是最大的也是最常见的大数据源之一。想想我们周围有多少文本信息的存在，电子邮件、短信、微博、社交媒体网站的帖子、即时通信、实时会议以及可以转换成文本的录音信息。文本数据是现在结构化程度最低的，也是最大的大数据源。幸运的是，我们在驾驭文本数据、利用文本数据来更好地做商业决策方面已经做了很多工作。

1700431726

1700431727 文本分析一般会从解析文本开始，然后将各种单词、短语以及包含文本的部分赋予语义。我们可以通过简单的词频统计，或更复杂的操作来进行文本分析。自然语言处理中已经有很多诸如此类的分析了，这里我们就不再赘述。文本挖掘工具是主流分析套件中一个不可或缺的组成部分。此外，我们还能找到许多独立的文本挖掘工具包。其中一些文本分析工具使用基于规则的方法，用户需要调整软件才能找到自己感兴趣的模式。另一些工具则使用机器学习和其他算法自动地发现数据模式。每种方法都各有利弊，其相关论述已经超出了本书的范围。我们关心的是如何使用生成的结果，而不是使用工具产生结果的过程。

1700431728

1700431729 做完文本解析和分类以后，我们就可以分析这些过程所产生的结果了。文本挖掘过程的输出结果通常是其他分析流程的输入。例如，如果能够分析出客户使用电子邮件的情感，就能利用一个变量将客户的情感标记为正面情感或负面情感。这种标记本身是一种结构化的数据，可以作为分析流程的输入。使用非结构化的文本创建结构化的数据，这个过程通常称为信息提取。

1700431730

1700431731 另一个例子是，假定我们能够在客户与公司往来的邮件中识别出他们对公司某些产品的评价，我们就能利用一系列变量来标识客户的产品评价。这些变量本身也是结构化的度量指标，可以用来做分析。上述这些例子解释了如何捕获非结构化数据片段，并从中提取出相关的结构化数据。

1700431732

1700431733 从非结构化文本中提取结构数据

1700431734

1700431735 文本分析的例子很好地说明了该过程：获取非结构化数据，然后处理该数据，最后创建出可以用于分析和报表过程的结构化数据。驾驭大数据的一个重要部分是，利用这种创造性的方式将非结构化数据和半结构化数据变成可用于分析的数据。

1700431736

1700431737 解释文本数据实际上是相当困难的。强调的词汇和语境不同，同一个单词表达出来的意思就不同。面对纯文本，我们根本不知道重点在哪里，也不知道整个语境。这说明我们得事先进行一些假设，我们会在第6章中更详细地讨论这个问题。

1700431738

1700431739 文本分析既是一门艺术，也是一门科学，总会存在一定的不确定性。文本分析往往会有分类错误和含义模糊的问题。没错，如果我们在文本集合中发现了更好的决策支持模式，那就应该使用它。文本分析的目标是改进你的决策，但并不是令你的决策变得完美。文本数据可以有效地提升决策效果，它能提供比没有它时更好的结果，即使数据有噪音或含义模糊时，这一点也成立。

1700431740

1700431741 使用文本数据

1700431742

1700431743 一种目前很流行的文本分析应用是所谓的情感分析。情感分析是从大量人群中挖掘出总体观点，并提供市场对某个公司的评论、看法和感受等相关信息。情感分析通常使用社会化媒体网站的数据。以下是情感分析的几个例子。

1700431744

1700431745 ■　公司或产品的口碑怎么样？

1700431746

1700431747 ■　大家正在讨论的是公司的哪些活动？

1700431748

1700431749 ■　大家对公司、产品和服务的评价是好是坏？

[ 上一页 ] [ :1.7004317e+09 ] [ 下一页 ]