打字猴:1.700505139e+09
1700505139
1700505140 第二次在历史典籍中出现比较完整的人口记录数据是在《后汉书》卷二十九到卷三十三这一部分(如图4-21和图4-22所示)。
1700505141
1700505142
1700505143
1700505144
1700505145 图4-21 《后汉书》线装本
1700505146
1700505147
1700505148
1700505149
1700505150 图4-22 东汉时期的州郡划分
1700505151
1700505152 书中记载:“《汉书·地理志》承秦三十六郡,县邑数百,稍后分析(8),至于孝平,凡郡、国百三,县、邑、道、侯国千五百八十七。世祖中兴,惟官多役烦,乃命并合,省郡、国十,县、邑、道、侯国四百余所。至明帝置郡一,章帝置郡、国二,和帝置三,安帝又命属国别领比郡者六,又所省县渐复分置,至于孝顺,凡郡、国百五,县、邑、道、侯国千一百八十,民户九百六十九万八千六百三十,口四千九百一十五万二百二十。”(9)我们可以知道,东汉孝顺皇帝(刘保,125年~144年)年间,全国共9698630户,49150220人。
1700505153
1700505154 书中还有这样的记载:“河南尹秦三川郡,高帝更名。世祖都雒阳,建武十五年改曰河南尹。二十一城,永和五年户二十八万八千四百八十六,口百一万八百二十七。河内郡高帝置。雒阳北二十里。十八城,户十五万九千七百七十,口八十万一千万百五十八。河东郡秦置,雒阳西北五百里。二十城,户九万三千五百四十三,口五十七万八百三。弘农郡武帝置。其二县,建武十五年属。雒阳西南四百五十里。九城,户四万六千八百一十五,口十九万九千一百一十三。”(10)
1700505155
1700505156 从记述方式来看,这些人口记录不太像是一次国家级的统一人口普查数据,更像是多种不同来源的人口区域性统计数据的汇总。这种统计在没有电子计算机进行辅助的古代,时效性和准确性应该不会太理想,尤其是户数和人数都能精确到个位,这种统计在低位上的可信性其实是值得怀疑的。即使是一次统一性的人口普查,也不会是一瞬间完成的,一定需要一段时间,由基层官吏入户进行统计,然后逐级报送,最后汇总到中央的相关机构——恐怕至少需要数月时间。在这个过程中,人口的自然增减与地域间流动都会对数字产生影响,所以,如此精确的记录反而多少有画蛇添足之感。在这里,前几位有效数字权当参考,当时的人口数大约是4900~5000万。
1700505157
1700505158 在这之后,隋、唐、宋、元、明、清都进行过全国性的大规模人口普查,其中明、清两代各有4次普查,可见帝王们对国家人口统计的重视程度。
1700505159
1700505160 这种统计方法比较朴素,就是纯粹的人口数量汇总,和近现代在计算机技术辅助下进行的人口数量、性别、出生年月、血型、学历、职业等丰富维度的统计完全不同,更不可能用平均值或高斯分布去描述年龄的离散状况。不过,分郡分县进行统计在描述人口疏密程度上其实有比较高的借鉴价值。在地域这个维度上对人口数据做了明显的区分,即使在当时无法通过对统计数据的挖掘来更深刻地认识人口数据,无法进行地域维度的下钻操作,但只要能够合理利用,仍然可以对税收、生产、征兵等工作的科学性给出良性引导。
1700505161
1700505162 2.日志统计
1700505163
1700505164 在当今这个现代化的工业与互联网社会,统计再也不是几千年前那种繁重却非常不精确的行为了。前面我们已经了解到,在数据收集和测量的过程中,有大量的工作可以在完全自动化的情况下完成,这本身就大大降低了数据收集和统计的成本。与此同时,减少不必要的人为干预也提高了数据的准确性。
1700505165
1700505166 日志统计是目前最为普遍的一种统计行为。这里说的这种日志,不是狭义的类似航海日志一样的专业事件记录,也不是类似计算机服务器里的Web容器访问日志(如图4-23所示),而是一种广义的日志信息——对客观发生的事情进行描述的记录标志,每个记录标志里可能包括但不限于事情发生的时间、地点、涉及的事物,以及所有涉及的事务对象性状的多维度信息记录。所以,从这个角度来看,超市购物小票是日志,银行卡刷卡记录是日志,手机通话记录是日志,点菜时的菜品记录是日志,医院里婴儿的出生事件记录是日志……不胜枚举(如图4-24所示)。日志的形式和内容是非常宽泛的,在对其进行统计之前,我们需要做好两件事。
1700505167
1700505168
1700505169
1700505170
1700505171 图4-23 舰船上的航海日志和Nginx服务器上的访问日志
1700505172
1700505173
1700505174
1700505175
1700505176 图4-24 购物记录和婴儿出生记录
1700505177
1700505178 第一,把这些日志记录以计算机可以识别的方式存储起来。例如,我们通过人工录入、扫描、OCR识别等多种方式,把原本的纸质记录信息、口述的信息等存储到磁盘上。
1700505179
1700505180 第二,把已经转化为数字记录的信息转换成计算机可以直接计算的独立的字段信息。通常在这个环节我们会把数据录入数据库或数据仓库中。
1700505181
1700505182 当然,也可以合二为一,一步到位,把信息转入数据库或数据仓库,这个环节称为ETL (Extract-Transform-Load,也指数据库之间的数据变形与传递工作等)。那么,下一步就是利用数据库或者数据仓库为使用者提供的各种API进行统计计算了。
1700505183
1700505184 与数据库通常用来做OLTP(On-line Transaction Processing)工作不同,专业的数据仓库通常用来做OLAP(On-line Analytical Processing)工作。所谓OLAP就是我们平时所说的“数据分析处理”,一般侧重于多维度分析计算,对大量数据处理及数据挖掘操作都有特殊的场景优化。比较专业的数据仓库产品有Teradata、Greenplum、Hive、Oracle等,它们对外都提供了非常专业的API和分析请求语言接口。
1700505185
1700505186 工具的好处就是能抽象出不同应用场景的共同需求,这些数据仓库也不例外。数据仓库除了能在各个产业或业务的应用场景中承载数据收纳与计算的功能,大多配备了专业的数据挖掘组件功能,或者包括建模、分析、可视化功能在内的行业解决方案模板,这样就让各个行业的使用者在应用的过程中通过尽可能少的工作量来完成大部分的分析应用(如图4-25所示)。
1700505187
1700505188
[ 上一页 ]  [ :1.700505139e+09 ]  [ 下一页 ]