1700505123
4.2.2 统计计算
1700505124
1700505125
1.人口普查
1700505126
1700505127
统计计算是一种最为朴素、客观的认知方式。这种认知方式其实是人类潜意识的产物,其出现时间远远早于统计学作为一门完整的学科出现在人类历史舞台的时间。
1700505128
1700505129
中国古代的帝王为了了解国家的状况和巩固自己的统治,很早就注重人口普查,这就是最早、最朴素的统计。我猜想,在文字记载比较丰富的周朝,或许周天子就曾问过大臣类似“我大周子民几何”的问题。了解一个国家的人口数量、人口分布、人口结构,就更能有的放矢,对制定国策、颁布法律、鼓励生产、发展军事与手工业等都有极大的好处。
1700505130
1700505131
然而,这样的愿望却没那么容易实现。在秦始皇统一中国以前,中国一直长期处于分封制下的邦联式国家形态,虽然中原有周天子作为名义上的“天下之主”,但是周天子的威仪随着时间的推移也慢慢不复存在。据《墨子·告子》记载:“诸侯朝天子曰述职。一不朝,则贬其爵;再不朝,则削其地;三不朝,则六师移之。”这就是西周时期天子分封制中惩戒措施的主要内容:一次不来朝见就贬谪爵位,两次不来朝见就褫夺封地,三次不来朝见就派王师攻打。这是西周天子立下的规矩,听起来相当严苛,只是自从周幽王烽火戏诸侯丢了镐京(7),东周开始以后,周天子的地盘越来越小,国家经济也越来越差,以至于东周最后一任天子周赧(nǎn)王要攻打自己的臣属秦国还要四处借军饷,最后钱花光了也没能力偿还,当债主们纷纷上门讨债的时候只好筑起一座高台,龟缩在上面躲债——这才有了“债台高筑”这个成语。在这之后就是暴秦统治下的20多年,然后就是楚汉相争。总之,国家没有一天是太平的,也就更没法指望在这种环境下进行人口统计了。
1700505132
1700505133
历史典籍中第一次出现比较完整的人口记录数据是《汉书·地理志》(如图4-20所示),其中有这样的记载:“本秦京师为内史,分天下作三十六郡。汉兴,以其郡太大,稍复开置,又立诸侯王国。武帝开广三边。故自高祖增二十六,文、景各六,武帝二十八,昭帝一,讫于孝平,凡郡国一百三,县邑千三百一十四,道三十二,侯国二百四十一。地东西九千三百二里。南北万三千三百六十八里。提封田一万万四千五百一十三万六千四百五顷,其一万万二百五十二万八千八百八十九顷,邑居道路,山川林泽,群不可垦,其三千二百二十九万九百四十七顷,可垦不可垦,定垦田八百二十七万五百三十六顷。民户千二百二十三万三千六十二,口五千九百五十九万四千九百七十八。汉极盛矣。”这里对西汉孝平帝刘衎(kàn)(公元前1年~公元6年)时期的国土幅员、农田面积、人口情况都做了记录——当时有12233062户,59594978人。
1700505134
1700505135
1700505136
1700505137
1700505138
图4-20 班固和他的《汉书·地理志》
1700505139
1700505140
第二次在历史典籍中出现比较完整的人口记录数据是在《后汉书》卷二十九到卷三十三这一部分(如图4-21和图4-22所示)。
1700505141
1700505142
1700505143
1700505144
1700505145
图4-21 《后汉书》线装本
1700505146
1700505147
1700505148
1700505149
1700505150
图4-22 东汉时期的州郡划分
1700505151
1700505152
书中记载:“《汉书·地理志》承秦三十六郡,县邑数百,稍后分析(8),至于孝平,凡郡、国百三,县、邑、道、侯国千五百八十七。世祖中兴,惟官多役烦,乃命并合,省郡、国十,县、邑、道、侯国四百余所。至明帝置郡一,章帝置郡、国二,和帝置三,安帝又命属国别领比郡者六,又所省县渐复分置,至于孝顺,凡郡、国百五,县、邑、道、侯国千一百八十,民户九百六十九万八千六百三十,口四千九百一十五万二百二十。”(9)我们可以知道,东汉孝顺皇帝(刘保,125年~144年)年间,全国共9698630户,49150220人。
1700505153
1700505154
书中还有这样的记载:“河南尹秦三川郡,高帝更名。世祖都雒阳,建武十五年改曰河南尹。二十一城,永和五年户二十八万八千四百八十六,口百一万八百二十七。河内郡高帝置。雒阳北二十里。十八城,户十五万九千七百七十,口八十万一千万百五十八。河东郡秦置,雒阳西北五百里。二十城,户九万三千五百四十三,口五十七万八百三。弘农郡武帝置。其二县,建武十五年属。雒阳西南四百五十里。九城,户四万六千八百一十五,口十九万九千一百一十三。”(10)
1700505155
1700505156
从记述方式来看,这些人口记录不太像是一次国家级的统一人口普查数据,更像是多种不同来源的人口区域性统计数据的汇总。这种统计在没有电子计算机进行辅助的古代,时效性和准确性应该不会太理想,尤其是户数和人数都能精确到个位,这种统计在低位上的可信性其实是值得怀疑的。即使是一次统一性的人口普查,也不会是一瞬间完成的,一定需要一段时间,由基层官吏入户进行统计,然后逐级报送,最后汇总到中央的相关机构——恐怕至少需要数月时间。在这个过程中,人口的自然增减与地域间流动都会对数字产生影响,所以,如此精确的记录反而多少有画蛇添足之感。在这里,前几位有效数字权当参考,当时的人口数大约是4900~5000万。
1700505157
1700505158
在这之后,隋、唐、宋、元、明、清都进行过全国性的大规模人口普查,其中明、清两代各有4次普查,可见帝王们对国家人口统计的重视程度。
1700505159
1700505160
这种统计方法比较朴素,就是纯粹的人口数量汇总,和近现代在计算机技术辅助下进行的人口数量、性别、出生年月、血型、学历、职业等丰富维度的统计完全不同,更不可能用平均值或高斯分布去描述年龄的离散状况。不过,分郡分县进行统计在描述人口疏密程度上其实有比较高的借鉴价值。在地域这个维度上对人口数据做了明显的区分,即使在当时无法通过对统计数据的挖掘来更深刻地认识人口数据,无法进行地域维度的下钻操作,但只要能够合理利用,仍然可以对税收、生产、征兵等工作的科学性给出良性引导。
1700505161
1700505162
2.日志统计
1700505163
1700505164
在当今这个现代化的工业与互联网社会,统计再也不是几千年前那种繁重却非常不精确的行为了。前面我们已经了解到,在数据收集和测量的过程中,有大量的工作可以在完全自动化的情况下完成,这本身就大大降低了数据收集和统计的成本。与此同时,减少不必要的人为干预也提高了数据的准确性。
1700505165
1700505166
日志统计是目前最为普遍的一种统计行为。这里说的这种日志,不是狭义的类似航海日志一样的专业事件记录,也不是类似计算机服务器里的Web容器访问日志(如图4-23所示),而是一种广义的日志信息——对客观发生的事情进行描述的记录标志,每个记录标志里可能包括但不限于事情发生的时间、地点、涉及的事物,以及所有涉及的事务对象性状的多维度信息记录。所以,从这个角度来看,超市购物小票是日志,银行卡刷卡记录是日志,手机通话记录是日志,点菜时的菜品记录是日志,医院里婴儿的出生事件记录是日志……不胜枚举(如图4-24所示)。日志的形式和内容是非常宽泛的,在对其进行统计之前,我们需要做好两件事。
1700505167
1700505168
1700505169
1700505170
1700505171
图4-23 舰船上的航海日志和Nginx服务器上的访问日志
[
上一页 ]
[ :1.700505122e+09 ]
[
下一页 ]