大数据时代下中国社会调查的科学新观 附大数据背景下社会调查技术的发展现状及趋势.docx





《大数据时代下中国社会调查的科学新观 附大数据背景下社会调查技术的发展现状及趋势.docx》由会员分享,可在线阅读,更多相关《大数据时代下中国社会调查的科学新观 附大数据背景下社会调查技术的发展现状及趋势.docx(9页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、大数据时代下中国社会调查的科学新观摘要:大数据已经成为这个时代的显著特征,大数据的发展为入户调查数据 带来了极大的冲击和挑战。在这种情况下,社会调查需要有新的基于中国古老智 慧的管理理论,并且把大数据和云计算等都纳入社会调查系统,使其成为社会调 查运作系统的有机构成部分。利用大数据分析技术,对社会调查过程中的行为数 据进行分析和利用,可以大大提高社会调查的精准度,有效实施社会关系的精准 管理。最后,对于大数据和调查数据的未来发展提出了几点看法。关键词:大数据;社会调查;大智慧;行为数据Abstract: Big data has become a significant feature of
2、this age. The development of big data brings great impact and challenge to social surveys. To face the challenge, a new management theory based on China s traditional wisdom of social surveys is needed. Big data and cloud computing should become the constituent parts of total survey management syste
3、m. The big data analytics can give insights of paradata, which can improve the accuracy of social surveys significantly and implementation of precise management of social relations. Finally, some views on the future development of big data and survey data were proposed.Key words: big data, social su
4、rvey, big wisdom, paradataI大数据时代的基本特点1.1 大数据的基本特点大数据和传统意义上的数据有何区别?这是所有关心大数据的人必须回答 的问题。关于大数据的定义,有两种说法:其一,大数据就是数据;其二,大数 据不是一般的数据。这种界定,有点辩证哲学的味道。事实上,上述说法都对, 但不解决问题。大数据具有典型的特征,可以体现在“4V”之上。大数据具有 体量上的特征,就是数据量大(volume),大到连“海量”、“巨量”都无法来形 容。大数据一般都不是静止不动的,而是时时刻刻都在变化的,而且变化速度很 快(velocity)。比如互联网上的数据以及人体生物信息,时时刻刻
5、、分分秒秒都 在变化,这么高速变化的数据要求新的分析方法。大数据的变化性更大(variety), 要在动态变化的情境下捕捉到大数据背后的规律,传统的数据分析方法就会显得 力不从心了。大数据中的内容是与真实世界中的发生息息相关的(veracity),因 此,对于大数据的分析,本质上就是要透过数据迷雾,看到现实世界的客观发展 规律和本质。唯有如此,大数据分析才有意义。1.2 大数据时代的挑战大数据的兴起,对传统意义上的“小数据”形成了很大的冲击。过去,社会 问题的诊断和公共决策大多依赖于通过调查收集上来的数据和信息、。由于受到调 查样本量的限制,这类调查数据的量是有限的。大数据兴起后,这类调查数据
6、首 当其冲,受到了很大的冲击。2015年秋季,Meyer BD等人在经济展望杂志 上发表了一篇危机中的入户调查,引起了社会调查界的高度关注口。在这篇 论文中,提出了一个很重要的观点,就是通过入户调查来收集数据的方式已经遭 遇到了前所未有的挑战,入户调查的无响应率(nonresponse rate)甚至高达30% 40%。在这种情况下,入户调查的成本会显著上升,使得入户调查越来越成为 一种不经济的数据收集方法。于是,调查机构纷纷通过创新和转型来获得在大数 据时代下的生存权。在这种趋势下,调查数据和大数据相结合的混合数据收集模 式应运而生,成为了一股新的力量。2大数据时代的社会变革与研究2.1 社
7、会变迁的数据测量大数据时代的到来,从深层次影响着社会的发展与转型。中国人越来越离不 开智能手机、互联网等,几乎生活的每个环节都与大数据或“小数据”有关联。 这种社会变革和转型,对社会科学的研究提出了更高的要求,也提供了绝好的研 究机会。美国科学院院士、普林斯顿大学著名的社会学国际权威谢宇教授,曾为 笔者的专著调查机构管理:理论与实践一书作序,他写道:中国正在经历一 场急剧、大规模且不可逆转的社会变革,这场变革给社会科学研究提供了前所未 有的良好机遇2。北京大学召集了包括社会学、人口学、经济学、公共卫生学 等近20个社会学科的海内外专家,在2006年成立了北京大学中国社会科学调查 中心(Inst
8、itute of Social Science Survey ISSS),通过实施全国性的中国家庭追踪 调查(China family panel studies, CFPS),系统性地收集旨在刻画中国社会变迁 的微观数据,为政府决策和社会科学研究提供重要的数据支撑3。这个中心刚 成立时,只有两位创始者,而笔者很荣幸就是其中之一,参与了这个中心筹建、 发展、壮大的全过程,也见证了中国第一个家庭入户跟踪调查项目的酝酿、设计、 测试、实施和发展壮大的过程。目前该数据已全部免费向社会开放,数据使用 者通过ISSS官方网站()注册后,就可以申请获得数据。调查 中心还通过微信公众号(中国民生观察)及时发
9、布数据信息。2.2 测不准定律与社会调查研究物理学上有一个测不准定律,不管用人或再怎么精良的仪器测东西,一定会 有误差。在CFPS设计过程中,在控制测量误差上下足了功夫。调查设计、抽样、 问卷设计、执行、质量监控、数据清理等所有环节,都尽可能减少误差,提高调 查数据的精准度。在社会调查理论上,西方有所谓的调查总误差(total survey error)理论。这个理论在传统的非大数据时代中比较适用。但是,当中国同时经 历大数据的洗礼和剧烈的社会变革与转型时,继续沿用西方的调查总误差理论, 通过社会调查去测量社会变迁就会出现较大的误差。因为大数据时代的到来,令 社会信息和社会数据传播方式发生了重
10、大改变。大数据时代的社会测量,需要有 对应的调查方法。大数据有时候会被误解,认为只要数据的量大,就称之为大数据。其实不然。 大数据的“大”,主要指的是数据所包含的信息意义重大。所以,有些数据量并 不大的“小数据”,其实也是名副其实的大数据。中国古时候有个成语一一“微 言大义”,说的就是这个意思。数据量很小,但是内涵和意义却非常丰富。这类 数据,也是大数据。所以,中西方对于大数据的理解,其实是有细微差别的。西 方的大数据,主要从量上来讲,因为数据存储技术的不断升级换代,使得存储和 分析海量数据成为可能。中国的大数据,更多地强调数据所蕴含的信息。韩非 子说林上云:“圣人见微以知萌,见端以知末,故见
11、象箸而怖,知天下不足 也。”这说明,即便是“小数据”,智者也能见微知著,看到微小的苗头,知道其 中的规律,预测出可能会发生的显著变化。其实,今日的大数据思想,早在易经中就有体现:“仰观天文,俯察地 理,近取诸身,远取诸物,乃作八卦”意思是说,由天文、地理和人文大数据信 息汇集在一起,才形成了八卦。所以,对于这类包罗万象的大数据的分析和挖掘, 要上观天文,俯观地理,中看人文,这就是古代的大数据挖掘技术。在黄帝内 经中,已经提出“大数”的概念。当然,中国古代朴素的“大数”与现代的“大 数据”在技术和分析方法上是不同的。但是,在基本思想上是相通的,都是试图 通过对现象和数据的分析来把握事物发展的客观
12、规律。在这种大数据思想的指导 下,笔者根据社会调查的实践,提出了全面调查管理(total survey management, TSM)理论,以期通过社会调查的有效管理,尽可能减少社会调查的测量误差, 提高社会监测的精准度。这个社会调查理论把整个社会测量实践分成阴、阳两个 层面,如图1所示。阳的层面是调查管理的5种核心主题:使命愿景、公共关系、 督导关系、访员关系和访问关系。阴的层面是调查管理的5种核心力量:战略力、 组织力、凝聚力、执行力和控制力。调查机构通过对阴阳消息的平衡把握,实施 社会调查和社会监测项目与活动,确保实现测量误差最小化。3大数据技术在社会调查中的应用3.1 行为大数据及其
13、应用根据TSM理论,任何数据都包含阴阳消息。因此,在社会调查的设计和执 行过程中,要同时对两方面的数据进行管理。社会调杳的问卷数据是阳层面上的 数据,也是社会调查所需要收集的目标数据。但是,要降低这些数据收集的误差, 就需要同时收集另一部分数据,就是行为数据(paradata)。调查过程中的行为数 据一般都是隐秘不公开的,仅仅作为内部管理和质量监控之用,所以可以归于阴 层面上的数据。在CFPS项目的执行过程中,采用的是计算机辅助面访 (computer assisted personal interviewing, CAPI)系统。当访员入户打开调查专 用的笔记本电脑进行调查时,收集行为数据的
14、软件就开始启动。访员在用笔记本 进行调杳的每个动作数据,都被同步纪录了下来。图2为调资数据和行为数据的 同步收集系统。根据图2的架构,整个社会调查的数据流都是整合在一起的,在信息系统中 进行及时传输和共享。调查数据和行为数据经过传输后,进入不同的数据库进行 存储,并用于不同的用途。调查数据收集上来后,就是层层数据质量的查核。行 为数据收集上来后,主要用于访问管理。社会调查过程的行为数据,包括了方方 面面的信息,比如访员的地理位置信息以及移动的空间路线、访员敲击笔记本电 脑键盘的信息、每道题所问的时间长短信息、中间停顿时间信息等5。所有这 些行为数据都客观如实地记录了身处在调查现场的访员的一举一
15、动,让访员的行 为可控,进而确保把访问误差控制到最低程度。3.2 云计算与访员行为管理一旦行为数据采集进来,基于云计算的大数据分析就自动启动和运转。例如, 当每个访员的键盘行为数据采集起来后,系统的云计算就可以通过分析每个访员 的敲击键盘的特征,识别出每个访员的用指习惯,从而自动识别出是否为指定访 员在通过笔记本进行入户调查。因为每个人用手指敲打键盘的方式是不同的,体 现在键盘上,就可以清晰发现在键盘敲打的力度、持续的时间等方面,每个人都 会有一种独特的模式。基于云计算的大数据分析,能够通过键盘敲打的行为数据, 从中找出个性化的用指模式,进而可以精准识别出是给定的访员在用笔记本做调 查,还是冒
16、充访员的人在用笔记本做调查。由于这些行为信息的采集是在访员并 不觉察的情况下进行的,因此,这些行为数据的可靠性极强。即便访员意识到有 键盘使用行为采集系统在收集信息,想要刻意去制造噪音,以混淆键盘使用信息, 但是实际上这很难做到。因为每个人的用指习惯是很难改变的。图3显示的是基于云计算的数据链管理系统。这是一套实时联动的无缝大数 据系统。比如,当在调查现场的访员使用键盘时,基于云计算的数据分析系统发 现该访员的键盘使用与过去一贯的模式不同,大数据分析系统就会给出警示,建 议督导及时查核这名访员,确定使用该笔记本进行入户调查的人的真实身份,避 免他人冒充访员进行调查的情形出现。这套大数据系统不仅
17、能够识别笔记本电脑 的访员身份,而且还能精准测量访员的调查访问状态。访员的个人情绪,往往会 影响调查访问的数据质量。为了提高调查数据的精确度,减少访问过程中的人为 误差,都需要访员按照规定的调查行为标准开展入户调查,尽可能减少访员的个 人因素的干预和影响。例如,在访问过程中,访员的情绪大幅度波动,往往会影 响调查数据的质量。因此,一般都要求访员在访问过程中保持情绪平稳,心平气 和地完成调查。基于云计算的键盘使用模式分析系统能够对所有访员的键盘使用 大数据进行分析,提炼出若干典型的情绪模式,比如激动、愤怒、压力、害怕等 6o 一旦某个访员在键盘使用上出现这些负面情绪特征,相关的督导就需要予 以注
18、意,及时和该访员进行电话沟通,第一时间安抚访员的情绪,并鼓励其继续 按照预定计划完成调查目标7。示朕:pocaH屐告系统.OA-网站图3 基于云计算的数据链系统3.3 大数据与社会跟踪调查社会调查分成两种类型:截面调查和跟踪调查。前者就是在特定时间和地点 进行抽样调查,每次重复调查时,都需要进行再次抽样。后者是在调查之前确定 样本后,就跟踪这些样本进行反复调查,因此,基础样本基本上是不变的。跟踪 调查的优点是能积累信息丰富的面板数据(panel data),具有历时效应,能够观 察特定样本随着时间的发展演变趋势,便于更好地预测未来网。CFPS就是典型 的跟踪调查,基础样本是16 00()户,每
19、两年做一次跟踪调查。但是,跟踪调查 有个劣势,就是样本跟踪难度大、成本高。尤其在中国,当前正值城市化不断深 入、社会急剧转型的阶段,人口迁徙范闱广、变动大。在这种环境下,CFPS样 本中不少家庭在第二次进行入户跟踪调查时,就已经迁移到别的地方,有的已经 找不到联系方式。若无法找到这些迁徙样本,那么CFPS样本就会出现严重流失。 样本一旦出现误差,缺乏代表性,通过入户所收集上来的数据质量就会出现严重 问题。所以,所有迁徙的样本都必须确认其新地址,并且获得其联系方式,继续 进行跟踪调查。为了做到更精准地识别和确定迁徙样本的新地址,大数据挖掘技术发挥了强 大的威力。2()1()年,CFPS做完基线调
20、查之后,2012年开始做跟踪调查。在这轮 跟踪调查做好后,迁徙样本家庭就出现了。通过互联网大数据挖掘技术,结合线 下的人员打探,基本上能够再次联系上这些迁徙样本9。在这个过程中,采用 大数据和大地图相结合的分析方法,在地图上精准画出每个迁徙样本的迁徙空间 路线。根据这些迁徙空间制图的数据,再加上大数据建模和挖掘技术,就能模拟 出样本家庭空间迁徙的情况,预测出2014年样本家庭迁徙的路线和区域,提前 予以核实信息和联络,确保迁徙家庭主动提供迁徙后的新联系方式。同样的道理, 在2012年和2014年数据的基础上,可以刻意预测2016年的迁徙情况。如此循 环,大数据加上地图的分析,让很困难的样本追踪
21、成为了相对比较容易的事情。4大数据与精准关系管理4.1 大数据需要大智慧从哲学上讲,数据无论多大,都是客体,是被认知的对象。要从数据中找出 对于指导人们行为有用的信息,就需要发挥主体的主观能动性。如此,大数据才 能转化为大智慧。但是,人类社会世事无常,一切都在变化着。如何用大数据来 刻画转瞬即逝的社会关系,就成为大数据时代普遍的挑战。谷歌公司的流感预测 这两年失灵,对于原因的剖析,可谓是仁者见仁、智者见智。哈佛大学政治学金 加里(Gary King)教授等人认为,造成谷歌流感趋势预测结果偏差的重要原因 是大数据傲慢(big data hubris)和算法变化(algorithm dynamic
22、s) 10 2015 年 5月份,笔者专门到金加里教授的办公室和他讨论这个问题。笔者的观点是由于 大数据模型无法捕捉住瞬息变化着的社会关系,导致预测失效的后果,其失效的 原理如同中国古代成语“刻舟求剑”所揭示的那样,当环境发生变化了,依然沿 用过去的模型去挖掘规律,往往是失效的。中国古代智慧强调的是“阴阳消息, 五行转移”,强调的是用动态大数据去分析动态的社会变迁,方能在变化无常的 社会关系中把握住发展的规律。调查机构在进行数据收集的过程中,会遇到方方 面面的关系,需要协调和处理这些时刻都在变化着的关系。于是,在长期的调杳 实践摸索与总结的基础上,基于大数据的精准关系管理就产生了。通过大数据来
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 大数据时代下中国社会调查的科学新观 附大数据背景下社会调查技术的发展现状及趋势 数据 时代 中国社会 调查 科学 背景 社会调查 技术 发展 现状 趋势

限制150内