栏目:社会学   作者:佚名

  二、大数据、方法学转向与理论终结说

  大数据的正式概念始于2011年麦肯锡的报告《大数据:革新、竞争和生产力的下一个“前沿”》:“大数据——能够获取、交流、整合、储存乃至分析的海量数据——如今已成为全球经济里每一部门和功能的组成部分。就像其他的生产要素,比如硬资产和人力资本。数据越来越成为现代经济活动、革新和增长中不可或缺的要素。”[9]报告中强调运用大数据的科学技术将被广泛地应用到统计学、计算科学、应用数学乃至经济学中,同时,这也意味着从大数据中获取信息的组织等需要面临的是一个更为灵活性的、多重规则的方法手段。正是由于大数据量的庞大,因而如何驾驭这个庞然大物(Riding the Juggernaut)[10]来为人们服务越发受到重视。由于大数据应用领域的扩大,因而当今它甚至可以囊括“环境卫星、基因数据、GPS和地图数据、数字图像,以及诸如社交媒体数据之类的人们有意识产生的数据,等等”。[11]所以,《大数据时代:生活、工作与思维的大变革》一书的两位作者舍恩伯格(Viktor Mayer-)和库克耶(Kenneth Cukier)亦将大数据视为“社会以新的方法手段处理信息的一种能力,以生产出具有巨大价值的商品和服务或者产生有用的洞见”。[12]20

  相较于传统数据采集及统计分析,大数据最为突出的特点是舍恩伯格和库克耶所强调的三大特性:模糊性、相关性和大样本性。首先,是模糊性代替精确性。对于传统数据采集而建立的数据库而言,收集的数据信息是相对有限的。在有限样本量的情况下,对于数据采集以及建构模型精确性具有很高的要求。但是,在大数据的前提下,“允许不精确的出现已经成为一个新的亮点,而非缺点”。[12]63这种所谓的“非缺点”表现为两个方面:一方面,对于小型数据过多的各种统计方法的计算倒不如从大数据出发的简单运算来得实际,从而在效率层面上完全可以省下更多时间来收集更大的数据,使得手头的数据库存累积起来以便获取更多有用的价值信息;另一方面,大数据之所以被提出乃至风靡全球,是因为它能够满足人类的追求,即掌握现在和预知未来,尤其是后者。预测代表着一种概率逻辑,而非事实的确定性,所以数据的海量采集为预测大方向的追求而不得不或者主动地丧失其精确性,并“拥抱混乱”。其次,是相关性代替因果性。舍恩伯格和库克耶认为,因果关系存在的前提在于人们的主观直觉,“在小数据时代,很难证明由直觉而来的因果联系是错误的。……大数据之间的相关关系,将经常会用来证明直觉的因果关系是错误的”,[12]103而相关关系则代表着客观的事实,且后者作用更为明显。例如,将预测作为最终目的的评估机构和企业,只需要知道用户的目前状况和需求,就能够为其提供相应的产品和服务;他们无须也不想去了解用户之所以会有某类需求的原因。最后,是大样本性代替小样本性。当数据的收集量越来越庞大乃至可以称为海量时,以至于可以直接采用这一超大型样本量而无须顾及小样本所带来的一系列代表性问题。如果说传统统计方法下的抽样研究是为了描述或解决即时的、有限的、特定的社会现象或问题,那么,在大数据时代运用更为先进的信息技术对任何与研究旨趣相关的海量数据分析则可能着眼于更长远的、更为庞杂的事件和趋势。

  大数据对于社会科学的影响如此巨大,以至于其研究方式的转变使得社会学成为大数据时代下方法学被撼动得最厉害的学科之一。典型的例子是“新计算社会学”的诞生及其研究应用。20世纪90年代,拉策尔、加里·金等学者在《科学》上提出了“计算社会科学”的概念,[13]721即通过计算机软件作为媒介对社交关系进行测量的一种应用方法。这一新型学科的研究主要涉及社会网络理论与研究方法的发展、基于行动者模拟方法(agent-based modeling)以及互联网研究等。从研究范围来看,这一新兴领域是一种社会世界诸多方面的跨学科研究,通过计算的媒介可以从个体的行动者一直到群体。[14]2它主要利用计算机中的“自动化信息提取”(Automated Information Extraction)技术进行信息搜集。例如,我们可以将谷歌图书语料库的书本大数据、新浪微博、百度搜索等巨大库存作为数据来源,以所需相关变量(关键词)作为指标,从不同维度进行统计分析。[15][16][17]因为这是一门相对较新的领域,所以,计算社会科学需要同其他的跨学科研究领域之间建立起一个新的范式和系统,而这又需要诸如计算机科学等的知识背景。因此,从长远来看,这个学科的发展就是社会科学家和计算机科学家团队合作的成果。[13]722而随着计算社会科学领域科研队伍的不断壮大,社会学领域的计量方法也在不断发展。2014年,美国社会学界在斯坦福大学“计算社会科学中心”召开学术研讨会,并提出了“新计算社会学”(New Computational Sociology)概念。之所以“新”,主要在于“新计算社会学在理念、方法、思路、工具应用等方面比此前的社会学研究中的‘计算’都更为先进和复杂”。[18]

  这一方法学转向的极端形式就是热衷计量分析、过度注重计算结果的人(quantophrenia)越发增多,并在学科领域有一定的话语权,由此使得理论逐步被边缘化。例如,《连线》杂志主编克里斯·安德森(Chris Anderson)极度推崇社会的计算以及数据库的分析与运用,甚至直接提出“理论的终结”这一观点。他主张数据的运用可以完全代替理论来研究人本身,认为当今“是一个充满大量数据的世界,在这个世界中应用数据可取代任何其他可能采用的工具。从语言学到社会学,将没有任何一个有关人类行为的理论。而如果丢掉类型学、本体论和心理学,谁知道人们做什么以及为何这么做。但重点是他们就是这样做了,并且我们可以空前精确地追踪和测量他们的行为”,所以借助计算机的统计手段,“海量数据的可获得性为我们提供了理解世界的全新路径。相关性取代因果性,以至于科学可以摒弃相干模型(coherent models)、大一统理论甚至任何机械化的解释而独自前行”。[19]彭特兰并没有直接提出这一说法,但他却尝试着用这样的方式来重新解释社会。他将社会中实体间的影响、社会压力等因素的评估全部简化为数字符号,并采用建立等式乃至数学模型来概括整个社会的运行。尽管安德森和彭特兰的观点均属一家之言,但这些论断和主张无疑反映出一种具有大概率或然性的、试图撬动诸多社会学科、人文学科方法根基的趋势。

  不可否认,大数据在样本量上的极大增加,在很多方面为从事量化研究的学者提供了方便。由于大数据为大规模测量人的行为、社会互动交往乃至网络关系提供了可行性,[20]使得这些领域的研究的诸多瓶颈大大减少。研究条件便利化的趋势给一些量化研究者以更大的自信,以至于有人宣称“最终世界上一切不确定的因素皆可量化”。[21]对此,相应的质疑也接踵而至。

  大体而言,论争的主要内容是基于研究手段层面所产生的分歧。第一,赞同大数据社会学研究的学者认为,大数据可以为收集和分析的小数据创造参照和判断的标准依据;而且,由于大数据的量足够大,使得与大数据相匹配的传统数据无须接受显著性检验就具有代表性。但反对者则将此看作是一种学科入侵,以至于将大数据运用在人类社会的研究中称为一种所谓的“原罪”,[22]因为“大数据对于传统数据收集和分析而言是一种替代,而非补充”。[23]因此,进行社会学研究,必须摒除诸如此类的、主动拥抱混乱的“大数据傲慢”(Big Data Hubris)态度。第二,在有些情况下,部分学者为了能得到与本研究主题相关的大数据,在没有必要的前提假设时就开始选择因变量,而研究假设恰恰是研究进行的起始点。假设在研究的主题和过程中起到根基的重要作用。在一项研究中如果没有理论或经验性的假设,即便持有现成的数据库,对于该研究而言也是没有任何价值的。但也有学者认为,先有研究假设后有传统数据乃至大数据的检验,属于理论驱动;而直接使用大数据得出结论同样达到研究目的,这是一种数据驱动,由于大数据的量使得这一研究逻辑更为可行且有效。[24]因此,在研究中,两种驱动可以视研究本身的情况而定,有时甚至可以起到相互辅助的作用。第三,大数据研究宣称是一种相较于传统量化研究而言更具客观性的方法和手段,因为该数据库在很大程度上规避了传统数据收集形式中所产生的人为因素。当然,这种客观性的概念在涂尔干看来是社会学研究中的一个核心问题,即社会学研究的就是一个客观的社会事实,它有一个独立于个体表征之外的自身的存在。[25]然而问题在于,这种客观性的宣称因为人的必然在场而受到主观因素的影响,并且建立在主观观察和选择的基础之上。第四,收集数据的手段涉及学术研究本身的伦理性和不平等问题,因此受到学者的质疑。在社会网络的研究领域中,学者一直觊觎着未被利用的、具有巨大研究价值的潜在数据。而诸如SNS、Facebook等网站所蕴含的数据信息就非常适合于做关于网络的社会科学研究。问题在于这些潜在的数据消解了公众网络空间中的隐私。他们在从事网络虚拟活动的过程中,其活动痕迹已经被收集成可储存的数据信息,他们本身对此毫无意识。所以在研究中,人们的自我意识需要重新进行考量。除以上这些对外公开的数据之外,还有更多的大型数据库是有限开放甚至不开放的。如果从事商业,只有部分大型社会媒体公司才能够真正获取这些储存人们交易信息的数据库;从研究层面来看,也只有同Facebook或者Google有内部联系的人类学家、社会学家才能拿到所需的原始数据,其他无联系的研究者也就无从入手。假如他们要得到这些原始数据,往往需要花费大量时间和金钱才能将其购入。所以,从这一趋势来看,社会科学的方法手段在时间和金钱方面变得十分昂贵,同时每天的价格仍在攀升,[26]以至于大数据的研究领域在学界中产生区隔,结果就是产生数码化的分割(Digital Divides)抑或是大数据时代下的贫富之差。

 

  对于社会学而言,大数据研究方式赞成者以及反对者的不同立场所要揭示的是大数据对社会学研究的冲击程度。更进一步说,学界的纷争也是在力图追问:方法学的转向是真正的学科革命还是只是作为一个噱头而存在的表象。[27]其实,由于这个问题乃至论战涉及的是学科方法学领域内的诸多根本性主题,因此它在很大程度上可以称为第三次方法学之争。①但是,就目前论争的主要内容和主题来看,仅仅停留在手段和分析方法这个层面上来探讨大数据的适用性问题只是一种隔靴搔痒式的触碰,未能找到所谓的阿喀琉斯之踵。潘绥铭虽然已经注意到了这点并撰文指出,②但他在详细阐述时却还是采取具体的研究方法、手段及其生活案例,仍属“蜻蜓点水”,以至于仍然会出现方法上的分歧和可商榷之处。在笔者看来,尽管计算社会学乃至新计算社会学的提出,使得社会学研究的量化趋势显著并在一定程度上正逐步向计算机学科靠拢,但终究不能达到称霸学科的目标。归根结底,社会学学科最终的落脚点还是周遭的社会生活。人类的社会生活区别于自然社会之荦荦大端者,正是社会生活充满了意义或价值。同时,这种意义同人本身的能动性、外在的历史因素都有密切联系。这种人本身同诸多因素的复杂意义关联决定了在此社会领域的范围下并非一切都能被计算。  







版权声明:文章观点仅代表作者观点,作为参考,不代表本站观点。部分文章来源于网络,如果网站中图片和文字侵犯了您的版权,请联系我们及时删除处理!转载本站内容,请注明转载网址、作者和出处,避免无谓的侵权纠纷。


上一篇:本体性意义与学科反思:大数据时代社会学研究的回应(二)

下一篇:自我民族志:整体人类学的路径反思




  相关推荐