当前位置: > 专业技术 >

专业技术

谢宇:大数据,“大”就行了吗?(5)

发布时间:2018-10-10 文章来源:知识分子
 
  Q:您主张建立一个数据的生态,它是各种数据的融合。进一步从方法论的角度,现在社会科学定量研究也有一套方法论,比如说以因果分析为核心的一系列方法论。但大数据进入数据生态,是将继续这种研究范式,还是可能带来研究范式的革新?
 
  谢宇:伴随大数据的产生,我觉得社会科学基本的研究范式并没有变。用数据检验理论的研究范式没变,因果分析的标准、方式也没变。从研究设计来讲,我觉得大数据的产生给我们的研究带来了很多便利,以前不能做的现在能做了,但是整个大的范式并没有改变。
 
  那么它带来的改变在哪呢?首先是选题的改变,以前很多不能做的现在有数据能做了,数据量比较大,能够支持一些以前传统数据不能做到的。
 
  其次它对计算的要求也高了,也给方法上带来了挑战,主要是计算方面的挑战,比如机器学习(machine learning),small area的非参数 (non-parametric) 估计,这些理论上的范式上以前都是有的,但是以前没有数据来支持这样的设计和方法。所以从计算方法和选题上都有很大的进步,我们不再局限于传统的命题和传统的方法。
 
  Q:一些人认为人工智能或新的方法的出现,可能加大学术界的贫富分化:可能有部分人掌握了新的方法而走在前面,而另一部分人只会传统的研究方法、数据计算。这样是否真的会造成分化,或者说是朝着两个不同的方向发展?
 
  谢宇:大数据的产生会造成分化,但我认为不是像你说的那种分化。我觉得主要的分化就是资源的不平等,大数据的价值在于数据的获得和使用。
 
  有一些数据,比如说政府部门的数据,只对一部分人开放,这样的话能否获得政府资源就决定了你能不能有这方面的资料做研究。很多商业的数据也是只对部分人开放,所以有头衔的、受到信任、受到委托的,或者成就高的人更可能有资源,所以是资源的不平等造成的分化。
 
  还有一个不平等,现在的大数据研究需要团队合作,因为大数据研究可能需要不同的专业、需要计算能力、需要编程、需要可视化等,各方面都有团队要求。单枪匹马做研究比较困难。
 
  这两个方面的不平等实际上也会反映到机构层面,比如可能更好的学校更容易得到资源,更可能有不同的团队来支持他,可能像北大清华这样的学校会更有利,一般的学校一般的老师他们可能就没有得到资源,或者不能够有一个很大的团队,我觉得这个不平等是有的。
 
  研究方法上的分化和不平等,我并不认为会产生。因为大数据技术的使用跟以前的方法一样,我觉得掌握技术并不难。真正有了大数据,要学要做都能做到,因为数据是有限的,方法也是有限的。
 
  像机器学习、参数估计这些方法都是以前人们就知道的。在这些大数据出现之前我们就假想了有这样的数据要怎么样做。我们当时就知道,再换一个很大的数据会怎样,像今天运用到的一些例子的确证明了我们原来的想法。

〖 浏览次数: