当前位置: > 专业技术 >

专业技术

谢宇:大数据,“大”就行了吗?(4)

发布时间:2018-10-10 文章来源:知识分子
 
  合并这些数据是非常困难的,首先是电子数据产生没几年,可以使用的信息有限,其次是大数据的变量非常少,不够用来对一个人的长期轨迹做描述。
 
  而传统调查却不同,调查数据可能有几千个变量,各种方面都有,而大数据他只有一个方面,手机就是手机,微博就是微博,你对个体其他的特征知道得非常少,而且没有一个长期的跟踪,所以大数据比较致命的就是很薄,对一个人的了解很少,很难深入探索异质性问题。
 
  比如,个体差异的原因是什么?可能有关他过去的经历、家庭背景等一些我们不能通过大数据看到的东西(缺失变量)非常多。再比如,看微博但并不知道他发帖还是留言是真人还是假的,是一个人在操作还是多个人。
 
  所以很多事情是没法确定的。这就导致大数据的厚度受到很大限制,时间的长度也受限制。因为异质性问题,大数据用于因果推测仍然十分困难,也需要诸如工具变量、断点回归等方法,还是需要假设,所以大数据不能解决最根本的困难。虽然大数据对研究有很多帮助,但是最根本还是要靠学者自己的能力,所以好的学者永远有优势,好的训练底子永远有优势。想要通过大数据本身来解决方法上困境的想法和做法是行不通的。
 
  实际上,所有社会现象的数据都是有局限的,这也就是为什么我们要收集不同的数据,从不同的方面、不同的角度看一个问题。
 
  这和我以前讲的三个基本原则有关:为什么需要数据、为什么需要不同的数据?就是因为个体的异质性很强,个体与个体不一样,这个人不能代替那个人,那么如何知道这个人的特征?
 
  我们可能需要不同的测量,包括现在学者们想测量的基因、这个人小时候生下来的情况、家庭背景、中年生活、老年生活等整个生命历程。我们经常需要跟踪性调查,而中国其实很少有这种几十年的跟踪调查,这种数据都是需要相当长期的积累。
 
  虽然大数据获取速度快、量大,但它相对来讲信息量中每一个个体的信息非常少,一个人的各个方面也不能够联系在一起。所以,我觉得大数据是一个薄数据或者浅数据,而不是深数据,不是一个畅通数据。
 
  也因此做研究用大数据还是有缺陷的。但也不能因为大数据有缺陷就不用,恰恰相反,大数据可以从另一个角度反映事实的真相。正是因为每种数据都会有缺陷,现在的大数据可以弥补其他数据的缺陷,同样,其他类型的数据也可以弥补大数据缺陷。
 
  所以我对大数据的看法就是,我们需要一个数据生态,这个生态应该是有各种各样的数据,各种数据发挥不同的作用,大数据有大数据的作用,调查数据有调查数据的作用,政府数据也有政府数据的作用。
 
  我这里把政府数据和大数据分开,实际上大数据也可以包括政府数据,因为政府管理也是工作,也产生大量的数据。
 
  一般数据类型基本的划分是包括三种:商业的、行为的数据,这是一般的大数据;政府的管理数据,这实际上也是大数据;第三种就是研究性的调查,这是传统数据,也就是常说的抽样调查数据,此外还有一些为研究目的而特定产生的数据。
 
  这三种数据在社会里、在学术团体里、在国家制定的政策里都有它们的作用。我们不能够只重视一种数据而忽略其他的数据,不同的数据、不同的主题、不同的类型、不同的人群、不同的数据结构都需要存在,因为它们能够互相弥补各自的缺点。

〖 浏览次数: