当前位置: > 专业技术 >

专业技术

谢宇:大数据,“大”就行了吗?

发布时间:2018-10-10 文章来源:知识分子
  不久前,美国普林斯顿大学教授、《知识分子》主编谢宇接受《严肃的人口学八卦组》专访,主要探讨了三个问题:
 
  1. 现在似乎已经进入了大数据时代,大家很看重大数据,每个人都在谈论大数据,那么,社科研究应该怎么做或怎么看待大数据问题,大数据和传统研究数据的关系是什么?
 
  2. 关于在新媒体时代,科学工作者应该如何面对大众的问题。对于公众号这种形式,科学工作者是否应该参与到对大众的科普中?
 
  3. 关于人口学的发展问题,中国社会处在快速转型时期,中国的人口学发展也面临很多挑战,未来人口学的主要研究方向和重要研究议题有哪些?
 
  大数据是什么
 
  Q:人人都在谈论大数据,到底何为大数据?
 
  谢宇:你这个问题提得很好。我觉得社会上对大数据有很多误解,也有一些盲目的追求。总体来讲,中国民众对数据的需求很大,但真正懂数据、认识数据的人并不多。现在随着大数据的产生,每个人都在谈论大数据,大数据就变成了一个时髦的、甚至被一些人滥用的词语。
 
  至于我对大数据的理解。首先我同意你讲的,大数据的产生会影响到社会、研究和文化。但是它为什么重要、怎么来用,绝大多数人都是茫然的。什么是大数据?大数据是我们现代生活或工作留下来的数字脚印 (footprint)。这些数据不是为研究采集的,而是一个生活的副产品。
 
  现代化生活在很多地方都会留下数据的脚印,比如打电话、付帐、乘地铁、使用打车软件等,我们所有的行为都电子化了,这种电子化的生活方式和工作方式就为我们提供了可以利用电子化数据的机会。所以我说大数据实际上不是为研究而存在,而是我们的生活工作留下来的痕迹、是一种电子脚印。
 
  从这个意义上来理解大数据,就会认识到大数据有几个典型的特点。首先它并不是一个新事物,过去就有电子化的数据,比如美国的人口普查很早就有,当然有些已经失去了,而且并不是电子化的,但是它有数据,是为政府服务的。后来我们有档案、有文本,虽然没有完全电子化,但是我们的生活已经留下了很多数据,这些是可以电子化的,而且现在也正在变成电子化。
 
  其次,大数据并不意味着 “大”很重要,很多人说大数据的优势在于它很大,它这个“大”的确有它的规模很大的这层涵义,因为生活每时每刻都在产生数据,所以它的量很大。但这个意义上的“大”还不是主要特征,它的主要特征是它的产生方式不一样,它不是为了研究而存在的,而是由我们生活和工作本身就能产生很多数据。
 
  有的时候我将大数据叫被动数据,因为它不是为研究目的而有目的性地收集,而是被动产生的,比如打个电话,这些电话的记录留下来。这时,你并不是为了研究而去打电话记录数据,打电话只是你的日常工作和生活,这些数据是被动记录的。

〖 浏览次数: