大数据不是巨量数据
但是就我的理解,如果大数据真的是这种只能靠小型机,或者机器阵列才能处理的结构的话,那么他离普通人的距离会非常远。整个中国有能力玩大数据的公司,还有人就屈指可数。
最近在读两本书,一本是维克托•迈尔-舍恩伯格写的《大数据时代》,另外一本是涂子沛的《大数据》。里面正好有一个很有意思的例子。
《大数据时代》里面有人通过统计十年的相扑比赛结果,再配合上升段时间节点,以及对手双方的胜率,就可以发现到底相扑选手是否作弊。《大数据》里面,有人搜集了美国的各个机场的航班晚点情况,就可以预测出当天的航班是否可能会晚点。 这两个例子里面,数据撑死了,我估计都不到100m。但是却被两个作者都认为是大数据的代表。
我觉得数据本身的大小并不是关键,关键是在于足够精细的粒度之下,范围足够大,多样性足够多的数据,才能被称为大数据。事实上,如果数据只是存储文字的话,我觉得大多数的数据都是可以被个人PC所处理的。关键在于样本足够完善,范围足够大。
这就是我理解的大数据。
本文由 vps网友提供,转载请注明出处
本文链接: https://www.vpsvsvps.com/discuss/a/1676471635198087168.html