金盛网聚(北京)科技有限公司/专业信息咨询监测解决方案提供商
金盛网聚 WJFabric
  • 首页
  • 我们的服务
  • 我们的资源
  • 新闻速递
  • 服务平台
  • 我们的案例
  • 我们的优势
  • 关于我们
  • 您当前的位置:首页 > 新闻速递

    案例|大数据表象的“结果反转”

    “得到”App / 2017-11-20 16:38:20

      前两年,有本书叫《大数据时代》风靡世界,作者在书里提出了大数据的三大思维,一是要全集不要采样,二是要混杂不要精确,三是要相关性不要因果性。前英特尔中国研究院院长吴甘沙在混沌研习社进行了一次演讲,对上面三大思维进行了反思,提出了以下三个观点。

      第一,不是说数据越多预测就越准确。

      传统采样是这么做的,一万个样本,我选一百个来处理,这样做处理数据的速度就变快了,但有些重要的数据可能我们采不到。所以《大数据时代》这本书里才说,要全集不要采样。但今天每个公司都有自己的数据,所以想要拿到所有的数据基本上很难。另外,如果真的采集到了所有的数据,投入是非常高的,但是产出却没期望的那么大。大数据就像一个贫矿,价值密度很低,如果没把握,最好不要规划采集全部数据。

      第二,吴甘沙说,如果数据没有辨识度就没有意义。

      《大数据时代》说,要混杂的数据,不要精确的数据,因为现实中的数据都是混在一起的,所以没办法避免混杂。确实,混杂性是客观存在的,但不一定就是我们需要的。因为数据的价值就在于它的真实性、辨识度和准确性。所以,数据的质量依然非常重要。如果没有辨识度,那这个数据就没有意义了。举个例子,我们上网的时候,浏览过什么网页,都会被记录下来。但过了两个月,我的网页改版了,这些信息就没有用了,这些缺乏辨识度的数据就应该扔掉了。

    2.jpg

      再举个例子,谷歌曾经用搜索来预测流感,因为谷歌发现,如果一个地方很多人都在搜索“流感”这个词的时候,这个地方很可能正在发生流感。所以,根据流感的被搜索次数,谷歌就能知道哪里发生流感了。但后来谷歌的很多预测都是不准确的,有些没发生流感的地方也被预测得了流感。这是因为,那些搜索流感的人,不一定就得了流感。就算是去医院看流感的人,大部分也都没得流感,谷歌的预测就不准了。所以,谷歌这个预测失败的原因之一就是混杂性很高,因为有了“发烧、打喷嚏”这样的数据,不代表一个人一定得了流感,这么预测就是不准的。

      第三,吴甘沙认为,不能让这种所谓的数据相关性主宰我们的生活。

      今天很多人都觉得,我们知道是什么就行了,不用知道为什么。比如,啤酒和尿布放在一起卖,卖得很好,但为什么卖得好,你用不着知道,直接放一起卖就行了。还有人说,男人一看球,女人就网购,这也是一种相关性,你也不用知道为什么,营销上直接利用这一点就是了。其实,如果只是根据表面的相关性就推出一个结论,这样做是有问题的。

      举个例子,美国印地安纳州,是美国肺癌死亡率最高的州。你马上就会觉得,这个地方空气肯定不好。其实,这里空气特别好,就是因为空气太好了,所以很多肺癌病人都搬到那里了,而且都死在那里,于是就有了这样的数据。如果你不明就里,拿着空气净化器跑来推销,很明显会失败。所以,你必须了解数据背后的因果性。

      大数据处理信息服务商金盛网聚认为,大数据的开发和利用是一项系统工程,其中涉及多个层面及维度的研究。大数据本身体现出的情况固然重要,但其背后的成因以及表现出的真实性都是需要经过分析研究的。以舆情为例,针对某一话题,充斥于网络的各种声音自然都是大数据的一部分,面对鱼龙混杂的数据,首先要判别出舆论中感性判断与理性分析的成分,其次就理性内容进行筛查,看其观点是否立得住,是否是出于利益考量而被裹挟。经过多重分析方可相对客观地了解话题的舆论倾向性。

      金盛网聚(北京)科技有限公司成立于2012年,是一家数据处理与信息咨询服务商,公司拥有自主核心技术与服务咨询的团队, 公司“WJFbaric-互联网大数据信息监测SaaS平台”目前注册使用客户将近上万个,为企业、政府、学术机构、成功人士等提供在线信息收集、展示、阅读、存储的免费平台,公司远景致力于通过数据+计算形成可视化的人工智能决策平台。

电话:+86 10 61703208    网址:www.wjfabric.com
邮箱:bj_fabric@wjfabric.cn(北京市) / gz_fabric@wjfabric.cn(广州市)
地址:北京昌平区北清路1号院珠江摩尔国际大厦6号楼2-307 / 广州市海珠区新港中路艺影街129号丽影华庭B区3座 1101室

  京公网安备11010502033100号 京ICP备15061632号-2