大数据不靠谱?这听起来有些不可思议,在今天,大数据已经表现出了强大的生产力。但哈佛大学数学系博士、华尔街前投资顾问凯西·奥尼尔(Cathy O’neal),一名依靠大数据纵横投资界的行家,就写了一本新书给大数据泼冷水,书的名字叫Weapons of Math Destruction,可以翻译成《“杀伤性武器”大数据》,副标题是:大数据是如何制造社会不平等和威胁民主制度的。本文通过其中的两个例子说明,仅依靠大数据决策是如何引发大问题的。
我们先来看一个美国司法系统的例子。在美国,大数据不仅在生活中运用得很普遍,假设你不小心犯罪了,你的刑期都可能是大数据来协助判定的。美国司法机构早就开始使用判刑辅助软件了,该软件依靠整个美国的犯罪档案数据库,分析犯罪嫌疑人,推测他再次犯罪的可能性。如果软件判断你再犯的可能性高,那么司法机构就会延长你的刑期。
用数学模型协助法官判刑,这听起来很科学,但大数据专家奥尼尔却认为,这会带来很多社会问题。像是软件推断一个犯人是否会再犯时,依据的是犯人的住址和犯人亲戚的犯罪记录,而这两点事实上都对黑人不利。美国有相当一部分黑人住在犯罪率较高的街区,而之所以住在这种地方是因为房价相对便宜,而且住在这种地方的,除了无可奈何的黑人,往往还有他们的黑人亲戚。
再来看“判刑辅助软件”的推测依据——来自高犯罪率街区的犯人容易再犯,家族有案底的犯人也容易再犯——所以被软件认为“极有可能再犯”的黑人几乎就没办法逃脱刑期延长的命运。但美国因此更安全了吗?没有。因为刑期越长,犯人刑满释放后再犯的可能性就越高。如此一来,黑人便陷入循环陷阱中:他们生于贫穷,因此被软件认为可能再次犯罪,刑期被延长,又因为刑期延长,导致出狱后更容易再犯……
说完了大数据对司法领域的影响,我们再来看看大数据对福利政策的错误引导。上世纪八十年代,里根政府发布了一份报告,标题叫《危机中的国家》。报告声称,美国正处于危机的边缘,因为美国学生的SAT平均成绩,也就相当于中国高考的平均成绩,且一直在下降。报告认为,整个国家的SAT平均成绩逐年下滑,意味着国家的基础教育出了问题,倡导新自由主义的里根政府一向反对高福利,这份报告似乎就证明了,美国的公共教育制度是国家福利的蛀虫,这给政府削减公共教育经费提供了借口。但在奥尼尔看来,公立教育系统里的学生却被害惨了。美国桑迪亚国家实验室指出,当时SAT成绩下降,主要是因为参加SAT的学生人数飞涨。考虑到SAT是进入大学的敲门砖,学生数量的飞涨其实恰恰反映了美国中学生对上大学这件事越来越自信,以至于过去可能不会参加考试的人现在也想试一下,正是他们的加入拉低了平均分。既然公立教育的目的是让更多人得到受教育的机会,那么我们就可以认为,当时美国的公立教育系统是很成功的。然而正是因为受到报告的批评,公立教育经费被大量缩减,以至于目前的教学质量反而不如上世纪八十年代。
听完了两则案例你可能会问,为什么会这样,大数据怎么了?是算法出问题了吗?奥尼尔认为,不是算法出了问题,而是运用算法的数学模型出了问题。不同的模型隐含不同的理念,奥尼尔将模型称之为:“内含着观点的数学方法”。数学和数学模型的关系,就像枪械和军火,数学没有价值观,是中立的,但数学模型难免隐含偏向。这样的偏向如果体现在国家政策中,那就可能会造成难以估量的危害。
当然,奥尼尔不是想说明,大数据有害,而是说我们不应该盲信酷炫的算法技术。尤其是在涉及政策决策时,依据大数据,也要慎重。
大数据处理信息服务商金盛网聚WJFabric认为,数学模型是大数据技术的核心,在掌握大量数据样本后,如何利用数据推导结论就成为数学模型需要解决的问题,其中对于数据样本的甄选便是首要问题,而针对目标进行有效数据的筛选需要多维度的考量。例如上文中的第二个例子,假如不考虑参加考试人数激增的原因以及新增考生个人的基本情况,单纯以考试结果来衡量教育质量,很容易“剑走偏锋”。数据的有效性暗含“相对标准化”之意,任何极端与偏颇的数据均有可能影响研究的进程方向。有价值的结论植根于有效能的数据,了解数据来源,理解数据背后的成因,方能获取真实有效的目标数据。
金盛网聚(北京)科技有限公司成立于2012年,是一家数据处理与信息咨询服务商,公司拥有自主核心技术与服务咨询的团队, 公司“WJFbaric-互联网大数据信息监测SaaS平台”目前注册使用客户将近上万个,为企业、政府、学术机构、成功人士等提供在线信息收集、展示、阅读、存储的免费平台,公司远景致力于通过数据+计算形成可视化的人工智能决策平台。