在淘金热中积累和使用大数据的过程中,实际上可能使我们更难从这些数据中实际收集见解。然而,解决我们所有问题的数据前景如此诱人,以至于我们这一代最聪明的人都感到困惑。

举个例子 花旗集团的战略顾问,前IBM高管Irving Wladawsky-Berger。 Wladawsky-Berger非常聪明,在他还在IBM的时候,他对开源的见解对我有很大帮助。但是写 华尔街日报 (“用数据科学发现黑天鹅“), he “[得到]黑天鹅的想法倒退,” as 纳西姆·塔莱布(Nassim Taleb),纽约大学理工学院教授, 黑天鹅 指出

完全可以向后。

预测黑天鹅事件

黑天鹅事件是使我们感到惊讶的重大事件,但事后对它们为何发生产生了清晰的解释。例如9/11攻击,互联网兴起和第一次世界大战。

但是它们也可以应用于商业,因此有一种诱惑,那就是在大天鹅出现之前先应用大数据来发现它们。正如Wladawsky-Berger所说:

[大数据]能够跨数据集和孤岛工作的能力可以帮助我们获得难以预测的,高影响力的黑天鹅事件的早期线索,因此我们可以更深入地研究这些线索并评估其有效性。 当专家调查灾难性黑天鹅事件时,无论是飞机失事,金融危机还是恐怖袭击,他们经常发现即使存在所需的信息,我们也无法预料到它们,因为数据分散在不同的组织中,并且从未适当地汇总。

对于Wladawsky-Berger来说很不幸’根据黑天鹅的定义, 无法预测 通过分析数据。是的,事后看来,黑天鹅事件总是可以预见的,但没人能预料到。 

更多数据,更多问题

同样不幸的是,我们在问题上投入的数据越多,预测此类事件的可能性就越大,正如Taleb在Twitter上强调的那样:

数据集越大,越难以筛选噪声以找到信号,因为我们’更倾向于固定不同数据集之间的不正确关联。如 塔莱布继续指出, “当今世界有5万到10万个变量,因此>10亿个相关性。因此将使用伪造的。” 

或作为 塔莱布写道 in 黑天鹅:

在商业和经济决策中,数据会导致严重的副作用–由于具有连通性,因此现在的数据非常丰富;随着人们越来越沉迷于数据中,虚假数据所占的比例也随之增加。数据讨论不充分的属性:大量有毒–即使数量适中。

我们越经常查看数据,哪个问题变得更糟:

您查看数据的频率越高,就越可能获得不成比例的噪声(而不是有价值的部分,即信号)。因此,噪声与信号之比越高。

那么该怎么办?

更好的模型,没有更多的数据?

CSC的创新研究员Simon Wardley, 建议 我们应该把目光从更大的数据看做更好的模型,“Historically, it’关于未建模到建模之间的相对平衡和流量。该值不是数据,而是模型。”

但作为软件工程师 西蒙·沃特提醒我们,在华尔街崩溃之前“甚至低级的IT专家都知道这些模型是在开玩笑[但是]我们的部落心态使我们对后果视而不见。”

这很可能是问题所在:我们是人类。太人性化了。

无论是在我们的模型中,还是某些类型的数据的收集,还是对这些数据的解释,我们都会给分析带来个人偏见。’s 凯特·克劳福德(Kate Crawford)辩称 in 哈佛商业评论。我们无法避免这种偏见,而寻找 相关而不是因果关系 在我们的数据中无法解决任何问题。

实际上,可以说这使问题变得更糟,因为它使我们对数据有太多的信心。

一点数据永远不会伤害任何人

因此,诀窍是谨慎处理我们的数据。它’s not that data can’帮助我们预测未来。它可以。只是问问芝加哥市,该市非常成功 预测分析平台 用于预测犯罪和健康趋势等。

但是有一个原因,大多数企业仍在使用大数据技术,例如 Hadoop解决ETL等老问题,而不是分析。我们’在大数据领域还很早,企业正确地怀疑大数据’可以立即得出一些神奇的小知识,以了解收费多少,在哪里销售等。大数据可以提供帮助,但是’s not The Answer.

而且’当然,这并不是预测黑天鹅事件的答案。为此,您不’需要数据。您需要事后观察。

图片由 快门