多年来,Gartner采取了 公正的批评 进行炒作和错误的预测。但是在 扭曲的姐妹时刻 Gartner分析师的业报回收期 尼克·海德克(Nick Heudecker)摇摆不定 在一份新的报告中,有一个关于大数据炒作的最新例子,他称之为“data lake fallacy.”

(稍后将详细介绍数据湖。现在,您需要知道的是它们’基本上与数据仓库相反,这意味着它们’以原始格式存储的大量数据,而不是经过整理,分类和归档。)

Heudecker承认,这些数据湖为企业带来了近期利益。但是虽然“营销炒作表明,整个企业中的受众群体将利用数据湖,”他认为大多数人赢了’具有掌握数据的必要技能。

换句话说,对于许多人来说,“data lake” roughly equates to “无人监管的数字垃圾填埋场,” as one 财富100强IT高管对此进行了描述.

讨厌分析师

It’s always been fun to 嘲讽分析师 指称他们偏向于有能力支付高价的大厂商,并且是大型计算趋势的落后指标等。一世’我对包括Gartner在内的分析师的关注 弄错开源之类的趋势.

但是,尽管呼吁分析师成为人类可能会很有趣,但这些人还必须努力克服他们在卖方现实失真领域和其他卖方愚蠢行为中所占的份额。许多 对如何处理大数据感到困惑 很大程度上是销售围绕它的技术的供应商的错。

难怪Heudecker’的同事Merv Adrian有时会厌恶地竖起推文:

即便如此,分析师通常还是相当温和的,很少公开批评供应商或其口号。

人咬狗

因此,令人惊讶的是,看到Heudecker紧随大数据界流行的最新流行语之一:数据湖。在众多供应商(通常是Hadoop供应商,但并非唯一)的支持下,数据湖是神话般的快乐场所,数据可以以其本机格式驻留,直到企业中的某人需要对其进行分析为止。

或者,正如Heudecker所描述的那样:

这个想法很简单:您无需将数据放置在专用数据存储中,而是将其以原始格式移入数据湖。这消除了数据摄取(如转换)的前期成本。数据放入湖中后,’可供组织中的每个人进行分析。

听起来不错,对吗?在一定程度上是这样。 关键和通用电气说 that they’无需再进行以下操作,便可以将分析时间从数周缩短至数天“花大量时间,精力和金钱来将数据转换为正确的格式。” 

但是那是什么’根据Heudecker的说法,以上链接文章或任何营销数据湖的公司提到的是:“由于数据湖缺乏语义上的一致性和受控制的元数据,因此[数据湖]定位假定那些受众熟练掌握数据操作和分析。” 

他继续说:

数据湖通常从未受管理的数据存储开始。为了满足更广泛受众的需求,需要具有管理,语义一致性和访问控制(这些元素已在数据仓库中找到)的精选存储库。数据湖的根本问题在于,它对信息的用户做出了某些假设。它假设用户认识或理解如何捕获数据的上下文偏差,并且他们知道如何合并和协调不同的数据源,而无需‘a priori knowledge’并且他们了解数据集的不完整本质,无论其结构如何。

当然可以。但是大多数’t。 (并找到能做到这一点的人,例如麦肯锡& Co. 笔记,这并不重要。)

因此,难怪Heudecker具有讽刺意味的是,“大多数供应商提供的产品或有关数据湖的讨论都包含面纱,用以构建周围的工作台,服务部署,元数据和专业服务。”

换句话说,那里’要从数据湖中获取价值需要大量的组装工作,并且有许多数据湖在推动供应商的排队,以帮助将所有这些整合在一起。

数据湖效应

Not that the 数据湖 is a doomed concept. 

硅谷数据科学战略副总裁Edd Dumbhill 同意 with Heudecker’的一般分析,但仍然乐观。 

Dumbhill承认数据湖是一个“梦想,因为我们有一种方法可以实现梦想,”但坚持认为“an accessible dream.”他进一步建议Google和Facebook在实现与Heudecker合作的同时已经实现了这一梦想’担心销售数据湖之梦的大数据供应商尚未解决其挑战“管理出处,数据发现和细粒度的安全性。”

简而言之,正如GE所经历的那样,数据湖和其他大数据梦想可能是真实的。但是,当供应商将它们作为解决大数据灾难的灵丹妙药出售时,如果没有指出这种方法的真正问题,我们就有可能吓scar需要真相而非虚构的买家。

引导图片 最大充电