ReadWrite

数据湖与数据仓库:哪种是最佳的数据体系结构?

对于数字过渡的企业来说,数据架构是一个重大决定。选择正确的模型是任何此类倡议的首要也是最重要的选择之一。但是鉴于选择的广度和令人困惑的术语,选择适合公司的解决方案’s needs without blowing its budget is no easy task.

最受欢迎的两个选项通常被称为“数据仓库”和“数据湖”。想想数据仓库 像购物中心。它内部有离散的“商店”来存储结构化数据,这些数据被预先分类为数据库软件可以与之交互的格式。

相反, 数据湖就像一个杂乱无章的跳蚤市场。 它有“故事”,但是一个地方停下来然后下一个开始的地方还不清楚。与数据仓库不同,数据湖可以包含结构化和非结构化数据。顾名思义,非结构化数据是指“混乱”的数字信息,例如音频,图像和视频。

使数据变得更加复杂的是“数据市场”。与前两个概念不同,这不是体系结构,而是数据湖的接口,该接口使IT团队之外的人员(例如业务分析师)能够访问其内容。通过搜索功能,它允许用户从湖中钓鱼所需的东西。可以将数据市场视为跳蚤市场的个人导游,向购物者展示在哪里可以找到最优惠的价格。

在数据仓库和数据湖内部

对于希望分析大型但结构化的数据集的公司而言,数据仓库是一个不错的选择。实际上,如果公司仅对描述性分析感兴趣(仅概述一个人拥有的数据的过程),则可能只需要一个数据仓库。

举例来说,假设公司领导要查看特定时间段内的销售数据,对产品的咨询数量或各种营销视频的观看次数。数据仓库对于那些应用程序来说是完美的,因为所有关联的图都以结构化数据的形式存储。

但是对于大多数开始大数据计划的公司而言,结构化数据只是故事的一部分。每年,企业都会生成数量惊人的非结构化数据。实际上,451 Research与Western Digital联合发现 63% 的企业和服务提供商中至少保留25 PB的非结构化数据。对于那些公司来说,数据湖是有吸引力的选择,因为它们能够存储大量此类数据。

更重要的是,数据湖使分析师能够超越描述性分析的范围,而进入令人兴奋的,且非常有价值的 预测性或规范性分析。预测分析是一种使用现有数据来预测与业务相关的未来趋势(例如明年的收入)的实践。

规范分析向前迈了一大步,利用人工智能技术根据预测做出建议。对于预测分析和规范分析,数据湖都是必须的。领导者通常使用诸如Apache Hadoop(一种流行的分析工具生态系统)之类的软件来管理数据湖。

在兴建数据湖或数据仓库之前,请考虑谁将进行数据分析以及他们需要什么样的数据。数据仓库通常只能由IT团队访问,而数据湖可以配置为供公司中的分析师和业务人员访问。

例如,我公司最近与一个医疗机构合作,要求提供数据仓库解决方案。但是很快,该公司显然将需要一个数据湖。它不仅对预测建模感兴趣,而且还试图输入各种非结构化数据,例如手写的医生笔记。

一家医疗保健公司的分析师可能会从数据湖中提取治疗数据以预测患者的预后。他们可能会添加一个说明性层,然后为每个患者的需求推荐最佳治疗方案-在最大限度地降低成本和风险的同时,提供最高质量的护理。

充分利用数据湖

考虑到它们既可以存储两种类型的数据又可以满足未来分析的需求,人们很容易认为数据湖是显而易见的答案。但是由于它们的结构松散,它们有时被嘲笑为更多的数据“沼泽”,而不是湖泊。

实际上,NoSQL数据库Basho的首席执行官兼总裁Adam Wray 描述 他们被称为“邪恶的,因为他们不守规矩”和“难以置信的昂贵”。根据Basho的经验,“与承诺的价值相比,[从数据湖]提取的价值是无限的。”

但是,现在还不应该算出数据湖。数据市场可以通过组织最终用户来挽救数据湖的希望。就像在Google之前浏览互联网要困难得多一样,数据市场可以释放强大的数据湖架构。在分析界,还没有一个万能的系统。数据仓库可以使规模较小的公司体验到数据分析的乐趣,而数据湖(当与数据市场结合使用时)可以使企业抢先进入大数据领域。这些系统也不是互斥的。如果其分析需求发生变化,则选择仓库的公司可以在以后添加一个湖泊和一个市场。

最重要的是开始走向以数据为导向的业务。许多高管会记得,十年前,甚至没有在IT团队之外讨论数据。现在,有了一系列的分析需求和工具,高管们就可以领导对话。