毫无疑问,人工智能已经取代了大数据,成为企业技术行业最喜欢的新流行语。毕竟, 在Gartner的2017年炒作周期中 对于新兴技术,这是有原因的。

在最初的几十年中,尽管进展缓慢,但在过去的十年中,AI的发展迅速加速。有人说,人工智能将增强人类,甚至使我们永生。其他悲观的人说,人工智能将导致冲突,甚至可能使我们的社会失业。尽管意见分歧,但事实是,只有少数人可以识别AI的真正含义。如今,我们被微小形式的AI所包围,例如我们所有人都装在智能手机中的语音助手,而我们却不知道或察觉到服务的效率。从Siri到无人驾驶汽车,人工智能及其给我们的经济,个人生活和整个社会带来的好处已经显示出许多希望。

现在的问题转向企业如何从人工智能中受益。但是,在公司或个人获得AI承诺提供的众多改进之前,他们必须首先从高质量,干净的数据开始。 人工智能 的成功取决于准确,经过清理和验证的数据。

数据质量和智能必须齐头并进

企业目前使用数据来提取大量有助于战略规划的信息资产。战略计划决定了组织的未来以及如何在日益激烈的竞争中公平。考虑到数据的重要性,低质量信息所带来的潜在影响确实令人难以想象。事实上, 坏数据每年使美国损失约3万亿美元.

最近,我有机会采访  尼古拉斯·皮耶特  and  让·米歇尔·佛朗哥(Jean-Michel Franco) 从   塔伦德 ,这是领先的大数据和云集成公司之一。塔伦德(Talend)首席传教士尼古拉斯·皮耶特(Nicholas Piette)与集成公司合作已有9年之久,并且已经成为塔伦德(Talend)的一份子。

当被问及数据质量和人工智能之间的联系时,尼克·皮耶特(Nick Piette)权威地回答说,你不能一无所有。数据质量和AI都是相辅相成的,而AI不仅要准确而且要具有影响力,因此必须保证数据质量。

五个R ’s

为了更好地理解数据质量的概念以及对AI的影响,Nick使用了五种R方法。他提到他从他的教授David Shrier那里学到了这种方法  麻省理工学院 。尼古拉斯提到的五个R包括:

  1. 关联
  2. 新近度
  3. 范围
  4. 坚固性
  5. 可靠性

如果您用来推动AI驱动计划的数据勾勒出这些R中的每一个,那么您就可以正确地开始了。所有这五个都具有特别重要的意义,但相关性高于其他。无论您拥有什么数据,都应与自己的工作相关,并应作为指导而不是威慑力。

我们可能会到达这样一个程度,即指尖拥有的大量数据涌入我们太多,以至于我们无法意识到其中的哪些元素真正有用,而哪些是可丢弃的。这就是数据准备就绪概念的重点。拥有大量的历史数据可能有助于提取模式,预测周期性行为或重新设计导致不良结果的流程。但是,随着企业继续朝着增加使用实时引擎和应用程序的方向发展,数据准备就绪(或最容易或最近获得的信息)的重要性变得越来越重要。您应用的数据应该是最新的,并且应该具有复制现实的数据。

人工智能用例:医疗保健

当被问及当今在工作中使用AI的最佳例子时,Nick表示,他认为AI在医疗保健中的使用是迄今为止使用AI取得的成就以及更多公司可以使用该技术做什么的一个光辉的例子。更具体地说,尼克说:

如今,医疗保健专业人员正在使用AI技术来确定个人患心脏病的机会或预测心脏病。现在,AI已准备好帮助医生,并以他们以前无法做到的方式帮助他们诊断患者。”

我们对AI算法产生什么的理解或解释决定了AI在医疗保健中的使用。无论其当前的赞誉如何,这都是事实。因此,如果AI系统提出了新的见解,而这些见解对我们当前的理解似乎“陌生”,那么最终用户通常很难“信任”该分析。 Nick认为,社会真正信任和理解AI算法所提供的结果的唯一方法是,如果我们知道这些分析的核心是高质量的数据。

质量驱动数据

尼古拉斯·皮耶特 补充说,确保数据质量是所有希望实施AI的公司绝对必要的先决条件。他在这方面说了以下几句话:

“如果事先没有做出切实努力来改善用于推动应用程序发展的数据质量,那么100%的AI项目都会失败。我认为,不做任何努力来确保您正在使用的数据是绝对准确和可信赖的,这表明关于AI预期会回答或做什么的目标不明确。我知道很难理解,但是如果没有预先解决数据质量要求,那么到发现错误时,已经造成了很多破坏。因此,请确保它处于最前沿。”

尼克还指出,听到组织存在数据问题并不容易。他说,增加了一点幽默感。 “告诉公司它存在数据问题,就像告诉某人他们有一个丑陋的孩子。” 但是解决问题的唯一方法是首先意识到自己有一个,并愿意花时间解决它。

第一步是识别

关于公司无法意识到自己有问题,尼古拉斯指出,与他合作过的公司中,有超过一半的公司在指出问题之前都不相信他们有数据问题。一旦指出,他们就有了AHA!时刻。

尼克·皮耶特(Nick Piette)进一步表达了他的观点,那就是,如果AI在未来能够准确地告诉它如何达到答案以及达到该结论所需要的计算,那将是很好的。在此之前,数据质量和AI并行运行。人工智能的成功仅取决于输入数据的准确性。

 “如果要成功,您必须花费更多的时间来处理数据,而花更少的时间来处理AI。”

尼古拉斯·皮耶特(泰伦德)

如果您想进一步了解数据质量的概念,可以  点击这里 .

关于作者

罗纳德·范·隆(Ronald van Loon)是 顾问委员会成员  和  大数据& Analytics course advisor for  Simplilearn 。他为Simplilearn受欢迎程度的快速增长贡献了自己的专业知识 大数据& Analytics category.

如果您想从Ronald van Loon阅读更多有关大数据和物联网(IoT)可能性的信息,请单击“ 跟随 ”并继续   领英  and  推特 .