撰写者 亚历克斯·伊斯科尔德 由Richard MacManus编辑。

约翰·马克夫’纽约时报的最新文章
已经引起了关于Web 3.0是长期存在的语义Web的有趣讨论。例如,
a 短文 在弗雷德·威尔逊(Fred Wilson)上’s blog had a lot of
试图定义Web 1.0,Web 2.0和Web 3.0的冗长注释。有人认为语义网是
关于AI,有人声称它更多地与语义有关,而另一些人则认为它与数据注释有关。
但是,所有人都同意,我们都将变得更加富有成效,并且在它到来时会更加快乐。
让我们看一下语义网的成分,定义和方法,以便我们可以识别
它终于在这里时。

什么是语义网?

维基百科定义 语义网 a
旨在通过以下方式为信息交换创建通用媒体的项目
万维网上具有计算机可处理含义(语义)的文档
。核心思想
是创建描述数据的元数据,这将使计算机能够处理
东西。一旦计算机配备了语义,它们将能够解决复杂的语义
优化问题。例如,如John Markoff在他的文章中所述,一台计算机将能够
如果您告诉它以3K预算寻找假期,则可以立即返回相关的搜索结果。

为了使计算机能够解决此类问题,网络上的信息需要
用说明和关系进行注释。语义的基本示例包括分类
对象及其属性。例如,书籍属于“书籍”类别,其中每个对象都有
属性,例如作者,页数和出版日期。一个基本的例子
关系来自我们所属的各种社交网络。
在一个网络中,这种关系可能是 的朋友, 在另一个 一位家庭成员
在另一个 与...合作.

RDF,OWL和注解的数学方法

有数十亿个完全非结构化的HTML页面,其中不包含注释和元数据。基本面
工程问题是我们今天要如何走’一个非结构化的Web到一个语义信息丰富的网站?
W3C联盟撰写的规范 RDF(资源描述框架)
OWL(网络本体语言) 试图使信息的集体捕获和描述以及本体和与其他信息之间的关系成为可能。
严格的数学方法。

RDF是一种基于XML的语言,可通过谓词描述关系。
维基百科解释: 主题表示资源,谓词
表示资源的特征或方面,表示主题和客体之间的关系。
例如,一种表示概念的方法“天空有蓝色”在RDF中是特殊格式的三倍
字符串:表示主题“the sky”,谓词表示“has the color”和一个表示“blue”.

OWL是另一种基于XML的语言,用于描述和推理本体。简而言之,OWL有助于语义描述,例如Dog是一种动物或Dog有四只脚。 OWL有三种风格:OWL Lite,OWL DL和OWL Full–每种风味都体现了表达性和可计算性之间的折衷。
这个RDF / OWL框架很全面,但是对于没有数学和计算机科学背景的人们来说很难理解。鉴于这是一种自下而上的方法,很明显,如果要成功,就需要存在一种自动机制,该机制可以吸收现有的HTML内容并将其转换为RDF和OWL元数据。但是,这是一个鸡蛋问题,因为如果我们已经可以做到这一点,那么问题就不会从头开始。我们仍然可以设想一种工具,该工具可以自动完成80%的工作,然后与人员进行交互以完成另外20%的工作。

微格式

认识到RDF和OWL的复杂性,一群人正在尝试另一种方法 微格式。微格式的目标是将基本语义直接嵌入HTML页面。它现在不像RDF和OWL那样具有表现力,但是它非常紧凑,并使用可用的XHTML工具向页面添加语义。例如,存在一种用于描述联系信息的微格式,称为hCard。使用hCard可以注释HTML,以便支持微格式的浏览器或搜索引擎可以推断出有关人的信息,例如名字和姓氏,公司或电话号码。另一种成熟的微格式称为hCalendar,它使页面作者可以描述事件。许多受欢迎的活动网站,例如Facebook和Yahoo!本地使用此格式来注释HTML页面中的事件。

除了表示形式的美观性之外,微格式方法显然比RDF和OWL简单。即使功能不那么强大,它也变得非常流行。许多网站作者开始将微格式嵌入其HTML页面。我们还看到了一些基于微格式的搜索引擎的早期示例,例如
这个 来自Technorati。使用微格式并进行搜索的简单好处是消除了歧义。在某种程度上,它类似于垂直搜索引擎–哪个知道您要搜索哪个行业。页面内使用微格式,数据也不再歧义,因此搜索结果更加精确。

微格式仍然存在一些问题。第一个与以前的自下而上方法相同–人们必须做工作来注释页面。好消息是,由于格式更简单,因此可以通过逆向工程和自动化来完成更多工作。第二个问题是,当前的微格式集不能涵盖我们在线遇到的许多问题。例如,我们不知道哪种格式可以代表一本书或一部电影。在实际使用之前,还需要创建更多格式“cover” the web.

语义网是个性化网

注释数据的问题非常复杂,远未完全解决。但是,让我们暂时待一会儿,想一想所有数据都注释完之后我们可以做什么。承诺是我们将减少现在所做的事情–即筛选大量不相关的信息。鉴于信息量呈指数增长,而我们的容忍度却在下降,这是一个非常有趣的主张。如果计算机可以立即返回相关结果,则可以节省大量时间。

但是拥有语义并知道数据之间的所有关系还不足以做到这一点。以旅行社为例。当您第一次出现在那儿时,即使她知道旅行的语义,事物之间的关系以及事物的价格,代理也不知道能为您提供什么。为了有效,她需要知道你在哪里’已经去过,您喜欢什么样的目的地。这就是她问你问题的原因。我们收到的所有服务都是以这种方式工作的,随着时间的推移,结果会越来越好,因为服务人员有时间学习您喜欢的东西。

因此,语义网的第二个重要组成部分(将有助于提高生产力)是一系列持久的个人偏好。一旦计算机知道了您的偏好并在线上对其进行了语义表示,它便可以运行算法为您提供精确的个性化结果。换句话说,您的个人偏好是需要应用于计算机返回的结果以作为响应的筛选器:查找3K以下的假期。当这种情况发生时,我们可以声称语义网已经到来。

结论

因此,‘Web 3.0’是语义网?大概。但是我们到了吗?不完全的。注释世界需要一些时间’信息,然后以正确的方式捕获个人信息,以启用我们已经讨论过的各种应用程序。我们当然越来越近了,很高兴看到未来几年情况如何发展。

顺便说一句,如果您希望我们写更多有关语义网的信息,请告诉我们,我们将进行后续跟踪。