标记语言综述

注:大部分内容来自w3china.org论坛中ID: fangyuan0809整理的材料, 本人借鉴学习中.http://bbs.w3china.org/dispbbs.asp?boardID=80&ID=86627

摘要:

随着Internet的普及和延伸,标记语言(Markup  Language)得到了迅猛的发展。各种标记语言层出不穷,从SGML到现在互联网上最广泛使用的HTML和用于数据存储与交换、重要数据本身的XML,再到风行一时,用于从HTML到XML标准过渡的XHTML。2000年语义网七层体系结构模型的提出,对标记语言的发展更起到了积极的推动作用。一系列网络本体语言,如RDF(S),XOL、SHOE、DAML+OIL以及OWL的研究得到了显著的进步。鉴于W3C将Semantic Web Services作为未来工作的重点,该文简单介绍了基于语义Web服务的WSDL、RuleML、OWRule+、OWL-S等标记语言。

关键字:标记语言;语义Web;SGML;HTML;XML;OWL

 

引言

万维网之父蒂姆·伯纳斯·李(Tim Berners-Lee)将万维网的演变分为两个阶段。第一个阶段,万维网应该是一个有利于人们合作的强大工具;第二个阶段,则是蒂姆·伯纳斯·李所定义的语义网阶段。随着Web的发展,用户及开发人员对网络的易用性、友好性提出了更高的要求。目前万维网使用广泛的HTML受制于自身的局限性,越来越不能满足用户需要,加之XHTML2.0计划宣告结束,幸而HTML5给了人们新的希望,HTML5的目标就是要使Web从单纯的内容展示转变成为应用开发平台。另一方面,Web发展的未来是语义的。在这样的语义网中,信息都被赋予了明确的含义,机器能够自动地处理和集成网上可用的信息。语义网使用XML来定义定制的标签格式以及用RDF的灵活性来表达数据,用一种Ontology的网络语言(比如OWL)来描述网络文档中的术语的明确含义和它们之间的关系。各种表示语义的语言得到了着重研究。从RDF(S),DAML+OIL到OWL,从基于语义网服务的OWL-S、 WSDL、SWRL、RuleML、OWRule+等标记语言。

 1  标记语言历史

标记语言(Markup Language),也称置标语言,是一种将文本(Text)以及文本相关的其他信息结合起来,展现出关于文档结构和数据处理细节的计算机文字编码。标记只是描述文档的结构和内容(这正是当初提出标记的本意),是在信息文档添加的一种元数据(描述信息的信息),主要包括人们熟知的标签、引用及注释等。标记语言是在文档中添加标记时所采用的规则的集合。标记语言仅表示信息,不参与运算与操作。

“标记(markup)”这个词最早用于出版业,也就是在原稿的边缘加注一些符号来指示打印上的要求。 长久以来,这个工作都是由专门的人(“markup men” )以及校对人来进行,对原稿标志出使用什么样的字体,字型以及字号,然后再将原稿交给其他人进行手工的排版工作。

早在60 年代, 出现了使用描述性标签的描述编码来描述电子文档格式, 其中最具代表性的是IBM 公司发明的GML (Generalized Markup Language, 通用标记语言)。1980 年,ANSI(American National Standards Institute)的CLPT 委员会和GCA和GenCode 委员会在GML 的基础上制定了SGML的草案。1986 年, SGML ( Standard Generalized Markup Language, 标准通用标记语言) 成为信息处理、文本和办公系统的国际标准ISO 8879。

SGML是一种元语言(Mate language ),即SGML是描述标记语言的语言。SGML 的实质是强调描述性标记,引入文档类型定义(DTD) 概念,具有平台独立性,所以,SGML 具有结构化、确认性和可扩展性三个特点。但是, 庞大、复杂且严格定义的规范说明令人对SGML 望而却步,这使得SGML的使用和推广受到很大的限制。

1990 年,Tim Berners Lee 采用一组SGML 的DTD 标记标签作为最初的HTML, 并用在Web 浏览器的排版中。1992 年,HTML 1. 0 的发布表明HTML 正式作为SGML 的一个小标签集应用于Web 中。随着Web 应用的不断增长,HTML 得到了很大的发展,1997 年,HTML 4. 0 提供了更多便于网上用户访问网络的功能。然而,即使是HTML 4. 0也仅提供的是有限量的标签集,这种标签集的有限性无法满足Web 上日益增长的各种多元化信息的描述需求,结果XML 开始登上Web 舞台。

XML 是SGML 的一个严格但简化的子集,它是专门的Web 应用标记语言。1996 年,W3C 编制并推出XML 草案,1998 年,XML 1. 0 正式发布。作为与SGML 同样的国际标准,XML 受到越来越多的广泛关注。

      如下图1给出标记语言发展简单示意图:

                          图1    标记语言发展示意图

 2万维网工具阶段标记语言

2.1 HTML

HTML (Hyper Text Markup , 超文本标记语言) 是用于创建Web 页和Web 信息发布的第一个通用语言,它提供跨平台的文档共享。严格讲,HTML 是描述型语言,而不是编程语言,它是SGML 的一个应用。HTML 文档以纯ASCII 的形式(即纯文本形式) 存储,以标签(Tag) 来定义文档的组织。在HTML 文档中,可以嵌入其它对象,如image、audio、video、javascript 等,通过URL 还能实现Web 节点间的超链接。

HTML 语言的特性可总结为以下几个方面:

(1) 通用性 可实现不同平台的文档共享。

(2) 可扩展性 HTML 的标签集合可以根据新需求而不断修正或加入有限的新标签符, 为实现有限的新功能的扩展提供保障。

(3) 创建的灵活性 HTML 文档是纯文本文档,可以由网页编辑器以及其他文本编辑软件创建。

2.2 XML

XML 是extensible Markup Language (可扩展标记语言) 的简写形式,它是Web中的新一代标记语言。XML是SGML的一个简化但严格的子集,它与SGML同属于元标记语言。同HTML 相比,XML不是拥有太多固定的标记,而是采用样式表描述规则的方式,允许用户根据需要自我创建自定义标记,创建的标记只需要在样式表中利用规则说明其执行动作就可以了。因此,这样做将能够更大范围地满足Web 上的日益增长的对多元化信息描述的需求。XML描述了文档的第一成分,并借助XML嵌套结构定义了文档和成分之间的关系,这便得计算机可以处理用XML描述的信息。

2.2.1 XML 的特性

XML 继承了SGML 的三个特性,同时也具有HTML 的灵活性和通用性:

1) 确认性:应用程序不用外部定义概念就可以检查XML 文档结构的正确性和有效性。

2) 结构化:XML 文档将内容与格式分开描述,并利用样式表中的规则集对所描述的内容文档的格式进行严格的说明,这样,XML 的描述就象数据库一样具有了结构性。

3) 可扩展性:XML 允许用户根据需要自我创建自定义标记,创建的标记只需要在样式表中进行符合格式规则集的说明即可,很显然,这样的扩展性不会象HTML 那样受到扩展量的局限。

4) 通用性:XML是专门为Web设计的通用标记语言,它比HTML更具有通用性。

5) 灵活性:XML 的灵活性表现在两个方面,一是XML文档也是纯文本文件,同HTML一样,各种编辑工具创建的XML 文档都能被WWW 浏览器所显示;二是XML 允许自定义标签,这种优势使得HTML 应用所无法与XML 的应用相比。

2.2.2 XML 的四个主要技术

1)XSL 是eXtensible Style Language (可扩展样式语言)的简写,它是专门为XML文档所设计的高级样式表语言。XSL 包含一个小而严格的规则集,用来说明XML 文档中标签的行为格式,Web 浏览器只有通过XSL 的格式翻译,才能阅读XML 文档的内容。

2)DTD 是Document Type Definition (文档类型定义)。在DTD 中, 提供包含文档的元素、标记、属性和实体的清单以及其相互关系。这样,用户可以十分方便地为某些特殊应用(例如化学公式、数学符号公式等) 专门的标记语言。DTD分为内部DTD 和外部DTD。

3)XLL 是eXtensible Linkage Language (可扩展链接语言),它提供XML 文档之间的链接。XLL 由Xlinks 和Xpointers 组成,其中Xlinks 定义如何进行文档间的链接,且链接可以是双向的,也可以是多向的,当然,Xlinks 也可以使用URL 来实现链接。Xpointers 是一种链接手段,它定义了如何寻址文档,即链接到特定位置的特定文档,甚至是特定文档中的特定部分。

4)XML 应用程序是指“XML 允许创建由标准工具阅读和理解的很多规则形式的语言”,并专门为某特殊领域所用。例如,用户利用化学标记语言(CML),可以将复杂的分子结构、光谱化学分析等数据发布到Web 上,提供给网上用户阅读。

2.3 SGMLHTMLXML三种标记语言的关系

SGML是一种用于与文本应用有关的数据表示方法。XML和HTML都是从SGML演变而来的文件格式,它们有很多相似之处。但是,HTML是SGML的一种应用,而XML是SGML的一个子集。这样,HTML不能再定义新的应用,而XML则可以,比如RDF(Resource Description Format)和CDF(Channel Description Format)都是XML的应用。XML与SGML兼容,任何XML文件都能被SGML工具识别,而XML 比SGML简单,更适合于带宽不是很高的Internet应用。可以说,XML是发扬了SGML的优点,而且变得更简单,更好地用于Web。SGML,HTML和XML三者之间没有相互取代的关系,它们各得其所,HTML仍是短、小信息(如会议日程安排等)发布者的青睐对象,XML将更多地应用于一些数据多、时间长、结构较复杂的信息发布,而SGML由于过于庞大,没有设计成符合网络协议议需求,在Internet上应用不多,它更多地应用于结构很复杂的文件。

2.4 XHTML

2.4.1 XHTML的提出

HTML发展到今天存在三个主要缺点:不能适应现在越多的网络设备和应用的需要,比如手机、PDA、信息家电都不能直接显示HTML;由于HTML代码不规范、臃肿,浏览器需要足够智能和庞大才能够正确显示HTML;数据与表现混杂,这样你的页面要改变显示,就必须重新制作HTML。因此HTML需要发展才能解决这个问题,于是W3C又制定了XHTML,XHTML是HTML向XML过渡的一个桥梁。

1999年12月W3C推出HTML 4.01版之后,本打算不再推出HTML的标准,而开始转向XHTML的研究。XHTML 1.0已于2000年1月作为推荐标准发布;XHTML Basic是对XHTML1.0的独立于设备(如手机、PDA等)的扩展,于2000年12月发布;随后,2001年5月推出了XHTML的模块化版本——XHTML1.1。

XHTML是The Extensible HyperText Markup Language可扩展超文本标识语言的缩写。遵循的是W3C于2000年1月26日推荐XML1.0。XML虽然数据转换能力强大,完全可以替代HTML,但面对成千上万已有的站点,直接采用XML还为时过早。因此,在HTML4.0的基础上,用XML的规则对其进行扩展,得到了XHTML。简单的说,建立XHTML的目的就是实现HTML向XML的过渡。

XHTML 最早叫做“HTML in XML ”,基于XML,也就是说,将以前用SGML 定义的HTML 改为用XML 重新定义。从这个意义上讲,XHTML 实际上是XML 的一种应用。表面上看,在XHTML 中,其标记仍旧延用以往的HTML 的标记,各元素和属性的名称和用法也几乎不变,只不过由于改为用XML 定义,就必须严格按照XML 语言规范来处理了。

2.4.2 XHTML的优势

XHTML是一种增强了的HTML, 相比HTML4,它的可扩展性和灵活性将适应未来网络应用更多的需求。

(1)XHTML解决HTML语言所存在的严重制约其发展的问题。

(2)XML是web发展的趋势,所以人们急切的希望加入XML的潮流中。XHTML是当前替代HTML4标记语言的标准,使用XHTML 1.0,只要你小心遵守一些简单规则,就可以设计出既适合XML系统,又适合当前大部分HTML浏览器的页面。这个意思就是说,你可以立刻设计使用XML,而不需要等到人们都使用支持XML的浏览器。这个指导方针可以使web平滑的过渡到XML。

(3)使用XHTML的另一个优势是:它非常严密。当前网络上的HTML的糟糕情况让人震惊,早期的浏览器接受私有的HTML标签,所以人们在页面设计完毕后必须使用各种浏览器来检测页面,看是否兼容,往往会有许多莫名其妙的差异,人们不得不修改设计以便适应不同的浏览器。

(4)XHTML是能与其它基于XML的标记语言、应用程序及协议进行良好的交互工作。

(5)XHTML是Web标准家族的一部分,能很好在无线设备等其它用户代理上。

(6)在网站设计方面,XHTML可助你去掉表现层代码的恶习,帮助你养成标记校验来测试页面工作的习惯。

2.4.3 XHTML的死亡

XHTML 鼓励良好的代码习惯,所有标签都需要完整,严谨,XHTML 可以产生比 HTML 4 更干净的代码。XHTML 1.0风行一时,但W3C于2002年8 月 5 日发布 XHTML 2.0 的第一个工作草案时,让人大吃一惊:与其先前的版本不同,它不是向前兼容的。

XHTML 2.0尽管初衷是好的,但它的夭亡来自两件事,第一,它不向前兼容,意味着你写的 XHTML 1.x 代码无法直接用于 XHTML 2.0, 相反, HTML 5 却向前兼容。第二,XHTML 2.0 并非 HTML 的 XML 化,而是一种全新的体系,它忽视了设计师们的需求。

而 HTML 5 却包含了设计师们需要的很多东西,本地的音频,视频支持,多栏布局工具,离线数据库,本地的矢量图支持,这一切,XHTML 丝毫没有触及。

2006年,Tim Berners Lee表示,从HTML到XML的路是行不通的。W3C宣布从2009年底起终止同 XHTML 2 工作组的合约,以此宣告了曾经一度野心勃勃的 XHTML 2 的正式死亡。W3C将主要精力倾注到他们的新宠儿–HTML 5 身上。

2.5 HTML5

HTML5作为一下版本的HTML正在被开发,前身是Web Application1.0,在2004年由WHATWG(Web Hypertext Application Technology Working Group)提出,07年获W3C接纳,成立新的HTML工作团队,2008年1月22日,HTML5的第一份正式草案发布。HTML5保持了HTML原来的特色:没有名称空间和模式,元素不必约束,浏览器会宽容地对待错误。HTML5 中引入了新的元素。新的结构元素包括 aside、figure 和section。 新的内联元素包括time、meter和progress。新的内嵌元素有 video 和 audio。新的交互元素有 details、datagrid 和command。HTML5新标签的使用将使内容创作者更加语义地创建文档。HTML5中还引入了微数据,一种使用机器可以识别的标签标内容的方法,这样使语义Web的处理更为简单。可以看出HTML5同时也在朝着有利于未来语义化处理的方面提供条件。

HTML5的设计原则就是在不支持它的浏览器中能够平稳地退化,也就是HTML5在设计时保证旧的浏览器能够安全地忽略掉新的HTML5代码;HTML5还希望能够减少浏览器对于需要外挂程序的丰富性网络服务(plug-in-based rich internet application RIA),如Adobe Flash,Microsoft Silverlight与Sun JavaFX的需求。

HTML5是10年来Web开发领域出现的多种技术需求与实现的整理和归纳,是针对HTML4的改良。HTML与XML两交相发展,相互借鉴、汲取有价值,有发展潜力的部分,各种版本交替推出,对于两者早已说不清发展的先后问题。XML 是新一代Web 语言,是勾通Web 与现实世界的里程碑。在未来的几年里,HTML将仍然存在,而且HTML 和XML 之间的相互转换问题将成为Web 标记语言研究中的一个主题。HTML和XML 是相互补充的,HTML 是关于用户显示界面和交互界面的,而XML 是关于数据和信息的内容描述的。因而,XML 可以向HTML 文档中增加信息,HTML 则显示以XSL 格式所表达与描述的数据和信息。最终,HTML 和XML 将共同为Web提供十分丰富的数据和信息的显示机制。

3 语义网阶段标记语言

Tim Berners Lee在1999年《Weaving the Web》中说“如果说HTML和WEB将整个在线文档变成了一本巨大的书,那么RDF,Schema和inference language将会使世界上所有的数据变成一个巨大的数据库”。

近年来语义网受到越来越多的关注,相应地出现一系列基于语义网开发和应用的本体语言,如XOL(Xml-based Ontology exchange Language),SHOE(Simple HTML Ontology Language),OML(Ontology Markup Language)以及由W3C组织创建的RDF与RDF Schema(RDFS),还有建立在RDF与RDFS之上的、较为完善的Ontology语言DAML(DARPA Agent Markup Language)、OIL和OWL。

3.1 SHOE

全称为Simple HTML Ontology Extensions,简单HTML的本体扩展。这是一种与XML一致的互联网知识表达语言,使得网页编辑者可以对他们的互联网文档进行标注。它是HTML的一个超集,它扩展了一些标记,使得在HTML中可以增加任意的语义数据。它的标记有两类,一类用于创建本体,一类用于注解文档。最早由马里兰大学计算机系的研究者提出,但是目前他们有关本体的研究项目已经使用OWL 和DAML+OIL作为互联网本体的描述语言,因此对SHOE的研究已经停止了。

3.2 RDF、RDFS

3.2.1 RDF

资源描述框架(Resource Description Framework),是W3C在XML的基础上推荐的一种标准,用于表示任何的资源信息。RDF本质上不是一种语言,而是一个网络资源对象和其间关系的数据模型。其基本模型可描述成一个三元组<O,P,S>,表示一个资源(O)具有属性(P),属性值为(S)。RDF的数据模型是一种二元关系的表达,由于任何复杂的关系都可以分解为多个简单的二元关系,因此RDF的数据模型可以作为其他任何复杂关系模型的基础模型。

RDF的另一个重要特点就是组成RDF的资源、属性、属性值这三个元素都必须是被URI(统一资源标识)所标识的。由于RDF利用URI来对信息进行编码,它意味着被RDF所引用的任何资源、属性和属性值都是经过预先定义的、不具二义性的概念。由于 RDF能够表示陈述句,并且主语、谓语和宾语的三个组成元素都是通过URI所标识的,所以它具有语义表述的特性。所以W3C推荐以RDF标准来解决XML的语义局限。

3.2.2 RDFS

RDFS(RDF Schema)是一个用来描述RDF资源的属性和类型的词汇集描述语言。它自身也是用RDF表示,并提供关于这些属性和类的层次结构的语义。它使用一种机器可以理解的体系来定义描述资源的词汇,其功能就像一个字典,可以将其理解为大纲或规范。RDF Schema的具体作用是:

(1)定义资源以及属性的类别;

(2)定义属性所应用的资源类以及属性值的类型;

(3)定义上述类别声明的语法;

(4)申明一些由其它机构或组织定义的元数据标准的属性类。

RDF Schema 定义了

三个核心类:rdf:Resource、rdfs:Property、rdfs:Class;

五个核心属性:rdf:type、rdfs:subClassOf、rdfs:seeAlso、rdfs:subPropertyOf、rdfs:isDefinedBy;

四个核心约束:rdfs:ConstrantResource、rdfs:range、rdfs:ConstraintProperty、rdfs:domain。

3.2.3 RDF(S)与XML的关系

1.RDF和XML是互为补充的。

首先,RDF希望以一种标准化、互操作的方式来规范XML的语义。XML文档可以通过简单的方式实现对RDF的引用。其次,由于RDF是以一种建模的方式来描述数据语义的,这使得RDF可以不受具体语法表示的限制。但是RDF仍然需要一种合适的语法格式来实现RDF在Web上的应用。将RDF序列化为XML表示可以使RDF获得更好的应用可处理特性,并使得RDF数据可以像XML数据一样地容易使用、传输和存储。因此,RDF是定制XML的良伴,而不只是对某个特定类型数据的规范表示,XML和RDF的结合,不仅可以实现数据基于语义的描述,也充分发挥了XML与RDF的各自优点,便于Web数据的检索和相关知识的发现。

2.RDF(S)与XML的区别。

RDF和XML最本质的区别在于它们的语义表达方式。XML 是一种可扩展的标记语言,即标记语言的元语言,其语义全部隐含在文档的标记与结构之中,不能表达机器可理解的语义。RDF则可以看成是一种Web上的知识表示语言,是谓词逻辑的一个特殊形式,它具有形式化的语义即模型论语义,机器可以据此理解它所表达的语义信息。总之,RDF是一个完备的形式化系统。

其次,RDF与XML的模型不同。XML是一种树形结构,应用逻辑中的数据都被转换为树形逻辑,这种固定、树状的逻辑形式不仅缺乏灵活性,而且也会带来一定的语义丢失。RDF实际上是一种二元关系模型,我们知道,任何一种结构都可以被分解为一个或多个二元关系的组合,虽然RDF采用类似于XML的语法,但这并不影响它具有足够的灵活性来描述分布式的、呈网状的Web资源(RDF的二元关系模型可以很容易地扩展为网状结构)。

第三,它们所呈现的资源不同。XML文档中的标签构成了XML树形结构的节点,而各标签之间的层层嵌套则形成了该树形结构的隐藏的边。它们可以是某一应用逻辑中的任意数据,即使不在Web上也可以。而对于RDF而言,节点和边则是使用URI标识的资源。

第四,XML Schema和RDF Schema的含义不同。XML的Schema规定了XML文档的结构,并为XML文档提供一定的语义解释,它是隐含的。而RDF Schema并不会约束一个RDF文档(实际上就是一个XML文档)的结构,它本身就带有语义信息,用于解释RDF中词汇的含义。

最后,RDF数据容易聚合,这是XML数据所无法比拟的。RDF使用URI引用标识资源,其二元关系模型很容易扩展为图模型,因此很容易通过URI引用将RDF数据进行合并。而XML数据由于没有URI引用而很难聚合。

3.3 XOL

本体交换语言(Ontology Exchange Language) 。源于SRI International’ s Artificial Intelligence Center(AIC)的Bioinformatics Research Group。XOL设计之初是为了生物信息学领域本体的交换,但是它可以应用于各种领域。它是一种简单通用的定义本体的方法。基于XML和RDF Schema有两种变体,其目的是在不同的数据库、本体开发工具或者其他应用程序之间交换本体。

3.4 DAML

DARPA Agent Markup Language,该项目正式开始于2000年8月,由美国政府支持,目标是开发一种语言和一组工具,为语义互联网提供支持。Mark Greaves是该项目的领导者。DAML 形成于DAML- ONT(一种本体语言)和DAML- Logic(一种表达公理和规则的语言)。

DAML提出的原因和OIL类似,一批支持语义互联网的研究者发现XML、RDF作为模式语言其表达能力很有限,希望开发一种有更强的表达能力的模式语言。尽管DAML并不是W3C的标准,但是参与的开发者中有很多来自W3C的工作者,包括Tim Berners-Lee。

DAML扩展了RDF,增加了更多的更复杂的类、属性等定义,它一度很流行,成为网上很多本体的描述语言。直到DAML的研究者和OIL的研究者开始合作,推出了DAML+OIL语言,成为W3C研究语言互联网的本体语言的起点。

3.5 OIL

OIL(Ontology Inference Layer/Ontology Interchange Language)OIL是一种针对本体的基于互联网的表现和推理层。它是由the European Union IST programmer for Information Society Technologies under the On – To-Knowledge project (IST – 1999 – 1013) and IBROW(IST- 1999- 19005)资助的,也得到了更广泛的研究者的参与。

OIL综合了三个不同团体的工作,提供一种通用的语义互联网的标记语言。这三方面的工作分别是:

(1)基于框架的系统

基于框架的语言在AI中有很长的历史,其中心建模的基本语言是类(也称作框架)和属性(称为槽)。

(2)描述逻辑

描述逻辑通过概念(对应于类或者框架)和角色(对应于槽)描述知识。DL的一个重要特征是它们具有良好理解理论性质,并且在DL中任何表达的含义都可以通过数学的精确的方式描述。OIL从DL中继承了形式化语义和有效的推理支持。

(3)互联网标准

这里指的是XML和RDF。OIL标记语言的语法源自W3C的这些标准。

OIL的使用比较广泛,支持OIL的工具也很多,最著名的有OILEd,是一个基于OIL的本体编辑器。其他一些工具,比如OntoEdit、the FaCT (Fast Classification of Terminologies) System等也都支持OIL。

3.6 OWL

OWL全称为Web Ontology Language,是W3C推荐的语义互联网中本体描述语言的标准。它是从欧美一些研究机构的一种结合性的描述语言DAML+OIL发展起来的,具体地说,OWL是DAML+OIL的修订版。OWL的语义受到描述逻辑影响,OWL本体知识的组织方式受到框架的影响,而它的交换语法法则是基于RDF/XML。在W3C提出的本体语言栈中,OWL处于最上层。

针对不同的需求OWL有三个子语言,描述列表如下:

( 1) 子语言:OWL Lite

描述:用于提供给那些只需要一个分类层次和简单的属性约束的用户。

( 2) 子语言:OWL DL

描述:支持那些需要在推理系统上进行最大程度表达的用户,这里的推理系统能够保证计算完全性(computational completeness,即所有的结论都能够保证被计算出来) 和可决定性( decidability,即所有的计算都在有限的时间内完成) 。它包括了OWL语言的所有约束,但是可以被仅仅置于特定的约束下。

( 3) 子语言:OWL Full

描述:支持那些需要在没有计算保证的语法自由的RDF上进行最大程度表达的用户。它允许一个Ontology在预定义的(RDF、OWL) 词汇表上增加词汇,从而任何推理软件均不能支持OWL FULL的所有feature。

4 面向Web服务的标记语言

语义 Web服务是Web服务的发展方向,它的目标是使服务能被计算机理解,实现服务上发现、执行和组合等操作的智能化。而实现智能化的落脚点则是赋予服务描述足够的语义信息,让计算机理解Internet环境中服务的内容、属性、功能和行为等是服务语义描述的核心。Web服务的语义描述包含两个层次,一个层次是描述服务的内容、功能、属性、规则和限制条件等静态语义,另一层次是描述服务执行和复杂交互过程等动态语义。

4.1 WSDL

WSDL (Web Service Description Language)是一种基于XML的语言,用于描述Web Service及其函数、参数和返回值。WSDL是机器和人都可读的。但WSDL只能提供语法级别的描述,缺乏定义良好的语义信息,它只有基于关键字和面向人的形式化信息,因而无法实现服务发现组合等操作的智能化。

4.2 OWL-S

OWL-S(Web Ontology Language for Services),是用OWL 语言描述的Web Service 的Ontology,它也是一种具有显式语义的无歧义的机器可理解的标记语言,用来描述Web Service 的属性和功能。OWL-S 的早期版本叫做 DAML-S(DARPA Agent Markup Language for Services,基于DAML+OIL) 。一个服务一般有三个对象属性: 表示(presents)、被描述(described by)和支持(supports),这三个对象属性对应的值域是Service Profile,Service Model 以及Service Grounding,如图2 所示。

 

图2     OWL-S本体

4.3 RuleML

RuleML(Rule Markup Language)规则标记语言的研究开始于2000年8月,其目标是通过XML标记、形式化语言和有效的实现开发一种规范的Web规则语言。它提供的表示规则的标准方法覆盖了从推理规则、转换规则到反应规则的整个规则领域,包含这些规则的一个层次结构。从表达能力上来讲,RuIeML虽然可以表示各种规则,但它不是专为语义Web而设计的规则表示语言,没有考虑和已有的语义Web语言,如OWL结合的问题。因而目前它没有能直接用于服务语言描述中,但此后的许多工作都是基于它的。

4.4 SWRL

SWRL(Semantic Web Rule Language)是W3C2004年提出的一种语义Web规则标记语言,它来源于OWL语言系列和RuleML规则语言的一些基本思想。SWRL的研究是通过结合OWL和RuleML语言形成语义Web规则语言。目前SWRL仍然局限于二元关系范围内的,即在 SWRL中一个关系至多可以有两个元,并且没有考虑推理机制。目前主要作为OWL-S的补充,用以描述服务的前提和影响。

4.5 OWLRule+

通过扩展OWL以表示Horn子句和推理规则,提供了一种语义Web的规则标记语言OWLRule+。它可以扩展OWL-S,是一种具有良好规则表达和推理能力的逻辑语言,可以很好地描述Web服务关于规则和用户偏好等方面的静态语义。基于其强大的逻辑推理能力,使得在Internet环境中,能够在人不干预的情况下,自动选择最合适的服务。

4.6 PSML

PSML(Problem Solver Markup Language)随着互联网的不断扩张,用户很难方便地找到有用的信息。因为需要开发Web上的问题解决系统。而这一系统的核心就是问题解决标记语言(PSML)和PSML语言的Web推理引擎。有关PSML 语言的研究刚刚起步。作为一种标记语言,PSML 语言被用来表示、存储、查询和转换语义Web 中结构化的知识;另外,它又是一种逻辑语言,通过它可以直接得到知识或经过推理得到相关知识。直观地看,它等价于语义Web 中的Ontology 层之上的逻辑层和部分证明层的问题。

在现在的文献中关于PSML的研究,PSML是通过OWL 与Horn 子句结合而得到的。PSML作为语义Web 中一种新的知识表示方法,首先可以表示OWL 不能表示的多元关系,即一个谓词可以有多于两个以上的元;其次可以表示OWL 不能表示的规则;另外,PSML语言可以表示Horn子句难以表示的、有丰富等级结构的领域模型。

5 其他领域运用的标记语言

由于XML具有很多优良特性,它在采用简单、柔性的标准化表达和应用程序间交换数据方面迈出了一大步。XML提供了直接在数据上工作的通用法则。它将用户界面和结构化数据相分离,允许不同来源数据的无缝集成和对同一数据的多种处理。从数据描述的角度看,XML是灵活的、可扩展的,有良好的结构和约束;从数据处理的角度看,XML足够简单且易于阅读,同时又易于被应用程序处理。因此,XML必将为网络应用技术带来新的革命。在其他领域出现了许多基于XML的意义重大的标记语言。

5.1 MathML

MathML‎(Mathematical Markup Language‎) 即数学置标语言是一种基于XML的标准,用来在互联网上书写数学符号和公式的置标语言。它是由W3C的数学工作组提出的。语言规格1.01版于1999年7月公布,2.0版于2001年2月出现。W3C的数学工作组之后又在2003年10月发布了MathML的最终版——2.0第二版。

MathML 2.0是一个XML应用,它支持在Web页面正确显示数学符号和在应用之间传递数学符号。MathML 2.0扩展了MathML 1.0的符号和表达式集,改进了与其他W3C技术的集成,在数学、科学、研究和教育领域有很大用处。目前最流行的数学标记语言是Tex,MathML 2.0支持Tex和MathML的互操作,还支持Tex文档转换成MathML 2.0,MathML 2.0还能处理用ISO 12083格式编码的文档。MathML可以用作专用数学方程编辑器,它含有一个特殊数学符号的大字符名称集,而且将支持方程的朗读。数学方程可以用级联样式表(CSS)设计,可以通过XLink同任何数学表达式链接,MathML元素可以包含于带命名空间的XHTML文档。MathML 2.0还包含MathML DOM(MathML文档对象模型),可以识别MathML组件并能用任何脚本语言操作它。

5.2 GML

GML (Geography Markup Language)即地理标识语言,它由OGC(开放式地理信息系统协会)于1999年提出,并得到了许多公司的大力支持,如Oracle、Galdos、MapInfo、CubeWerx等。GML能够表示地理空间对象的空间数据和非空间属性数据。

2000年5月,OGC推出了基于XML DTD (Document Type Definitions,文档类型定义)和RDF(Resource Description Frameworks,资源描述框架)的GML 1.0版。2001年2月,OGC又推出了完全基于XML Schema 的GML 2.0版。2003年2月,GML 3.0版正式发布。

GML作为一个“开放的”标准,并没有强制采用它的用户使用确定的XML标识,而是提供了一套基本的几何对象tag、公共的数据模型,以及采用自建和共享应用Schema的机制。所有兼容GML的系统,必须使用GML提供的几何地物tag来表示地物特征的几何属性,但可以通过限制、扩展等机制来创建自己的应用Schema。

目前,越来越多的公司和研究机构开始采用GML语言开发它们的地理空间信息应用。GML语言本身也在不断发展和完善中,最新推出的GML 3.0版本在空间数据编码和传输、地理对象描述等方面做出了诸多改进。相信在GML等技术的推动下,地理空间Web将日臻成熟,继而在全球推广开来。

5.3 WML

无线标记语言(WML),是WAP论坛制定的.它充分考虑到无线通信的带宽窄、显示屏幕小、处理能力有限等特点,并参考超文本标记语言HTML 制定的。主要功能是在无线终端中显示文本信息,实现网页浏览。

无线应用协议栈的最上面一层是无线应用环境(WAE ) , WAE 为WAP / Web 应用和具有WAP 微浏览器的无线设备提供了互通能力。WAP 的WML 语言是微浏览器的基础,可以解决无线设备本身存在的不足。除了提供类似于HTML 语言的功能外,WML 还增加了对事件及变量的支持,并为开发者提供了开发基于微浏览器的各种应用所需的工具。WML 携带的用户端无线脚本语言,即WML Script 增加了显示的灵活性和对显示的控制。

从WML1.0演进到WML2.0,发生了根本性的变化。WML2.0 是基于XHTML开发的,以W3C 定义的XHTML 的基本集合( XHTML Basic )为基础,通过使用XHTML 的调整扩充机制,使WML2.O 拥有很强的扩展性,可以在需要的时候嵌入其他语言的语言元素。因此,采用XHTML 编写的文件可以完全被WML2.0 的浏览器识别。从这个角度可以看出WML2.0 支持HTML ,加上WAP2.0 对TCP/IP 协议的支持,使得支持WML2.0的微浏览器可以显示Internet 的内容。WAP2.0 版本可以进行语言转化,即使用扩展式语言转换器XSLT ( eXtensible Stylesheet Language Transformation ),可以将WML1.0 开发的文档转化成WML2 . 0支持的文档代码,这样就可以由WML2 . 0 的浏览器处理WML文档。让无线设备既能识别用XHTML编写的内容,也能识别为专门利用WML本身特有标记编写的应用和内容。

5.4 OPML

OPML(Outline Processor Markup Language)是建立在XML基础上的“大纲处理标记语言”,主要用于描述一份资料的结构,这份资料可以是计划书,黄页的目录,甚至是Mp3的播放清单。如果每个软件可以遵循OPML的格式对所处理资料输入、输出,那这些信息就可以在不同系统不同软件之间传递,使不同软件实现直接“对话”。

5.5 XrML

XrML(Extensible Right Markup Language)是一种标准的数字权限管理(DRM)标记语言。这一基于XML的语言允许用户指定与数字内容或网络服务等资源相关的权限和条件。DRM单一标准语言可以促进网络购买和销售内容,同时保护内容免于未授权的使用。  

XrML是从数字化知识产权语言(DPRL)开发而来的,后者是Xerox’s Palo Alto研究中心的Mark Stefik基于LISP开发的语言。Stefik将DPRL创建为机器可读的语言,使其可用于为可信赖PC定义访问规则和程序。Stefik将DPRL 2.0改为基于XML的,因为XML是可扩展的,从而可与其它新出现的标准共同操作并根据需要进行改编。

Xerox与微软合作建立了一个新的公司Content Guard来开发和促进DPRL。在2000年,这个公司发布了XrML,作为先前语言的修订版。

结语:

随着Web的迅猛发展,标记语言也经历着各种发展变化,基于各种应用的、面向某个特定领域的新标记语言被定义或者提出。从SGML、HTML到XML、RDF,再到OWL、SWRL等等,标记语言在一步一步改进,从最初的只能显示信息到数据交换,从只含语法结构到现在的显示语义、支持相应的语义Web服务,从单纯的内容展示到集成的应用开发平台。标记语言能起到的作用越来越大,它的应用也越来越广。其中重要的思想就是当遇到一个新的问题利用现有的技术或标准无法解决的时候,就会有新的事物被定义或者说被提出。本文对基于语义Web服务等应用的标记语言,特别是基于逻辑、推理等方面的语言研究不够深入、详尽,这恰恰是Tim Berners Lee提出的语言网七层模型中下一步要重点研究的地方。

参  考  文  献

[1] Grigoris Antoniou,Frank van Harmelen. <译者>陈小平.语义网基础教程[M].机械工业出版社,2008年4月

[2] David Hunter,Jeff Rafter ,Joe Fawcett. <译者>吴文国.XML入门经典[M].北京:清华大学出版社,2009年2月

[3] Markup Language. [EB/OL]. http://en.wikipedia.org/wiki/Markup_language

[4] 袁梅宇 . XML Schema, RDF Schema及DAML比较[J]. 昆明:计算机应用研究 2003

[5] 陈静 .辨析HTML、SGML、XML三种标记语言[J]. 吉林:信息技术 2009

[6] W3C.DAML+OIL Web Ontology Language.http://www.w3.org/TR/daml +oil-reference,2001

[7] W3C.OWL       Web Ontology  Language   Guide. http://www.w3.org/TR/2004/REC-owl-guide-20040210/

[8] W3C.OWL       Web Ontology Language XML Presentation Syntax. http://www.w3.org/TR/owl-xmlsyntax/

[9] 王仲 . XHTML——一种可扩展的超文本标记语言[J]. 北京:计算机科学 2000,27

[10] 苏依拉 . 网络智能中PSML语言的研究[D]. 北京:北京工业大学 2008

[11] 苏依拉,郑磊 ,刘椿年 ,钟宁 ,LIU Jiming. 基于OWL和Horn子句的β-PSML语言框架[J]. 北京:计算机工程 2005,31(23)

[12] 朱礼军,陶兰,黄赤.语义万维网的概念、开发及应用[EB/OL].

2004.http://bbs,w3china.org/list.asp?boardid=2

[13]陆建江,张亚非,苗壮等,语义网原理与技术[M],科学出版社,2007,3

[14] W3C. OWL Web Ontology Language Semantics and Abstract Syntax.

http://www.w3.org/TR/2004/REC-owl-semantics-20040210/

[15] Boley H, Tabet S ,Wagner G . Design rationale of RuleML :A markup language for Semantic Web rules . [J]. International Semantic Web Working Symposium,2001.

[16] W3C. SWRL: A Semantic Web Rule Language Combining OWL and RuleML.

http://www.w3.org/Submission/SWRL/

[17] 梁晟,付弘宇 ,李明树. 语义Web规则标记语言OWL Rule+的设计与实现[J]. 北京:计算机研究与发展 2004,41(7)

[18] Sheila A M, Tran C S, Honglei Z. Semantic Web Services. [J]. IEEE Intelligent Systems, 2001.

[19] Jae Kyu Lee,Mye M. Sohn. The eXtensible  Rule Markup Languagel [J].

COMMUNICATIONS OF THE ACM,2003,46(5)

[20] 钟志农,景 宁 ,陈宏盛 ,于大东 . 地理标记语言GML[J]. 长沙:微型机与应用 2003,

[21] 任立刚,宋俊德. 下一代无线标记语言WML2.0[J]. 通讯世界 2002,90:66~67

发表评论

电子邮件地址不会被公开。 必填项已用 * 标注

*

您可以使用这些 HTML 标签和属性: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>