OTCSS Linked
Data服务
1. 功能简介
根据中文叙词表本体的需求和特点,遵循关联数据创建四原则[1][2],我们在参考了LCSH(美国国会图书馆标题表)的Linked Data服务[3]的基础上,实现了OTCSS的Linked Data服务模块,其功能主要有:
(1)可将中文叙词表本体发布为关联数据,使用URI(统一资源标识符)作为中文叙词表本体中所有对象(如叙词概念)的名称;
(2)可通过HTTP URI实现对中文叙词表本体所有叙词概念的普通检索,提供叙词款目的两种显示方式(通俗显示与专业显示);
(3)提供中文叙词表本体所有叙词概念款目中的关联对象,并可通过关联对象的链接查询其详情;
(4)提供叙词款目信息的九种共享格式(均采用RDF标准)的下载。
另外,随着研究的深入,我们还将为此服务增加新的功能,如叙词概念的其它一些属性的关联及可视化功能。
2. Linked Data简介
Linked Data (关联数据)概念由Tim Berners-Lee于2006年首次提出, 关联数据提出的目的是构建一个计算机能理解的具有结构化和富含语义的数据网络, 而不仅仅是人能读懂的文档网络, 以便于在此基础上构建更智能的应用。[2]
维基百科中定义: Linked Data(关联数据)是语义网的主题之一, 描述了通过可链接的URI方式来发布、分享、连接Web中各类资源的方法。[2]
百度百科中定义:Linked Data(关联数据),简单来讲即为一系列利用Web在不同数据源之间创建语义关联的最佳实践方法。这里的不同数据源,可以来自一个组织内部的不同系统,也可以来自不同组织的不同系统,它们的内容,存储地点以及存储方式都可以完全不同,但它们很可能存在着关联,例如:Amazon上的图书可能与MySpace上的人之间存在关联,因为图书的作者有可能在Myspace上注册账号。总之,Linked
Data最大的特点便是将不同的数据关联起来。[4]
近年来,关联数据已引起不少行业的广泛关注,围绕关联数据也展开了一系列研究,关联数据的应用也逐渐增多,如美国国会图书馆等在内的机构都加入到了关联数据的出版发布行列。在2009年的TED大会上,
Berners-Lee提出了关联数据创建应遵循的四个原则等。关联数据的创建应遵循如下4个原则:(1)使用URI(统一资源标识符)作为对象的名称;(2)通过使用HTTP
URI,人们可以定位到具体的对象;(3)通过查询对象的URI,
可以提供有意义的信息(采用RDF、SPARQL标准);(4)提供相关的URI链接, 以便发现更多的对象。关联数据允许用户发现、关联、描述并再利用各种数据。关联数据使用HTTP URI进行标识, 人们可以通过HTTP/URI机制, 直接获得数字对象, 对象可以是人、机构、地点、电视节目、图书、统计数据、概念、评论等。这些对象可以来自一个组织内部的不同系统, 也可以来自不同组织的不同系统, 它们的内容、存储地点以及存储方式可以完全不同, 但它们之间存在着关联。[2]
3. LCSH的Linked Data服务介绍
美国国会图书馆标题表(LCSH)是目前世界上使用范围最广、规模和影响最大的一部综合性主题标题表。
LCSH含有26.5万条规范记录,传统上以MARC21格式进行发布。2006年开始,国会图书馆开始探索LCSH/MARC向SKOS的转换,目前已成功地在Web上发布了LCSH/SKOS版本,提供Linked Data(关联数据)服务、SKOS版本下载服务、SPARQL查询服务等。
LCSH的Linked Data发布网址为http://id.loc.gov/authorities/,其Linked Data提供的服务主要有:
(1)使用HTTP URI作为对象的唯一标识(如“http://id.loc.gov/authorities/sh85054367#concept”唯一标识标目“German language--Old High German, 750-1050—Etymology”),通过HTTP URI,人们可以定位到具体的对象(如图1所示);
(2)通过查询对象的URI, 可以提供很多有意义的信息,如:该标目的款目信息(Alternate
Labels、Broader Terms、Narrower
Terms、Related Terms、Created、Modified、Editorial Notes、Sources等)以及URI、Type、Instance Of、Alternate Formats等信息;
(3)在Alternate Formats中提供RDF/XML、N-Triples和JSON三种格式的下载或在线浏览;
(4)提供到其他词表中相似概念的关联(Similar concepts from other vocabularies);
(5)提供可视化展示和用户建议功能。
图1 LCSH Linked
Data服务示意图
4. OTCSS Linked Data服务的功能及具体使用方法
4.1 OTCSS的Linked Data服务
OTCSS的Linked Data提供的服务主要有(如图2所示):
(1)为中文叙词表本体的所有叙词概念(即所要发布的资源)提供HTTP URI,以此作为叙词概念的唯一标识,通过此HTTP URI,人们可以定位到具体的叙词概念;
(2)提供地址栏和检索框两种方式输入叙词概念的URI查询关联数据,叙词款目的展示提供专业显示和通俗显示两种方式;
(3)通过查询对象的URI, 可以提供该对象的很多有意义的信息,如叙词款目信息(拼音、中图法分类号、入口词、英译名、上位词、下位词、相关词、族首词等)以及URI、可选格式等信息;
(4)在可选格式中提供RDF/XML、N-Triples和JSON格式(这三种格式又分为OntoThesaurus、CNKOS、SKOS三种不同描述格式,共九种格式)的下载或在线浏览;
(5)未来可提供到其他词表相似概念的关联(如到中图法分类号对应类目的映射链接);
(6)可视化展示和一些其他属性的关联正在建设中。提交用户建议等共建功能则通过OntoThesaurus-TS的界面进行。
4.2 URI方案
具体词表的URI表示方案应由版权机构来制定,我们可以帮助词表的版权机构制定并实现URI方案。
作为一项实验性的研究,这里我们以《中国分类主题词表》(一版)为例,暂时采用“http://www.lib.szu.edu.cn/nkos/CCT_CT_V1.0#叙词概念”作为其叙词概念的URI方案,例如叙词“中越关系”的URI是“http://www.lib.szu.edu.cn/nkos/CCT_CT_V1.0#中越关系”。
4.3 使用方法
网络用户无需通过注册登录就可以直接检索中文叙词表本体中的所有叙词概念。实验系统登录地址:http://www.lib.szu.edu.cn/nkos/CCT_CT_V1.0
(1)用户可以通过两种方式查询叙词概念:
◆从URL地址栏中输入叙词概念的URI,例如输入“http://www.lib.szu.edu.cn/nkos:/CCT_CT_V1.0#中越关系”后回车,出现如图2所示界面,其中检索输入框中也自动填入“中越关系”;
◆在如图2所示界面的检索框中输入任意叙词概念,点击检索按钮后回车,出现该叙词概念的所有相关信息,并且地址栏中的URI也相应变化。
(2)用户可以根据喜好选择通俗或者专业两种方式来显示叙词款目;
(3)点击页面中叙词款目中的超链接,如“中外关系”,页面的所有信息也相应地变化,URL地址栏中出现“http://www.lib.szu.edu.cn/nkos:/CCT_CT_V1.0#中外关系”, 检索输入框中自动填入“中外关系”;
(4)页面中的URI显示的是叙词概念的URI,即使地址栏URL中和检索框中输入的是叙词概念的入口词;
(5)用户可以点击页面的九种格式超链接来下载叙词款目信息语义描述的不同文本,它们的具体含义和作用请见下一节。
图2 OTCSS Linked
Data服务示意图
4.4 共享格式的下载
美国国会图书馆的LCSH
Linked Data服务,其规范标目的可选格式提供RDF/XML、N-Triples、JSON三种共享格式,我们根据中文叙词表本体的特点和已有的研究成果,又将这三种格式分别细分为三种格式,即针对RDF/XML、N-Triples、JSON格式,将它们分别通过OntoThesaurus、CNKOS、SKOS三种格式来表示(这三种格式在指定条件下可以实现相互之间的转换)。
SKOS(Simple Knowledge Organization System,简单知识组织系统)为知识组织系统在Web上的共享和链接提供了一个通用的数据模型。许多知识组织系统,如叙词表(thesaurus)、分类法(classification scheme)、主题标题表(subject heading
system)等,有着相似的结构并用于相似的目的。SKOS攫取了大部分这种共性(similarity)并使其明确化,使数据和技术可以跨越不同的应用进行共享。SKOS模型提供了一种标准的、低成本的迁移路径,可将现有的知识组织系统移植到语义Web上。SKOS也为开发和共享新的知识组织系统提供了一种轻量级的、直观的语言。它可以独立使用,也可以和形式化的知识表示语言(如OWL)共同使用。SKOS Reference 20090818已成为W
SKOS的定义有较大的弹性,是基于RDF的非严格意义上的形式化语言,以容纳结构较为松散的KOS。其数据模型与OWL Full兼容,有较好的表达性,但与OWL DL不兼容,不具备完备的推理性能。[5][6]
CNKOS是国家图书馆正在制定的一种面向国内传统知识组织系统(如主题词表、分类法等受控表)的语义描述规范格式,它在SKOS基础上扩展了CKOS词汇,以期实现我国传统知识组织系统的全描述。该规范已通过国图组织的馆内专家验收和向社会公开质询验收。本实验研究的其中一个目标就是验证其URI方案和语义描述方法的可行性,为将来的支持系统实现提供更多的经验。
OntoThesaurus(Chinese-Thesaurus-Ontology,中文叙词表本体) 是国家社科基金项目“基于本体和知识集成实现中文叙词表的升级、共享和动态完善”(编号:05CTQ001)的研究成果,设计用来表示结构规范的中文叙词表(主题词表),以实现其本体化升级和在语义Web环境中的共享应用和网络化共建。采用OWL DL,可实现完备的推理。专门针对我国中文叙词表结构及其本体化扩展而设计,可视为OWL在中文叙词表领域的一个应用子集。适用于我国现有的一百三十余部中文叙词表(包括分类主题一体化词表)。简化后也可用于中文规范档、专业分类表(taxonomy)等KOS类型的语义描述。其命名域为
http://www.lib.szu.edu.cn/nkos/2010/10/ont/
缩写为“ont”。在其基础上已实现了较为完备的中文叙词表本体共建共享系统(OntoThesaurus
Co-constructing and Sharing System,OTCSS),功能包括:从中文叙词表到OntoThesaurus的自动转换功能、一致性检测推理功能、网络术语服务功能(供人使用的OntoThesaurus-TS和供应用程序使用的Web Service OntoThesaurus-API),以及全面深入的网络共建功能(用户界面+修订专家界面)。
OTCSS Linked Data服务中所采用的以上三种语义描述格式,前两种依据的是“国家图书馆知识组织标准规范”D009-2[7]和D009-3报告,后者依据的是“中文叙词表本体OntoThesaurus词汇表”。它们的形式化程度由低到高,可以满足不同的语义描述需求,在指定的条件下也可以实现相互之间的转换。
RDF/XML是W
图3 RDF/XML(OntoThesaurus)
图4 RDF/XML(CNKOS)
图5 RDF/XML(SKOS)
N-Triples[8]是W
如图6、7、8分别对应N-Triples的三种格式,即N-Triples(OntoThesaurus)、N-Triples(CNKOS)、N-Triples(SKOS)。
图6 N-Triples(OntoThesaurus)
图7 N-Triples(CNKOS)
图8 N-Triples(SKOS)
JSON(JavaScript Object Notation)是一种轻量级的数据交换格式,易于人阅读和编写,同时也易于机器解析和生成。它基于JavaScript Programming Language, Standard ECMA-262 3rd Edition -
December 1999的一个子集。JSON采用完全独立于语言的文本格式,但是也使用了类似于C语言家族的习惯(包括C, C++, C#, Java, JavaScript, Perl, Python等)。这些特性使JSON成为理想的数据交换语言。大部分现代计算机语言都以某种形式支持这些常见的数据结构,这使得该数据格式在同样基于这些结构的编程语言之间交换成为可能。[9]
如图9、10、11分别对应JSON的三种格式,即JSON
(OntoThesaurus)、JSON (CNKOS)、JSON(SKOS)。
图9 JSON(OntoThesaurus)
图10 JSON(CNKOS)
图11 JSON(SKOS)
4.5 结论
我们以在《中国分类主题词表》一版基础上建立的CCT1_OTCSS为例,构建和发布了Linked Data服务。这是一项实验性的研究,URI暂定,相应的语义描述规范正在验收中,我们希望通过实践来验证URI方案和语义描述规范的可行性。
目前已有的实践证明,这套Linked Data服务解决方案是可行的,可以投入实用。其他中文叙词表均可依此方法完成相应的部署。
随着研究的深入,我们将开发更多的关联数据服务功能。
5. Linked Data的应用前景
参见“关联数据在图书馆中的应用研究综述”一文[2]。
[6] SKOS Simple Knowledge
Organization System Reference: W
http://www.w3.org/TR/2008/WD-skos-reference-20080829/.