交流合作
一、
利用中文叙词表本体共建共享系统OTCSS,可以快速实现我国现有的130多部中文叙词表(主题词表)的本体化升级和网络化共建共享,也可以从零开始共建新的中文叙词表本体(即建即用)。
OTCSS分为两个版本:SPARQL/Jena版和Lucene版。SPARQL/Jena版适用于一般大型(1万左右叙词款目)和中小型规模的叙词表;Lucene版则适用于超大型的叙词表(如中国分类主题词表、核科学技术叙词表、国防科学技术叙词表、中国档案主题词表、农业科学叙词表等)。
这两个版本的区别在检索本体的核心。SPARQL/Jena版使用Jena提供的API结合SPARQL语言对本体进行检索;而Lucene版则通过使用Lucene全文检索引擎将本体生成索引,并对索引进行检索来实现本体检索功能。
对于能提供机器可读的电子文本的叙词表,OTCSS可以将其转换成OWL本体文件;对于无机器可读电子文本的叙词表,可以利用OTCSS的“词表管理”功能直接输入,且即建即用。当然您也可以利用OTCSS从零开始构建一个中文叙词表本体。或者,如果拥有技术力量,您也可以自己按照OntoThesaurus的定义 将叙词表文本转换为OWL文件,然后提交给我们(注册系统正在开发中)。
中文叙词表转换为符合OntoThesaurus定义的OWL文件之后,就可以拥有以下配套功能。(新的功能还将不断增加)
1.
供人使用的网络术语服务OntoThesaurus-TS
用户可以通过网络界面来访问OTCSS所提供的网络术语服务,功能包括:
² 可通过主题词(入口词)、中图法分类号、叙词英译名、主题词串、特种概念(如人物概念)等多个途径进行前方一致、精确一致、任意一致检索。
² 高级检索(组配检索)。
² 可以选择通俗显示或专业显示方式展示叙词款目的详细信息。
² 可以对叙词及其相关信息(如:分类号/入口词/英译名/指定关系相关概念等)进行获取。并可以指定以何种格式获取这些信息。
² 可以获取叙词的URI。
² 可以获取用OntoThesaurus、CNKOS、SKOS三种元数据来描述的叙词款目,每种元数据都提供RDF/XML、N-Triples、JSON三种数据格式。
用户可以利用这些服务,来发现、获取所需的概念术语及其相关信息,并应用到任意界面(如编目标引、OPAC检索、搜索引擎、数据库检索等界面),进行检索、查询扩展(英文扩展,同义词扩展,上/下位词扩展,指定关系扩展等)、查询重构、分类/主题标引、翻译等工作。叙词的URI以及RDF/XML、N-Triples、JSON格式的数据则可以用于更广泛的关联数据等应用(详见Linked Data服务)。
用户在使用术语服务的同时,可以在线提交修订意见,包括:新增叙词、为已有叙词添加入口词、修改原叙词款目信息、删除叙词款目,以及增加相关关系的子关系的建议。
2.
供应用程序使用的Web Service接口OntoThesaurus-API
OTCSS为应用系统开放一系列的Web Service
API (OntoThesaurus-API)。图书馆信息管理系统、数据库检索系统、搜索引擎、标签系统等,无论基于什么平台开发、采用何种开发语言,都可以使用OntoThesaurus-API提供的服务,来实现基于中文叙词表本体的智能检索、知识链接和知识服务。
使用方法请见“OntoThesaurus-API”。
OntoThesaurus-API的使用示例:深圳大学图书馆OPAC主题词智能检索。
3.
中文叙词表本体的一致性检测
OTCSS根据叙词表的编制规则,结合本体推理技术,为中文叙词表本体提供一致性检测机制。
在新版本发布之前,修订专家可以进行批式全局检查,也可以根据需要选择某类一致性检测进行检查。同时,在用户提交修订意见以及修订专家对中文叙词表本体进行增、删、改等操作时,也运用了一致性检测机制,以保证中文叙词表本体在整个生命周期中的质量。
OTCSS的一致性检测包括:
² 未定义叙词
检测有哪些叙词是以某种关系词(比如上位词、下位词)的形式出现在中文叙词表本体中,而该本体并未对该叙词进行定义(即该叙词没有独立的叙词款目)。
² 值域不一致
检测有哪些词既是叙词又是入口词。
² 入口词多次出现
检测有哪些词作为多个叙词的入口词出现。
² 非法自反关系
检测有哪些词在本体中与其自身存在某种关系。
² 非法对称关系
检测有哪些词与其他的词存在对称的关系,而这个关系本身在本体中是不允许对称的。如A的上位词为B,且B的上位词为A。
² 二元关系冲突
检测有哪些词与其他的词存在两种以上的关系,而这些关系是不相交的(即不允许在两个词之间同时存在)。如A的上位词为B,A的相关词也为B。
² 未成对指引关系
检测应该而未成对出现的关系。如A的上位词为B,而本体中缺乏B的下位词为A。
² 传递关系越级
检测哪些词在上下位等级传递关系中,出现越级的情况。如A的上位词为B和C,且B的上位词为C。
² 补齐拼音
检测有哪些词缺少拼音。
² 自动建立族关系
根据叙词的上下位关系自动建立族关系。
除了上述的检测内容,我们还可以根据具体的需求继续开发新的一致性检测功能。
4.
中文叙词表本体的共建功能
OTCSS在提供网络术语服务的同时,也为用户提供发送修订意见的功能。用户可以在线提交修订意见,包括:新增叙词、为已有叙词添加入口词、修改原叙词款目信息、删除叙词款目,以及增加相关关系的子关系的建议。这些修订意见可为修订专家提供参考,促进中文叙词表本体的即时更新。
修订专家可以通过网络界面提取统计后的用户意见进行修改,也可以直接对叙词款目进行增、删、改操作。
同时,我们也在开发同义词、定义注释等的自动构建功能,为修订专家提供更广泛、及时的修订信息来源。
5.
中文叙词表本体的管理/发布功能
OTCSS为修订专家提供词表管理和发布功能。整个过程通过网络界面进行,不再受时间、地域的限制,方便易用。在对叙词进行增、删、修等操作时,OTCSS提供一定的一致性检测,整个中文叙词表本体的维护过程是在安全、严格的环境下进行的。
修订专家可以对中文叙词表本体进行全局一致性检查,通过网络界面修改检查出来的各种错误。
当中文叙词表本体已通过系统的一致性检测时,修订专家可以对其进行发布,以新的版本为用户提供网络术语服务以及为应用系统提供Web Service API服务。
如果需要,也可以将中文叙词表本体整体发布为OntoThesaurus格式、SKOS格式或其他共享格式(如国家图书馆正在制定的CNKOS格式),用于下载、提供关联数据服务等目的。
6.
Linked Data(关联数据)服务功能
Linked Data是一种World Wide Web上发布数据的方式,它使用URI来命名数据实体,并通过HTTP协议来揭示、获取这些数据。
OTCSS可以让您的叙词表成为Linked Data,提供更为开放、便捷的服务。我们可以协助您制定并实现URI方案。
以上各项功能的具体情况可通过播放操作演示中的视频进行了解。您也可以登录OTCSS系统试用中的实际系统进行体验。这三个系统分别是:
·中国分类主题词表本体共建共享系统(CCT1_OTCSS)
根据国家图书馆编制的综合性词表《中国分类主题词表》(1版)纯文本电子版建立。含叙词款目101376个,入口词14690个,主题词串约102000条,包括哲学、社会科学和自然科学所有领域的学科和主题概念。基于该词表2版电子版数据(主题词表部分)建立的CCT2_OTCSS也已建成,其界面、功能与操作和CCT1_OTCSS完全一致,目前仅供内部研究和后台支持用,暂未开放。
CCT1_OTCSS 的OntoThesaurus-API的Web服务地址:
http://www.lib.szu.edu.cn/nkosapp/ThesaurusProjectForCCTWL/services/ThesaurusService?wsdl
·社会科学检索词表本体共建共享系统(SST_OTCSS)
抽取中国社会科学院文献情报中心主持编制的《社会科学检索词表》中具有代表性的民族学、宗教学、逻辑学部分,利用OTCSS的“词表管理”功能从零开始建立。
SST_OTCSS 的OntoThesaurus-API的Web服务地址:
http://www.lib.szu.edu.cn/nkosapp/ThesaurusProjectForSST/services/ThesaurusService?wsdl
·敦煌学检索词表本体共建共享系统(Dunhuangnology_ OTCSS)
根据敦煌研究院编制的《敦煌学检索词表》(局部)和季羡林主编的《敦煌学大辞典》建立。
Dunhuangnology_ OTCSS的OntoThesaurus-API的Web服务地址:
http://www.lib.szu.edu.cn/nkosapp/ThesaurusProject/services/ThesaurusService?wsdl
以上三个系统都可以匿名登录,体验OntoThesaurus-TS的检索、获取、提交修订意见功能。如果您需要体验更多的功能,可以通过网上注册的形式来申请账号,也可以与我们联系,我们会为您提供相应的账号。
以上三个系统目前仅面向教育和研究领域提供公益性服务,请勿用于商业用途。
采用OTCSS建设方案可以快速实现已有中文叙词表的本体化升级和网络化共建共享,建成周期约1-6个月。
如果您提供的叙词表文本具有较好的机器可读格式,并且不需要在建成的系统上添加更多的额外服务,那么整个建设周期会比较短。如果您提供的叙词表文本的机器可读性比较差,或者没有电子文本,或需要在建成的系统上添加更多的额外服务,那么整个建设周期就长一些。
欢迎国内的中文叙词表(主题词表)编纂机构或个人以横向课题等方式与我们合作,使这些凝聚了数十甚至数千人年脑力劳动的叙词表不仅能更好地为图书情报界服务,还能在网络信息环境中发挥更大的作用,成为语义Web上中文本体和中文术语服务的主力。
二、
欢迎大家积极使用和测试OntoThesaurus-API。目前提供16个接口函数。具体使用方法见“OntoThesaurus-API”。如果您认为这些API还不足以覆盖您的需要,请与我们联系。
三、
欢迎各研究机构或个人与本研究室进行项目合作研究或开发,共同努力,推动我国NKOS的发展。
1.
自动构建研究
近两年我们研究以免费开放的网络信息为数据源,按照一定的策略搜索和过滤叙词的同义词或定义,自动构建叙词概念的入口词和定义注释,为修订专家提供更广泛、及时的修订信息来源。
我们为OTCSS的自动构建功能预留了扩展空间,可以调用外部API来实现诸如新叙词概念、词间关系等的自动构建(辅以修订专家的人工判断)。如果您有类似的比较成熟的研究项目,欢迎提供相应的API接口。我们可以在OTCSS上使用这些接口,将您的研究成果从实验室搬到实用系统上,更好地服务于社会。
2.
可视化研究
目前我们正在研究和开发中文叙词表本体可视化的群组布局算法,试图以群组方式显示叙词款目中的同种关系,并以图片来展示不同的叙词概念,从而为用户提供更直观、更有吸引力的概念含义和概念间关系可视化揭示。这一研究的基本功能已实现,正在嵌入到OTCSS中。未来的最终目标是要将其建成一个面向RDF三元组的通用可视化软件,供所有有需要的应用程序调用。
如果您有类似的研究,欢迎开放相应的API接口给我们调用,以丰富OTCSS的叙词款目可视化功能。
3.
中文知识组织系统语义描述标准规范研究
自2009年底开始,本研究室主任曾新红研究馆员承担了国家数字图书馆知识组织标准规范(GC-HD090453)中的“基于传统知识组织系统的 中文NKOS构建规范”部分,目前所提交的D009-2、D009-3及D009-6报告已顺利通过了国家图书馆组织的馆内专家验收和向社会公开质询验收。
本研究室于2010年申请成功广东省哲学社会科学“十一五”规划项目“中文知识组织系统形式化语义描述标准体系研究” (编号:GD10CTS02)。目前各项研究正在稳步推进中。我们的目标是要为中文知识组织系统(KOS)建立一个形式化程度由低到高的语义描述标准体系,为建模者提供多种选择,以最大程度地揭示中文KOS的共性和变性,既保留传统中文KOS的精华,又为进一步向更高层次的KOS(如本体)发展提供扩展空间。
受学识的限制,我们的研究成果中难免会有错漏之处,欢迎您提出宝贵的修改意见,或提供更多的需求,帮助我们完善这项工作。
4.
其他中文KOS类型的构建及应用的合作研究与开发
经过多年的潜心研究和开发实践,本研究室成员在语义Web建模及中文知识组织系统的理论与应用实践上已有较丰富的积累,未来可以进行更多类型KOS的构建研究及其应用系统的开发。
随着语义描述标准体系研究的推进,我们将扩展OTCSS支持分类法及其他结构更简单的规范档、分类表、规范代码表等KOS类型。欢迎拥有这些KOS类型的机构或个人与我们联系,我们一起来实现它们的本体化升级和网络共建共享。
联系方式
曾新红(NKOS研究室主任,简历)
Email: zengxh@szu.edu.cn
办公室电话:(0755)26534975
林伟明
Email: linweim@szu.edu.cn
办公室电话:(0755)26536284-808
(0755)26534212-808
黄华军
Email: huanghj@szu.edu.cn
办公室电话:(0755)26536284-805
(0755)26534212-805
(曾新红,林伟明,黄华军 文)