学会简介 学会章程 图书馆论坛 会员组织 机构设置 入会申请 学会动态
   
   
  常州图书馆 > 学会工作 > 图书馆论坛
  DC元数据在中小学图书馆数字化进程中的作用
  作者:常州市中小学图书馆协会 张正和 朱成军
 

  在本刊的前几期上,笔者分别撰文介绍了CNMARC、Z39.50协议等图书馆自动化、网络化方面的前沿技术。本期特简要介绍DC元数据在图书馆数字化进程方面的作用和MARC、Z39.50及DC元数据之间的关系。

随着科学技术的迅猛发展,人类社会进入了一个网络信息化的时代,大量的电子读物正以几何级数膨胀。尽管印刷型资料仍呈现快速的增长速度,可是据美国微软公司的预测,10年后50%的阅读材料将是电子读物和网络数字信息。那么,图书馆在向网络化数字化方面发展的道路上应该怎样去吸收和利用日臻庞大的信息资源呢?因此,在我国图书馆界,对计算机自动化管理中的前沿技术之一的元数据的需求呼声越来越高。在国外,已经有大量的图书馆用元数据来著录书刊和电子信息,并使元数据成为广大非图书馆专业的网络使用者逐步掌握的著录方式。为此,中小学图书馆同志要了解图书馆网络化、数字化,就必须了解元数据这一新型的,以非书文献和网络信息著录为主要对象的著录方式。

一、元数据的成因和特点

自印刷术发明以来,书籍可以说是知识记载和流通的主要形式。直到近代各种专业组织和学会的兴起,才有会议或是期刊论文的大量出现,与书籍分庭抗礼,形成二大文献主流。由于书籍是渊远流传的主要知识流通形式,自然成为图书馆最主要的馆藏文献。为了能有效管理馆藏书籍和提供有效率的服务,制作目录一直是图书馆技术服务的核心工作,也是图书馆读者服务的主要基础。自从实现图书馆自动化管理后,为了要利用计算机来处理书目资料,使用的书目记载格式变为机读编目格式,我们国家用CNMARC格式。

我国近二十年来,由于信息传媒发展迅速,加之各种专业组织和学会的兴起,刺激了学术研究的盛行。为了加快知识的流传速度,最新的研究成果并不以书籍形式呈现,因为厚达数百页的书籍,不但制作耗时,因此时效性较差,且发行成本昂贵。因此一般的最新研究成果是采用会议论文集或是期刊论文方式流传。而最近五六年来,我国相当一部分期刊的内容都已数字化和商品化。期刊题录索引,全文数据库几乎把最新的学术信息通过光盘和网络及时地呈送到读者面前。

由于期刊或是会议论文的汇集和整理,是以数据库的形式用光盘或从网络上发行,并且掌握在少数机构和数字化公司手上,而公司这些机构往往是以谋求利润以维持企业继续生存为主,因此其数据库具有付费和封闭性质的。同时为谋求利润的最大化,以避免单纯的价格竞争,他们必须强调产品的差异性。因此其处理模式,本质上是差异化取向。由此观之,不难体会到为何每家数据库公司的数据呈现方式均不一样。使得各种数据库产品的使用方式、字段与接口多,因此图书馆常常花费很多的金钱用在购买数据库上。

其次,全球信息网(Web)透过兼容性强的多媒体使用接口、易写作的超文件标示语言(HTML)格式和使用超链接来串接多个不同文件,在短时间内形成一股风潮席卷全球,不但使互联网走入一般人的日常生活,也无形中改变人们搜寻资料的习惯和期望。其中最主要的就是利用搜寻引擎(Search Engine),透过自动抓取程序在互联网络上抓取网页,然后使用全文检索的技术,以自动拆字(或词)做索引的方式来建立其数据库。这种运作方式固然可满足部分的检索需求,但是无法有效的筛选和过滤冗余资料,这是其最大的弊病。

打个比方:我们写信给某人,信写完了应该寄出去,如在信封上只写:南京路77号,某某收。当收寄局收到这样的信时,不知道应该往那儿发。因为,在全国大中城市中南京路实在太多了,南京有一条、上海有一条…,所以这封信是根本发不出去的。在这个例子中,“南京路77号”就相当于用户要检索的目标,而邮政收寄分发枢纽就相当于搜索引擎,当用户发出检索指令后,它就按照用户要求检索出所要的结果,往往会让人大吃一惊,因为它把成千上万的信息都罗列在用户面前。又比如,我们想从网上搜寻2002年人民教育出版社高一语文(试验修订本)中鲁迅《拿来主义》一文的多媒体课件。如果所有的课件均未著录。那么用搜索引擎的“高一语文”或“拿来主义”去搜索。就会出现成千上万条的题名是“高一语文”“拿来主义”和内容中含有“高一语文”和“拿来主义”词语的讯息,叫你无所适从。这样一来,用户只能从这些“垃圾”数据占95%的信息中再大海捞针般地检取和分离出自己所要的信息数据。

由于这些原因,使研究者意识到,为了资料检索和管理的需要,对资料的适当描述仍是必须的。虽然如今计算机的运算速度惊人,但是检索的有效率仍是亟待解决的问题。也就是说,用一种凡使用和输出数字信息的用户和提供者都能掌握的基本方式,对光盘和网络上各种媒体形式的数据加以著录。因此从不同角度描述信息特征的新型著录格式元数据也就应运而生。

元数据最常见的英文定义是“data about data”,可直译为描述数据的数据,主要是描述资料属性的信息,用来支持如指示存储位置、资源寻找、文件记录、评价、过滤等的功能。从图书馆的角度来看,就其本义和功能而言,元数据可说是电子式目录,因为编制目录的目的,即在描述收藏资料的内容或特色,进而达成协助资料检索并提高检索效率的目的。

在众多的元数据种类中,都柏林核心集是近年来在国际间相当受瞩目的一种。都柏林核心集(Dublin Core)是1995年3月由国际图书馆计算机中心(OCLC)等所联合赞助的机构在美国俄亥俄州哥伦布市的都柏林镇召开的研讨会推出的研究成果。根据研讨会的报告,都柏林核心集处理的对象,将限于“类文件对象”,意思是可用类似描述传统印刷文字媒体方式,加以描述的电子档案。一般图书馆的馆藏,绝大部分都是属于它的范畴,所以非常适合使用都柏林核心集来处理。而中小学图书馆也是属于此类型的图书馆。所以,在不久的将来,元数据会在其中得到大量的使用。

DC元数据的著录是由15个基本元素构成,由DC修饰词对这15个基本元素的语义进行限定和修饰。这15个基本的元素是:1.题名、2.创作者、3.主题、4.说明、5.出版者、6.其他责任者、7.日期、8.类型、9.格式、10.标识符、11.来源、12.语种、13.关联、14.覆盖范围、15.权限。具体每个元素的定义和修饰词在这就不再详述了。那么,元数据是以什么方式来进行著录和管理的呢?

传统的基于手工及印刷的资料著录,一般来说是将对文献资料的描述,按照一定的规则或摘要形式记录在另外的手写或印刷载体中(卡片、书本式目录或索引等)。对于元数据来说,它有三个方面与普通著录不同:

1.它们描述的对象发生了变化,不仅是书目资料,随着网络发展的速度加快,已经扩展到了电子图书、WEB网页、数字多媒体资料等。

2.网络环境的影响,现在数据体系往往应用于网络环境中,它们描述的对象不再是本地或某一具体的数据资源。

3.标记语言的兴起,计算机应用跨入网络化及标准化时代,作为一种管理和应用各种资源的有效方法,标记语言也就是在这样的背景中得到了大量的应用和发展。其中XML(可扩展标记语言)几乎成为信息处理的一个新的基础。

综上所述,元数据很多是直接利用标记语言或电脑数据库等进行制作的,使用标记语言制作的好处是保证了元数据的结构化,易于被计算机处理和交流,对人来说也有很好的可读性。使用标记语言的另一个优点是可以将元数据与资源对象整合在一起,方便管理与交换的可用性。(关于标记语言,笔者将于下期本刊撰文介绍)

在现今的网络环境下,元数据的存储与管理大致分为以下几种模式:

1、独立的元数据文件

2、嵌入在资源中

3、与通讯协议结合(比如在图书情报界逐步被使用的Z39.50)

4、本地数据库

5、远程数据库

元数据在网页著录方面也有独特的构思,图书馆是以制作目录(或是书目资料)为核心工作的,对于网络信息技术的高速发展,越来越多的网页资料同样也变成图书馆收藏管理的一部分,但是图书馆的工作人员不可能一直在网上收集那些未经标准格式描述的散落的资料信息,这样一来,元数据就成为了收集这些信息的主要手段。因为,网页处理目前唯一有效的方式为作者著录。作者著录方式是以让网页作者在制作网页时,也顺手对其所创作网页加以简单的著录,而所产生的元资料,其产量和品质都介于计算机和专业资料著录人员中间。

从上面所讲的几点来看,元数据的应用是将来图书馆和非图书馆信息之间交流及资源共享的发展方向。

二、DC元数据与MARC的关系和比较。

那么,有些人会问,这几年来,我们正在推广文献的MARC著录,为什么又出现这种新的文献著录格式呢?由于书籍是渊源流传的文献知识的主要流通形式,自然成为图书馆最主要的收藏,为了能有效管理馆藏书籍和提供高效率的服务,制作目录一直是图书馆技术服务的核心工作,也是图书馆读者服务的主要基础。为了要使用计算机来处理书目数据,使用了记载格式为机读编目格式(MARC),从1966年到现在,计算机逐渐取代卡片目录成为主要的处理工具。

但是,由于MARC编目的复杂性,使得书目资料的制作成本很高,其使用和流通成本却极底,无疑是阻碍了它的继续发展的步伐。随着互联网络的日益普及,网络资源的整理和检索也日益重要,MARC在此方面也显得力不从心。就设计结构不合理而言,MARC以前给非图书馆专业人士的第一印象是复杂且深奥难懂,至于对计算机科技有较深刻的人,则会惊讶的看到机读编目格式中有很多资料重复的现象。综上所述,我们可以发现MARC的局限性主要表现为以下几个方面:

1、对文献和信息描述手段往往只适合用于图书馆;

2、MARC需要在专门的软件系统中使用;

3、修订程序复杂、缓慢;

4、适用于完整的、静止的信息内容的处理,不易处理动态的多媒体信息;

5、编制一条机读记录不仅需要经过严格的专业训练,而且需要花一定的时间。

那么MARC是否会被DC取而代之呢?实际上,这种担心是没有必要的。虽说MARC在我国推广才十几年,但我国迄今为止的各类图书馆文献的70%都已按MARC进行了著录,并且大多数都通过一定方式已经或逐步实现资源共享。且MARC著录详细、检索点多和检索角度广,这是一个暂时尚无别的方法可完全替代的重要信息资源。MARC也在进一步适应新的发展环境,比如MARC为适应网络发展的需要,已经在该格式中增加了538字段(系统需求和存取注释)、516字段(计算机文件类型或数据注释)、256字段(计算机文件特征)以及856字段(电子地址和存取)。同时,为了促进MARC在网络环境中得到进一步的应用,美国国会图书馆正在研究制定MARC的DTD(文献类型定义),使得基于国际标准ISO2709格式的数据能自动转换到基于ISO8879的SGML格式上,适用于各类网络软件和浏览器。由此可见,21世界中叶前,在文献和信息著录中,必定是MARC和元数据并存的时代。只不过MARC侧重于传统文献,元数据侧重于网络信息,而且会出现二者共同发展的一个时期。

三、元数据在中小学图书馆自动化、网络化和数字化进程中的具体作用。

1.信息资源的共享:

目前大多数学校图书馆、公共图书馆的资源共享都是通过MARC标准(ISO2709的方式)来实现的。由于MARC是计算机可读及处理的数据,对人来讲,这样的数据可读性比较差。再说,MARC数据处理方法的原因,使得其对硬件与软件平台的依赖性很强。所以对如今网络发达的现在来说,已不是唯一的使用方法。而元数据是直接利用标记性语言进行制作的,所以能更好的保证数据的结构化,易于被计算机处理和交流,对人来说有很好的可读性。从软硬件方面来说,由于标记语言采用了最简单的文本格式,使得它具有很强的兼容性和不依赖软硬件的独立性。另外,因为元数据描述与被描述的对象整合在一起,所以大大提高了内容管理与交换中元数据的可用性。加上元数据可以跟Z39.50结合在一起使用,使得它信息资源的共享方面显得得心应手。

2.易于普及:

由于MARC著录的复杂性,对于一般的图书馆编目管理人员来说,学习它是一件很困难的事。而元数据,由于它的著录项目相对MARC来要少的很多,也比较容易弄懂,所以只要一般的培训,就可以上岗工作。在国外和港台,有关专家又把它称做“著者著录”,即凡在网络上产生和输出信息的人,都可以用元数据的格式来著录他自己的作品和数字信息。对于中小学图书馆来说,将来一是可以将原来的回溯书目数据转成DC元数据,二是对新文献信息用元数据来进行著录,这样不但节约了成本,而且可以更好地发挥各类文献信息,特别是新兴的网络资源在学校教育教学中的作用。

 


 

 

   


   
     
© 2003 常州图书馆版权所有 ®