中国档案

学术论文

分层次检索模式与缩微文献利用

李茁

内容摘要:

本文在作者主持完成的文化部科技创新项目“缩微文献影像数据库建设标准的研究”项目成果基础上,对缩微文献影像数据库检索问题进行进一步研究,提出采用基于文献内容的分层次检索模式解决缩微文献影像检索和利用问题的思路与方法,给出了内容导引结构的构造原理和实现方案。

关键词:数字化  缩微文献  文献检索  数据库 

近年来,国内公共图书馆开始对缩微文献进行数字化加工,将拍摄页转化成数字影像文件通过计算机终端供读者阅读。数字影像使读者摆脱了传统的胶片阅读器,但由于缺少关于文献内容的检索手段帮助,导致缩微影像资料在利用上仍然存在一些问题。随着图书馆信息化、数字化、网络化程度的不断加深,图书馆资源服务逐步呈现多种资源类型网络化服务的新形态,缩微文献的利用问题逐步被提上数字图书馆资源建设与服务的议事日程。缩微文献影像资料要纳入数字图书馆的资源服务范围,首先必须解决文献内容检索的关键问题。

一、 缩微文献影像资料检索

数字图书馆服务中,数字化文献资源一般提供基于文献内容的全文检索方式供用户利用,其前提和基础是建立文献全文数据库。缩微文献大多为竖排版、繁体字,原件多数污损变黄,进行OCR识别正确率非常低,需要大量人力进行后期校对甚至手工录入,工作量大,加工周期长。缩微文献原件的特殊性使建设全文数据库的难度增大,可行性降低。

长期实践证明,缩微文献作为图书馆重要的馆藏组成部分,其检索利用需求不容忽视。长期以来,读者利用缩微文献普遍采用借助书目数据找到对应文献,然后逐页翻阅文献影像的查阅方法,这种方式无法很好地满足用户对特定文献内容的快速检索需要,很大程度上降低了缩微文献资源的利用效果,一些珍贵资料内容没有得到有效的发掘和利用。

如何解决缩微文献影像资料利用中的检索问题,如何通过可行的成本投入在不进行全文识别的情况下,通过对文献关键内容的揭示提供一定程度上基于文献内容的检索手段,帮助读者方便有效的利用缩微文献影像资源,是摆在数字图书馆建设者面前的重要课题。

二、 基于文献内容的分层次检索模式

检索模式决定文献资源利用的实际效果,创建科学、有效的检索模式是解决缩微文献利用的关键问题。缩微文献年代相对久远,用户对文献内容的了解程度有限。通过深入分析读者利用缩微文献的检索行为和检索习惯,我们发现文献的目次(目录)、章节、篇名、篇目著者、照片/图片、广告等内容中蕴含着在文献内容中具有检索意义的大量信息,往往会比较多的被用户列为检索目标。因此,在缩微文献检索模式的研究中,我们尝试对于文献内容中比较容易被用于检索条件的关键信息进行提取,作为一个独立的文献著录层次进行描述,进而在缩微文献利用过程中利用该著录层次为用户检索文献内容提供帮助,这个独立的著录层次我们称为“内容导引”。

“内容导引”著录结构的帮助下,我们提出基于文献内容的分层次检索模式。基于文献内容的分层次检索模式定义的文献检索行为分为两个层次完成:文献定位和内容单元定位。首先,引导用户通过文献书目元数据检索定位到特定文献,完成第一层次检索;其次,通过“内容导引”的帮助检索定位到文献中的目标内容单元,完成第二次检索,引导用户到达特定页面开始文献浏览。

分层次检索模式在不提供基于整部文献内容的全文检索工具的情况下,整理和选取一部分关键内容线索提供给用户,通过分步定位的方式,一定程度上满足了读者对文献内容的有效检索需求,是一种经济有效的文献检索方法。

在分层次检索模式中,书目元数据负责提供关于整部文献的检索信息如:书名、责任者、版本、出版社等;“内容导引”负责揭示关于文献内容的部分关键内容信息如:章节篇名、篇目责任者、图片/照片、广告等。

不同于所有文本与检索项匹配的全文检索方法分层次检索模式在缩微文献影像资料检索中取得的实质性进展在于,创建了“内容导引”这一新的检索层次,使得以往基于整部文献的书目元数据检索行为又向着文献内容检索的方向推进了一步,因而更加深入、具体、有效。内容导引的提出和实现,是实现分层次著录、分层次检索模式的关键。

分层次检索模式是全文检索模式之外的一种新的检索模式,这种检索方式打破了必须建立全文数据库才能实现对文献内容进行检索的固定模式,提供了对于部分文献内容如:元关键词、篇名、篇目作者等关键信息的模糊检索,能够精确定位到目标文献页,以比较小的代价满足读者对文献内容的检索利用需求。

三、内容导引的结构和实现

1、内容导引的定义

内容导引,是将文献中部分具有检索意义的关键内容进行提取,按照文献著录规范进行描述,依据文献本身的逻辑层次关系进行排列,形成概括文献内容并引导用户检索利用文献内容的独立结构。

导引,即“指引”及“引导”的合称。内容导引,其主要目的是指引和引导使用者对文献内容中关键线索的查找,以便有效定位到目标内容页面。内容导引著录的主要依据是文献目次(目录),同时以整个文献作为主要信息源,对重要线索进行补充、延展和细化,成为揭示文献内容的映像。

内容导引著录虽然以文献目次(目录)为基础,但又不局限于此。在民国文献和古籍文献中,普遍存在目次(目录)随意性强、结构多变的特点,存在文献正文中的章节篇名、著者等信息与目次内容不一致的问题。内容导引著录以整个文献为主要信息源有效解决了以上问题,同时还增加著录了文献中其他具有检索意义的内容(如:照片/图片、广告、启事等),力求尽可能多的归纳、揭示文献中具有检索意义的关键内容。

2、内容导引的构成

内容导引由“文献通览”和“内容单元”两部分构成。“文献通览”部分仅提供文献页码索引,帮助读者逐页浏览缩微文献影像,为没有特殊内容检索需求的用户提供阅读入口。“内容单元”部分是内容导引层次的核心部分,采用树状结构揭示文献内容层次结构和关键内容线索提供内容单元与影像页码对应链接,使读者通过内容线索查找到对应的影像页面,实现部分基于文献内容的检索和利用。

内容导引以满足用户需求、方便使用为基本前提,以忠实原文献为准则,力求简明、有效、规范。内容导引树状结构层次化反映文献内容,揭示内容单元之间的逻辑关系,对文献关键内容分层级呈现和逐级导引,检索效率高、扩展性强。

从文献著录角度看,内容导引结构是基于文献内容,按照一定原则提取出来的,对于部分文献信息进行规范描述的独立层次,整体仍属于元数据范畴。在“内容单元”信息著录的过程中,除了著录内容的组织结构采用树状结构之外,著录结构中所有信息著录完全依据图书馆行业现行的文献著录规则进行描述。著录用文字除自定义的节点名称使用简体汉字,其他著录文字一律遵循文献原文忠实照录繁简用字,客观著录。繁简用字忠实原著有利于客观反映文献原貌,同时借助一般检索工具都能提供的繁简汉字对应功能,也可以适应不熟悉繁体字用户的检索需要。

    3、内容单元的构建

内容单元是内容导引的核心部分,是展示文献内容线索的关键架构。内容单元的构成元素按照树形结构组织在一起,清晰反映文献内容线索之间的逻辑关系,内容单元的组织结构可以根据检索层次和深度的需要随时进行扩展和完善。

内容单元是关于整个文献的,具有重要检索意义的文献内容的,可扩展检索信息树。内容单元检索信息树由根节点、二级节点、三级节点和下级节点依次组成,以便有效、直观的反映文献内容的层次逻辑关系。树状结构扩展性、生长性良好的特点可以有效适应不同类型、不同特点文献的内容结构多样化需求,可以根据期刊、报纸、古籍文献的不同特点和具体文献内容结构的需要灵活组织内容单元结构逻辑层级和节点数量。

为更加全面地反映文献的关键内容线索,内容单元著录应遵循以下原则和步骤:

全面反映文献中目次(目录)的全部内容;

依据文献正文对文献目次(目录)提供的检索信息进行补充和完善,纠正错误的信息,补充遗漏的篇目、章节信息;

依据文献正文对文献内图片分条目进行著录,每幅图片除标题外,提取至少一个关键词加以描述;

对文献内广告分条目进行著录,广告除标题外,提取至少一个关键词加以描述;

通过对文献内容的浏览分析,适当提取其他具有检索价值的信息作为分支节点增加到内容单元检索树中,以便更加全面反映文献信息的全貌。

内容单元树状结构反映了文献内容的组织脉络关系,分为根节点、二级节点、三级节点和根据文献著录需要而增加的下级节点。节点包括:

根节点:封面、序、目次(目录)页、版权页、附录、勘误表、图片、广告(启事)等

二级节点:栏目/篇名、章节名、篇目责任者等

三级节点:根据文献脉络层次提取二级节点分支中包含的题名、责任者、关键页面等

树状结构的枝干反映了文献的检索信息脉络,其中的每一级节点既可能关联下级节点其本身也可能作为最终节点具有检索意义,检索树的每个节点均可以随时增加下级节点,逐层展开到最后的叶片,形成对文献中具有检索意义的细节的归纳,为读者的检索打下基础。

内容单元中的根节点有序、目次、附录等,二级节点是根节点的下级分支,如:目次根节点的二级节点有章节名称、篇目著者等。检索信息树的节点部分来自文献目次(目录)中的自然成分,如:版权页、附录;部分来自文献中信息量丰富的重要页面,如:目次页;还有少部分节点是根据文献内容归纳增加的,如:图片、广告。

    4.内容单元中的图片与广告

在缩微文献影像数据库建设过程中,我们发现民国时期期刊、报纸等出版物中广告与照片资料非常丰富,广告、启事等信息从多角度和侧面反映了当时社会生活的各个方面,是极具历史和时代特点的重要内容,由于其中含有大量关于社会名流和重要事件的信息而经常被读者检索利用,为此,我们在内容单元结构中增加“图片”、“广告”著录节点,将文献中的有关内容进行集中揭示和归纳。

参照图片和广告节点的构建原理,我们还可以根据特定文献的内容特点和检索需要在内容单元树状结构中的适当位置增加其他分支节点,以便在著录环节尽可能多的提取文献信息,为读者检索提供便利条件,例如:添加归纳各种图集图表和数据条目的“图表”节点。

以下为缩微文献影像数据库内容单元著录样例:

四、总结

内容导引著录层次为缩微文献影像资源的内容检索提供了便利,基于文献内容的分层次检索模式为读者进一步了解文献、深入利用文献内容创造了条件。近年来,天津图书馆通过建设缩微文献影像数据库提升缩微文献资源利用水平,加工完成了30余万拍缩微文献影像资料,积极探索以低成本投入实现缩微文献有效利用的新途径,通过数字化手段对馆藏民国时期文献的缩微品进行应用开发,为读者和专业人士研究民国文献提供了极大的帮助,对于挖掘和发挥文献价值具有重要意义。

 

作者简介:

李茁,1967年出生,计算机应用硕士,天津图书馆副馆长,研究馆员。长期从事图书馆信息化、数字化领域课题研究,组织完成多个省部级科研项目,2013年主持完成文化部科技创新项目“缩微文献影像数据库建设标准的研究”。