自2004年末Google宣布免费把斯坦福大学和密歇根大学的所有藏书、牛津大学所藏的1900年以前出版的图书、哈佛大学和纽约公共图书馆部分馆藏进行数字化,制成电子版供全球读者通过Google在网上搜索阅读开始,全球拉开了大规模数字化图书的序幕〔1〕。我国也非常重视文献数字化,但遗憾的是,就研究成果而言,大多集中在研究与探讨某一具体文献类型如:地方、民族、人物、学科等数字化实施过程,鲜有根据各馆现实情况对数字化的必要性和可行性进行深入思考,我们需对此问题引起重视。如果图书馆仅是为了“面子工程”盲目地不加选择地进行数字化,势必造成人力、物力的极大浪费,同时也很难实现数字化的既定目标。笔者认为,图书馆需在充分认识自身切实需求和可行性的基础上,详细、严谨地做好数字化立项论证工作,客观地作出是否需要数字化的决策,而不能一味追求“数字化”潮流,不顾现实情况,“一窝蜂”地设立数字化项目。我国国家图书馆提出的数字资源建设八原则中,与数字化立项论证有着很大相关性的工作原则就有五个,即统筹规划,有序推进的原则、公益性为主的原则、突出重点原则、相互协调与相互补充的原则、注重规模与时效的原则〔2〕。可见,前期立项论证工作在整个数字资源建设中是何等的重要, “磨刀不误砍柴工”,论证工作做得充分、周全与规范才能确保数字化资源建设得以顺利进行与健康发展。
本文以数字化的必要性和可行性两方面作为立项论证的主线,并以决策树的方式呈现立项论证的程序和内容,确保数字化立项论证工作在程序化、规范化和标准化的政策指导下进行,以期对我国正在或即将考虑资源数字化的机构提供一定的参考建议。
1.立项论证决策树
目前,我国图书馆较多的是按照主题进行文献数字化,如:地方、人物、学科、民族等,但无论其规模大小如何,在确定主题初期均需进行前期论证工作。国外图书馆如:哥伦比亚大学、哈佛大学、加利福尼亚大学图书馆等非常重视立项论证工作,均根据各馆实际情况,制定了规范化的立项论证决策树图表〔3〕,并要求在实证时需严格执行决策树规定的流程和标准,对不符合要求的立项坚决予以取消。立项论证内容主要包括:(1)立项的必要性:用户需求、预测建库的社会效益和经济效益、数据库建设的目标、内容范围(选题); (2)立项的可行性:文献资源能否支持建库的需要、财政支持程度、人力资源和技术保证、数据存储形式等〔4〕。
笔者在研究国外图书馆立项论证决策树的基础上,结合我国图书馆的实际情况绘制出文献资源数字化立项论证决策树,以期立项工作能按照规范化、制度化的程序进行(见下图)。
2 立项论证内容
本文依照上述决策树所示,着重讨论立项的必要性和可行性两方面所涉及的论证内容。
2.1 必要性论证
Tamara Swora在Selection Library and Archive
Collections for Digital Reformatting 中认为在论证任何类型资源数字化必要性时,需将重点放在(1)是否能增加对该主题馆藏资源的检索点;(2)资源是否具有独特性;(3)图书档案界是否一致认为需要对该主题的馆藏进行数字化等。笔者据此将必要性论证内容概况为:资源数字化目标;用户需求及效益;文献资源价值。
2.1.1 资源数字化目标
如果资源数字化目标属于下列情况之一,则在此项内容论证上可视为具备必要性。
[1]保存文献内容。①恢复破损、濒临绝迹的原始文献内容。已脆化的纸质文献如果不及时采取数字化的方式保存内容,很可能将永远失去其宝贵的学术、历史价值,因此,出于保护原件内容的文化价值,需借助数字化方式使原来无法利用的脆化原件能为用户所存取;②降低珍贵文献丢失与破损风险。对于珍贵图书文献来说,利用数字化拷贝提供利用,可减少或避免原件丢失与破损的可能,并扩大其利用的范围〔5〕。
[2]补充、丰富资源体系。当本馆或其他机构已建立某一主题数据库,但形式较为单一,或为文字,或为图像,为使该类主题资源更为丰富,可对存储于其他载体形式的同一主题资源进行数字化。例如,图书馆可以数字化以紫禁城为主题的文献作为对IBM2008年底斥巨资打造的再现故宫建筑、文物及人物三维虚拟紫禁城的内容补充〔6〕。
[3]加强整合与共享、增加检索点。对于大多数图书馆来说,完全收藏某一主题的文献相当困难,文献一般都分藏在不同图书馆,由于处于不同地理位置,很难以传统方法对其进行系统整合,只有借助数字化的途径方可解决此问题,经数字化后不仅能对该主题资源进行整合,而且也能通过增加检索途径,最大化地实现资源共享。
[4]节约成本。由于资金短缺是图书馆文献数字化的重要制约因素,特别是以传承文化为己任的公共图书馆,资金短缺尤为突出。以民族文献库为例,由于我国少数民族相互交错居住,在经济、政治、文化生活方面不仅相互影响,而且都和汉族有着密切的联系。这一点反映在民族文献上,其分布的区域性更为明显。单凭某一个图书馆或收藏机构的人力、财力无法实现对民族文献资源的全面收藏,因此,为了打破民族文献数字化建设的“小而全”封闭、分散状态,需要联合国内其他各级民族文献收藏部门,根据需要与可能,合理分工,各自承担数字化分工责任与成本,相互协作,形成地区乃至全国民族文献资源共建共享系统〔7〕。
2.1.2 用户需求及效益
[1]用户需求。文献数字化的主要动因之一是为了用户能更好、更便捷地获取所需的信息资源,因此,用户信息使用模式、文献利用率与用户规模成为是否数字化的重要影响因素。
①用户信息使用模式。“谁有可能使用数字化后的资源?”是必要性论证中需要着重调研的问题。用户对信息资源使用的目的不尽相同,由此产生的使用模式也会不同。对于那些关注时事,偏好了解当前动态的个体而言,他们倾向于锁定最近、最新的信息,潜意识中排斥或是忽略历史或档案性信息,与之相反的是,关注学科历史发展脉络的学者,就会更多地使用历史文献信息资源,从这些历史资源中发现价值〔8〕。因此,只有充分了解用户对特定资源的使用模式,才会预测文献数字化前后用户量及使用模式的变化。②文献利用率、用户规模大小。虽然不能将利用率的高低作为用户对信息需求强弱的最终判断标准,但一般都以其作为参考依据。如果某类文献的利用率过低,同时用户数量不高,在排除保存高学术价值文献内容的情况外,对此类文献进行数字化,其意义很小。
(2]效益。效益主要体现在社会效益和经济效益两方面。例如论证地方文献数字化的必要性时,需从两个方面考虑:在社会效益上,是否具备资治、存史、教化、兴利等功能,对我国社会主义精神、物质文明建设是否具有重要意义;在经济效益上,是否有利于促进本地经济建设,如发展旅游、招商引资等,是否能扩大用户的信息需求,增加由此产生的商业效益等。
2.1.3 文献资源价值
(1]独特价值。各图书馆在学术文献收藏上的侧重点一般不尽相同,或多或少都有自己的精品馆藏,这类精品馆藏所收藏的文献信息资源具有独特性、全面性、系统性、新颖性等特点〔9〕。这些相对于他馆的特色馆藏正是用户,特别是对专业信息需求更为迫切的教研人员期望能通过网络获取的、在内容上更为丰富的共享资源〔10〕。在论证文献资源独特价值的同时,笔者认为还需考虑此类文献所呈现出的固有信息生命周期(亦称为信息老化),因为信息资源随着时间的推移,其中所包含的信息内容将变得陈旧过时,能够提供的情报、决策支持或满足用户认知等价值会不断减少,甚至完全丧失〔11〕。因此,对生命周期很短的文献来说,即使其独特价值在某个时间段非常高,对其进行数字化的意义同样不大。
(2]历史价值。对于具有较高学术价值的善本或孤本来说,由于年代久远的缘故,容易处于风化、蛀虫等风险中,若仍提供给用户翻阅,会加剧其老化与破损,为了保护好这类文献,就需借助数字化的手段。如首都图书馆的明清北京城垣资源库、清华大学图书馆的科技典籍全文库、中国农业大学图书馆的农书古籍全文数据库、南京图书馆的中国传统体育图片数据库、苏州大学图书馆的中国汉代画像石砖数据库等〔12〕。
(3]教育与研究价值。此点对高校图书馆尤为重要,这也是高校图书馆一般以学科作为确定文献数字化主题的重要依据。
上述内容论证完后,不能认为必要性论证过程已完结,还需调研其他机构是否已经或正在进行类似主题的数字化建设,以防重复建设。例如耶鲁大学Open Book Project决定不以拍摄的方式保存其馆藏的某类文献内容,因为已有其他学术机构以拍摄形式作为保存此类文献内容的手段。若其他机构也正处于规划阶段时,可积极主动地与对方联系,采取共同协作方式参与文献数字化建设,从而减少数字化成本与风险。
2.2 可行性论证
论证完必要性后,还需论证可行性。可行性论证内容主要包括:文献原件状态、技术支持、元数据、版权、图书馆所处的外部环境和资金等。
2.2.1 文献原件状态
在可行性论证中,人们往往忽视了文献原件状态是否能承受数字化对文献原件造成的负面影响。年代久远的文献纸张一般或多或少地存在脆化现象,数字化可能被视作一种保护脆弱文献原件的方式,减少用户因翻阅引起的磨损,但是有时数字化本身对资源的破坏要比翻阅更厉害,若某些资源虽脆化,但仍处于较稳定状态,让其承受数字化的破坏是否值得需要慎重考虑。如果原件正遭受破损或者处于不稳定状态即使数字化会加速它消失的速度,也要及时、果断地采取数字化方式,毕竟相对于文献的“知识价值”来说,数字化是值得的。
2.2.2 技术支持
技术支持主要包括硬件系统和软件系统两方面的支持。
(1)硬件系统。包括数字图像生成设备(数码相机、扫描仪以及用于胶卷、模拟视频和音频的数字化转换设备等)和连接这些设备的数字化平台(计算机、操作系统、网络等)。对此内容主要考虑:现有的硬件系统是否能满足数字化的要求?图像生成设备的分辨率是否能满足抓取信息细节的要求?是否有足够的存储空间保存数字化后的图像文件。
(2)软件系统。由硬件系统生成的数字化文件在使用之前常常需要加工处理,比如,颜色需要修整,图像的边沿需要剪切等。另外,生成的主文件的体积常常很大,需要压缩以便存储和网络发布传播。这些工作都需要相应的软件来完成〔13〕。
2.2.3 元数据
选择相应的元数据标准、描述资源属性的元素与修饰词以及制订描述数字资源的相关著录细则,是数字化建设的关键〔14〕。对元数据方案选择合适与否直接影响数字化资源内容描述的全面性、精确性以及检索结果的质量〔15〕。因此需着重考虑两个问题:
(1)是否已存有数字资源著录细则?如果有,是否能充分满足资源数字化的著录要求,是否需要增加元数据以便用户检索和理解资源所包含的信息内容;
(2)原件自身提供的内容属性是否完整?如果所选原件重要属性元数据寥寥无几,如无作者、出版日期等,数字化是否值得?面对这种情况是否值得重金聘请专家对这些资源给出合适的标识?对于没有基本元数据内容的文献,即使对其数字化,也无法增加检索途径,扩大传播范围,提高利用率,也就无法实现数字化的既定目标。
2.2.4 版权
版权是资源数字化不得不面对的问题,也是对项目成本具有较大影响的因素之一。根据我国《著作权法》有关规定,数字化产生的数字作品,其版权属于原作者,不属于实施数字化行为的行为人所有。对于受著作权法保护的作品,首先,未经过作者允许,图书馆不具备“复制许可权”;其次,即使数字化行为已经发生,这些数字作品的版权也属于原作者,图书馆不具备所有权,不能随意使用或传播,否则就侵犯了作者著作权〔16〕。因此,版权明确与否是制约数字化的重要要素。如果资源数字化的目标超出了版权法规定的合理使用范围,而拟数字化的资源规模大,所及著者众、时间跨度长,要实现版权明确化是非常困难的,需时间、人力和资金作为后盾,若无足够的实力,版权将成为制约数字化的关键要素。虽然相关学者给出了一些适当规避版权制约的建议,但笔者认为,在现实条件下很难为我们所利用。
2.2.5 外部环境
馆藏不是孤立存在的,它与外界存在着千丝万缕的联系,外部环境的改变也会影响数字化的决策。例如,馆藏数字化是否符合图书馆所处机构的数字化建设发展目标?是否符合馆藏发展政策?是否能提升本机构的学术威望?领导是否比较关注与支持?是否已存在与该数字化主题相类似的机构知识库?是否在其他地方有类似的或相同的数字馆藏?
2.2.6 资金
资源数字化需要大量的资金作为支撑,不仅在数字化过程中需要资金,而且后续的维护资金也相__当庞大,因此,资金也成为数字化可行性需要考量的问题。资金来源有两类:一是自我筹建;二是靠外部赞助。对于后者,资源数字化的内容一般要优先考虑赞助方的想法或者满足赞助方的要求,这是否与图书馆的数字化目标相一致?赞助方是否能持续地提供所需资金?这些问题均要进行详细的论证。
以上是笔者认为论证数字化必要性与可行性需要重点调研的问题,当然,还有很多要素需要考虑,如:是否具备数字化专业人员;数字捕获的格式、存储、保存、元数据和检索是否能符合机构、国内、国际标准;是否有足够的时间完成该项目等。
3.结论
对任何形式文献进行数字化之前,都需要进行必要性与可行性论证,并且依照论证内容制定出一定的程序与标准。只有制定出一些明确界定好的用以指导文献数字化过程的内容标准,才能界定是否切实需要进行某项文献的数字化工程,这不仅能规范实际操作过程,而且也避免了不必要的资源浪费。