数字化过期文献,使其成为“再生”数字化资源

Visit the CIARD Fair by pathway to learn how to achieve this pathway

目标用户:管理人员、信息专家、技术研发人员

版本: 0.1  2009.10  下载: pdf.gifPDF

信息与通信技术(ICT)最近才被大多数的科研人员和科研机构广泛使用,所以先前的科研成果如果存档,大多是以印刷的纸质形式存档。但是印刷的纸质文档数量有限致使科研成果很难被广泛地传播。但如果存储的条件不好还会受到物理腐蚀。通过数字化纸质文档不仅可使其广泛地传播,同时能够长久的保存这些文献为后代所利用。以下的方法介绍了“回溯-数字化”的益处和如何实施数字化工程。  
 
你需要知道什么?
先前的许多科研成果含有大量的知识,对指导现在的科研仍存价值。将这些科研成果数字化,使其可在线获取有下列益处:
·     使科研成果更方便地随时获取;
·      提高科研人员和科研机构的形象;
·      更容易的获得科研成果,从而提高科研影响的潜力;
·     了解其他机构的科研工作,减少科研中的重复劳动,不浪费宝贵的资源;
·      促进文献传播,因数字化文档可便捷地被复制和传递;
·      通过元数据的使用和信息交换协议促进了信息共享;
·     由于电子文档不会受到物理破坏,可强化研究成果的保存与保持。
 
你需要做什么?
参考资料中,特别是信息管理资源工具(IMARKInformation Management Resource Kit)模块4中,详细描述了下述问题。
1.     根据科研机构要制定统一合理的政策。这有助于数字化工作中充足资源的合理分配,例如人力资源、时间、硬件和软件资源。
2.     主要根据以下两方面的相关内容,鉴别和选择需要数字化的早期的研究成果:  
首先,数字化成果对主要服务对象有怎样的价值?
-   数字化这些文献是否值得?
-   这些文献是独一无二的吗?
-  用户了解了数字化后所要承担的费用,他们还有足够的需求吗?
-  是否不同类型的用户群体都对这些文献有需求?
-  这些文献是要形成一个统一的馆藏吗?
其次,数字化这些文档是否容易?
-   这些文档将以什么形式出现,是否易管理?
-   需要数字化多少页或品种?
-   你的单位有这些文献吗?如果没有,你们有权利数字化并使其可获取吗?
3.     确保知识组织和数字化文档的可用性是任何数字化项目的重要组成部分。使用结构化的元数据(例如都柏林核心集或者AGRIS应用程序)和标准术语(例如NAL CABI thesauri)可使数字化的资源对用户更加易用、有效和有价值。通过使用这些国际标准,用户在检索和浏览时能更加清晰锁定目标结果。同时,使用国际标准可使你的内容更容易与世界各地采用相同标准的其他馆藏相关联。
4.     你打算使用何种扫描/ OCR识别程序?你需要考虑使用下列哪些资源:
·      硬件扫描仪、音频或视频捕获设备;
·      软件扫描系统、光学字符识别(OCR)系统、文字处理、拼写校正、图像抓取等软件。
·      专业人才:
-   整个数字化文档项目的管理者;
-   进行扫描、OCR、校对和版面设计的计算机技术人员;
-   掌握相关领域知识的人员进行元数据的著录;
-   后勤保障人员。
另外,你还需考虑要处理的语种是否会遇到特殊的问题?
5.     切记数字化项目需要周密的计划和资源的管理。要有条不紊的将需要数字化的文献进行登记。  
6.     支撑整个项目的资金来源出处?你可决定由外部承包的形式来进行数字化项目,或者交给一个具有所需技术和资源的组织去做,这样更经济适用。有很多的公司和组织提供这种服务。 

7.     Creative Commons许可条件下,考虑在线提供你的数字化成果 (http://creativecommons.org/about/licenses) 在促进实现知识产权获取和共享目标的前提下,Creative Commons允许版权拥有者放弃某些权利,但保留其他权利。

实例

医学期刊回溯文档项目(Medical Journals Backfiles (http://library.wellcome.ac.uk/doc_WTD037630.htm) 是通过美国国家医学图书馆公共医学中心(National Library of Medicine's PubMed Central)网站提供的免费的数字化期刊。

谷歌图书搜索(http://books.google.com/intl/en/googlebooks/about.html)允许组织或个人提供图书或者相关资料,数字化后存储在谷歌的搜索库中以提高这些资料的可获得性。

国际水稻研究所(IRRIInternational Rice Research Institute)成功实现了谷歌图书搜索图书标题的客户化呈现,当前和历史的文献都可登陆网站进行PDF的下载。推出这项服务以来可免费的下载书目,增强了IRRI图书的利用率。详情可见于Rice Today 中刊载的IRRI电子图书发展的文章(http://beta.irri.org/news/images/stories/ricetoday/8-2/SCIENCE_Digital_age.pdf).

参考资料

下列是关于数字化的详细建议和信息:

·     信息管理资源工具(Information Management Resource Kit IMARK).参看Digitization and Digital Libraries 模块4(http://www.imarkgroup.org)

·      AgNIC Pre-conference 2009 “If It’s Digital and In Google – Then They Will Come” (http://repository.tamu.edu/handle/1969.1/86399) 详细描述了数字化。

·      将理论运用到实际中去:数字成像指南. Moving theory into practice: digital imaging tutorial.  (http://www.library.cornell.edu/preservation/tutorial/contents.html)

·     数字化研究馆藏的选择.Selecting Research Collections for Digitization》,Dan Hazen, Jeffrey Horrell, Jan Merrill-Oldham (1998) (http://www.clir.org/pubs/reports/hazen/pub74.html)