打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
新一代数字图书馆的技术挑战和展望
(2011-05-23 03:20:29)
转载▼
传统图书馆需要安装数字芯片(图片来源
图书馆是人类文明成果的集散地。长期以来,图书馆传统意义上是指一个进行书籍的搜集、整理、图书资料收藏、以及供读者阅览的场所和机构。随着信息产业的发展,国外开始利用数字技术,同样对书籍进行数据获取、处理、发布,于是就诞生了新一代数字图书馆。数字图书馆作为未来图书馆的发展方向,正成为国内外的发展潮流。
由于研究需要,笔者经常流连于各类图书馆,包括国家图书馆、上海图书馆以及其他图书馆等进行资料查阅,但遗憾的是,图书的数字化水平和效率普遍不高,比如对珍贵古籍和图文书籍,仍大量采用缩微胶卷阅读等的落后手段,十分不便。
笔者也曾在国外学习、生活多年,经常在英国、美国等一流大学的图书馆以及大英图书馆等世界一流图书馆进行阅览和图书借阅,深感其图书数字化的便捷。一些国外的先进的图书馆,甚至已经做到了全智能化,在登记成为注册读者后,在完全不需工作人员进行协助情况下,凭智能卡,可以在任何终端进行搜索、查阅,如需打印或复印,也可从电脑直接输出,并连接自动计费扣款系统结算服务费用。2008年回国后,笔者承担了上海市科委、上海市新闻出版局的数字出版项目研发工作。根据这些年的实践,介绍一下新一代数字图书馆展望。
一般意义上的数字图书馆,就是将图书数字化,其核心需要解决图像的数字获取、创建、存储与管理、访问与查询、发布以及管理等。作为一种新技术,目前尽管国内外都在积极开发,但是也还存在很多瓶颈和障碍。
1.       数据获取
1.1 扫描仪
对于海量的书籍,首先要解决的是如何高效地获取数据。一般小型图书馆通常的做法是采用扫描仪扫描。扫描仪的最大问题是速度。
普通扫描仪,扫描速度通常指扫描仪从预览开始到图像扫描完成。更严格地计算,则应该到把从原稿放置在扫描平台上开始,到最终完成图像处理的整个过程都计算在内。一般情况下,扫描黑白、灰度图像,扫描速度为2~100ms/线;扫描彩色图像,扫描速度为5~200ms/线。同时扫描速度还与扫描分辨率联系在一起,通常来说,分辨率越高,扫描时间越长。通常一张A4纸,采用300dpi分辨率,采用彩色图片模式进行扫描,需要数分钟时间,即使采用高速的扫描仪,也至少需要10多秒/页。加上后处理的速度,依靠扫描仪的速度,一天完成一本300页的图书,几乎是不可能完成的任务。
同时扫描仪的照明光源,一般采用白色冷阴极灯管或LED等,光谱连续性差,造成色彩还原率普遍较差。如此的效率和质量,对于海量的图书馆的数据采集,显然不是很适合。
1.2    缩微胶卷
很多图书馆存有大量珍贵的古籍及手稿原件等。年代久远的资料,轻轻触碰就会破碎。为了便于存放,很多图书馆将书籍、图文等材料以高度缩小了的形式拍摄于其上的胶片上。缩微胶卷能够较长时间保存,保存信息较为完整和准确还原,作为一种图书馆的主要保存手段,在全国图书馆普遍应用。
早在1936年,缩微技术已经引入我国,并于1985年,成立全国图书文献缩微中心。组织并协调全国公共图书馆开展对馆藏古旧文献和其他需要长期保存的抢救工作。截至2008年底,缩微中心共抢救各类珍稀濒危文献典籍和报刊10万种,其中古籍善本3万种,报纸近3000种,期刊1.5万种。
但是,大部分图书馆仅限于自己馆藏文献资料的缩微拍摄,加上检索工具及数据库的不完善,而且必须通过专用阅读器进行阅读,由于是储存数据是胶片,无法进行识别和检索,故此,资料利用率低下。同时,一般胶卷的使用寿命是10年,也就是说10年后的胶卷需要复制,故此成本居高不下,更难以进行市场化运作,其缺点也十分显见。
1.3    数码翻拍设备记录
随着数码技术的飞速发展,国内外很多机构开展了图书馆数码翻拍技术的研究和开发。但是,真正进行数码化,则有非常大的技术难度。
我们知道,由于一般如果要长期保存,图片的还原性十分重要。一般需要达到印刷级的数据保存,也就是存储的图片需要至少达到300dpi以上(以保证日后打印输出有同样的精度),我们按普通书籍大十六开计算,单次拍摄的面积至少需要420×285mm(书籍展开面积)。换算成数码相机的有效像素则是1670万像素(4961×3366像素)。加上拍摄时需要预留校正空间,一般至少需要2000万以上的像素,而对于期刊、杂志等更大幅面的拍摄,最好能达到3000万以上。也就是说,达不到这样的记录像素,即使做了数码化,也不是严格意义上的可以长期保存的产品。随着技术发展,需要进行二次数码化。而能提供这样的大像素的专业相机生产商,只有哈苏和飞思等几家顶级专业级相机生产企业(3000-6000万像素,单台数码相机价格在20万以上)、而佳能、尼康等几家普通商用级厂商,也仅能生产2000万左右像素的数码相机。
其次,即使上述几家最顶级的生产企业生产的相机,也存在色差和镜头的相差,尽管佳能等企业生产出了号称零相差的镜头,但是实际误差也以数毫米到数厘米计。即使采用哈苏和飞思的顶级镜头,也不同程度存在不同程度的色差和形状变形误差,而完全色彩校正和形状校正是一个世界性的难题。
翻拍的光源的还原性,也是一个色彩还原的瓶颈。严格意义上的还原,对光源有严格的要求,一般来说,光源最好是连续光谱,显色性(Ra)越高,色彩还原状况越好。对于高要求的古籍善本等的不可再生的数据,以及图片等要求高还原性的图书,一般显色性(Ra)在95以下,翻拍出来的数据,就存在严重的色差,基本就不能满足要求。
翻拍的速度也是一个非常重要的指标。国际上,包括谷歌在内的各大公司,都在研发高速自动翻拍设备。目前,一些领先的公司,如谷歌已经开发出每小时可翻拍3000页高速扫描设备。目前其技术手段主要采用4台扫描仪从二个翻页面同时记录,然后进行算法校正的技术。其数据经过OCR光学识别转换后,变成可搜索的格式,满足在网络化搜索查阅。大部分企业并非采用大像素、高保真记录校正,对于古籍等珍贵文件资料、以及优质图画显然不十分适用。而国内一些低端的数字翻拍设备,既无校正,更谈不上高像素高还原,只能作为低端的临时产品,以后还会面临二次数码化的重复劳动。
图书出版行业呼呼更高水准的产品出现。上海市科委和上海新闻出版局设立了专项,来投入大量资金来研发这个未来领域,“时空档案”等一批新项目正在日以继夜地进行研发和开拓。作为其中的一个项目,“时空档案”在这方面也做了一些探索和研究,比如已经开发出新一代的数字翻拍设备,并解决了超大像素记录(2000万像素以上)、并首先在世界上第一个解决了色彩自动校正、形状自动校正等一系列关键技术难题,新产品有望将在不久的将来面市。
2.       数据处理
在高效地获取理想的数据后,如何保存和处理也非常重要。
由于要满足日后还原和打印的要求,数据采集需要高保真。这样原数据需要有理想的存取条件。一般,采用2000万像素,未经压缩处理的图片,每张图片就要达到50兆以上。一本200页的图书,一般需要1G的储存空间,一家中型规模的图书馆,藏书量在10万册图书,就需要100TB的容量。大型图书馆,则需要PB级的存储空间,投资不菲。
在完成数据采集后,首先要进行图片的自动裁剪和批处理,变成单页格式。然后进行图片的色彩和形状校正。
对于这些大型数据的存储和浏览,显然采用普通的软件和方法会产生二难的问题:如果需要完整保存图像信息资料,则需要大像素。而大像素图片的调阅会极大地影响浏览速度。而且,仅仅图片格式,不能进行搜索和检索。这样就呼呼一种能同时支持大图片格式、文字识别(OCR)和可搜索和编辑的新型存储格式。
3.       发布
在完成以上任务后,就需要建设大型数据库。建设一种优秀的分类和搜索体系则非常重要。最后,我们需要一种优秀的新型阅读器,来管理和阅读上述资料。
数字图书馆的未来和几点进一步思考:
1.       高清还原、可检索、可编辑、高效数据采集的数字图书,是未来数字图书的发展方向,也在将来的数字图书馆,有广泛的应用。比如对于广告和时尚设计师行业,呼唤有超大型高清图片构成的数据库的图书馆。比如古籍古董,也呼唤尽可能地还原保存其本来面目。
2.       图书馆是公共事业,如果每家图书馆都要建设大型数据库,显然对于资金有限的各公共图书馆来说,是一个投资不菲的沉重的负担。是否可以设想建立区域性,甚至一个国家主导的公共信息平台。这样每家图书馆就不用拥有大量藏书,就可以让读者得到更广泛的资源。
3.       是否可以建立专用可收费平台,让各图书馆有兴趣将专有的珍贵馆藏古旧文献、手稿和其他资料以更高效的手段供全社会共享这些宝贵的知识财富,而不是沉睡于书库中的宝藏。
科学发展基于研究和探索,而这些探索和研究,则基于人类已有的知识财富,数字图书馆则是让人们高效取得这些人类知识财富的捷径。尽管要建设高质量的数字图书馆,还需社会和政府的广泛认同和大量人力物力的投入,同时,一些数字化的瓶颈和技术障碍还需进一步改进和提高,进入数字时代的今天,图书数字化和未来的数字图书馆已经成为历史的发展潮流,随着国家和社会的大量投入,这个新兴产业即将喷涌而起。
注:本文已发表于2011第一期《时尚智库》杂志,刊登时有所改编。
本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
扫描和照相有什么区别呢?
CCD CMOS发展
老底片老照片,这样翻拍再修复
老照片翻拍扫描分析
用相机代替扫描仪 ? 编目精灵III
家里的老底片老照片,这样翻拍再修复
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服