欢迎您访问太原金盘科技有限公司官方网站!

服务电话:
0351-7550993 13593181217
网站首页 > 新闻动态 > 公司新闻

图书的数字化加工

作者:金盘科技 2018-07-05

     随着信息时代的到来,图书馆页都在进行数字化把图书转化成电子版,图书数字化加工流程的主要分为图书的整理,图书的扫描,图像处理及质检,OCR、文字处理,OCR文字质检,成品数据这五个主要的环节。我们来了解一下!

    blob.png


       现在的图书馆数字化和以往的不太一样,甚至说是区别很大因为以往的数字化图书都是要把书拆开一页一页的扫描完成后在把书装订好还回去,这是很麻烦步骤,并且如果是量比较大的话这种方法是不可取的。

 blob.png

       现代的图书馆数字化都不是之前的高速扫描仪一张一张的扫描了,如今采用的都是非接触式不拆书的扫描设备比如book2net、iscan等等甚至有全自动的扫描机器人kabis可以帮助您来扫描完成成册的图书,一本成册的图书那简直是在谈笑风声间完成。

blob.png


一、图书整理

 1、图书类型  图书的主要类型为地方志和地名志 ,图书的出版日期跨度比较大,有7080年代的图书,以90年代以后的图书为主。

 2、图书的拆卷   图书是可以拆卷的,拆卷后不需要还原胶装,只要保证图书完整即可。如图书不能拆卷,将对扫描的加工量产生很大的影响

 二、图书的扫描 

1、图书内容的分类    一本书分为四个部分正文、前言、图片和后记四个部分。

 1)正文     从正文的第一页到正文的最后一页的所有图书页。

 2)前言     正文第一页之前的所有文字页。

 3)图片     书中不算页码的所有图片。

 4)后记     正文最后一页到图书结束的所有文字页。

2、命名规则       

   正文命名为图书名-0001      

   前言命名为图书名-0002       

图片命名为图书名-0003       

后记命名为图书名-0004        

例如:书名为北京市志,一本书按规则将分别命名为:  正文部分为北京市志-0001         前言部分命名为北京市志-0002 图片部分命名为北京市志-0003 后记部分命名为北京市志-0004  

三、扫描     

扫描一本图书时,按着图书的命名规则按要求对图书的四部分进行扫描。 使用PDE软件扫描是的图像

四、加工量

   杰灵信息使用的是正版汉王OCR识别软件和调整扫描仪,每天的加工量在1.6万页至2.2 万页之间。 

 、扫描时注意的问题  扫描时注意阀值,对比度,亮度这三个方面值的调整。这三个值的设置关系到扫描图像的质量和对后期OCR文字处理环节有较大的影响。同时要注意图书页码的顺序,不要缺页,没有重复页码的出现。    

六、图像处理及质检       

1、图像处理       

图像处理环节主要是对扫描的图像进行去黑边、去杂点、校正的处理,保证阅读,同是也是为下一环节OCR文字处理做准备,提高文字识别的正确率。       

2、图像质检       

本环节是对图像处理环节的结果进行质检,进一步保证图像的质量和页码的正确性和对应关系,同时也是进一步提高OCR文字处理环节的文字的识别率。

blob.png

返回列表