-
古籍數字化介紹
我國古籍數字化經歷了數據庫版、光盤版、網絡版三個建設階段。數據庫版古籍包括書目數據庫和全文數據庫兩種形式。光盤版古籍一般有圖像版、全文版和圖文版三種類型。網絡版古籍主要是將數字化的古籍資源在網絡上有償或無償發布,供互聯網用戶使用,這是目前古籍數字化的主要目標。
在網絡時代,任何知識信息得到充分利用的前提,是看其能否轉化為數字化信息。古籍文獻有很高的學術價值,我公司采用計算機技術,對古籍文獻進行全文數字化加工處理,制作成古籍文獻書目數據庫和古籍全文數據庫,不僅有效保護古籍,而且能更好地傳播利用古籍,提高古籍文獻的使用率。
-
?;?、流水線式的數字化加工
公司避于手工業作坊式的生產方式,建立了數字化加工工廠。并創立了從資料整理去污→掃描→圖像處理(糾偏、消藍、圖像增強、去雜)→OCR識別(版面分析、識別、橫向校對、縱向校對、導出文件)→建立索引→刻錄光盤(可全文檢索、二次檢索、模糊檢索)等全過程的流水線式加工方式,大大提高了加工效率和效果。規范了加工流程、項目管理方法和制度,合理的分配人員到各個流水線節點,創建了可優化的項目質量保證體系,使得每一次新的加工項目都能夠繼承原有項目的優秀經驗,并使得在這次新的項目中產生的經驗,能夠有效的被下一個項目繼承和發揚。
規?;纳a、流水線式的作業,使得加工工人能夠從事自己最擅長和最熟練的工作,導致了項目質量的不斷提高和單位成本的穩定下降。
-
成熟的軟件產品
豆海本著以廣闊的胸襟,容納各種優秀的人才和產品。由于經濟的全球化帶來的人才和競爭方面的壓力,使得任何一個公司都不可能完全依賴于自己而立足于市場不敗,要想在競爭中獲得生存,就必須和其他人合作。
我們引進TH-OCR錄入工廠,并與清華紫光建立了合作伙伴關系,在數字化領域進行多方面產品與服務合作。
-
流程管理和質量控制:
流程管理貫穿于整個錄入工廠的生產流程中,服務器端控制整個流程,它將數據打包、分發給各個客戶端;客戶端接收數據包,完成流程當中的某個或某幾個工序,完成后將數據打包發回給服務器。質量控制功能是檢驗最終文本錯誤率的有效工具,它通過獨特的方法檢驗橫向校對、縱向校對和綜合校對之后的文本差錯率以確保最終文本的差錯率在一定范圍之內。流程管理和質量控制是大批量數據高效、高質錄入的必不可少的環節。
豆海資料數字化解決方案以OCR錄入工廠為核心產品,并輔助圖像凈化處理系統、圖文校驗工具,在整個的過程中融入豆海多年的資料數字化領域的管理與制作經驗,確保為用戶提供優秀的產品和服務。
-
數字化流程 :
1、古籍領出登記
將珍貴古籍從館里領出進行數字化掃描,做到每一本領出古籍都要嚴格登記,避免遺漏。登記時確認每本古籍的總頁數,與管理人員進行交接
2、古籍整理
將領出古籍進行平整處理,確保古籍無粘連、折邊、部分缺失等情況,確認處理好后開始利用書刊掃描儀進行數字化掃描。 如無頁碼的需進行人工編頁碼防止掃描是順序錯亂以及丟頁。
3、古籍掃描
進行掃描時,根據每本古籍的不同情況做相應的處理。如古籍情況較好,則可以采用玻璃壓稿臺對古籍進行壓平掃描;如古籍紙張較薄,則需用空白A4紙張進行插墊,確保獲得的影像不會有背透而影響觀賞效果;如古籍本身情況不理想,則不必使用玻璃壓稿臺進行壓平,由書刊掃描儀自帶PerfectBook 功能進行掃描處理。
4、圖像修圖處理
掃描后的圖像進行糾偏、去黑邊、分頁、拼圖等處理,更高的還原原圖像。
5、圖像質檢
處理后的圖像統一質檢,質檢視具體情況而言分為一次質檢和二次質檢。主要是檢查圖像的質量,和有無漏頁、重復掃描等情況。 發現問題及時改正補掃等等。
6、識別錄入
利用OCR對圖像進行版面分析,比如文字的橫向縱向、圖片與表格等進行進行區分處理。
將分析好的圖像OCR進行智能識別并進行人工校對(可先進行縱校再橫校),保證質量減少錯誤率。
經過人工的一二三校,將數據按客戶要求的格式輸出并根據不同要求排版處理等。
7、格式轉換
雙層PDF圖文格式: 用掃描方式制成TIFF圖像,然后利用OCR技術將圖像形式全部識別為可檢索的漢字,并將文字和圖像進行對應,制作成圖像在上、文字在下的雙層PDF格式文件。既便于用戶快速準確地查找到所需內容,又能使用戶古籍的原始面貌。雙層PDF特別適合于古籍數字化,異寫、通假、避諱等造成的眾多漢字無法完全識別,用戶通過圖像即可對照。
8、數據存儲
據及壓縮轉換后的數據進行存儲,通過網絡傳輸到磁盤陣列中進行存儲。
9、古籍入庫登記
完畢后,將掃描后的古籍及未完成的古籍進行入庫。與管理人員進行逐一核對,核對無誤后進行登記,登記完成后,古籍方可入庫。