歷史報紙數(shù)字化解決方案項目背景
Background of Historical Newspaper digital solution project
歷史報紙是報社較為重要的一部分內(nèi)容,不僅記載著一些信息和新聞,還是一個時代下的產(chǎn)物。通過歷史報紙,我們不僅可以了解國家或地區(qū)的發(fā)展歷史,也可以為未來的發(fā)展提供決策參考。但是報紙并不是一種好的長期保管的檔案介質(zhì),為了讓歷史資料數(shù)據(jù)產(chǎn)生更多的價值,進行報紙數(shù)字化是必然趨勢。
藍太平洋歷史報紙數(shù)字化解決方案
藍太平洋歷史報紙數(shù)字化平臺可以為報社提供歷史報紙數(shù)據(jù)加工和二次標引,利用掃描設備與計算機視覺技術將紙介質(zhì)的報紙掃描成數(shù)據(jù)字圖像,再經(jīng)過一系列的處理流程經(jīng)人工審核后,形成方便應用與存儲的電子資料,同時可借助于數(shù)據(jù)報發(fā)布系統(tǒng)進行發(fā)布,拓展歷史信息分享渠道。
歷史報紙數(shù)字化的流程如下:
NO.1 清點報刊。按照日期、版面清點數(shù)量,確認其完整性、可識別性、可掃描性,同一版中選用其中保存較好紙質(zhì)文件。
NO.2 掃描和修圖。利用大幅面掃描儀掃描紙質(zhì)報刊,對掃描得到圖片進行修正,去除污漬、裂紋等,同時需要檢查
NO.3 OCR文字識別與校對。使用OCR技術,對報紙內(nèi)容文字內(nèi)容進行識別,可以多次校對以保證最終的質(zhì)量。校對包括人工校對和智能化自動校對。
NO.4 版面分析和劃分。將修正后的版面掃描圖片按照主題文章進行區(qū)域劃分和標識。
NO.5 制作版式文件。根據(jù)前面得到的結(jié)果將信息制作可檢索的數(shù)字版式文件。版式文件是一種具有版權保護、加密、防止非法復制、防止屏幕拷貝、能夠全面展示版面多媒體內(nèi)容和樣式、并且能夠精確輸出到打印設備的文件格式。
NO.6文章標引。將數(shù)字化文字內(nèi)容進行標引,主要包括題名信息、作者信息、來源信息、關鍵詞信息、摘要信息、引文信息、外部特征信息等。
NO.7數(shù)字數(shù)據(jù)驗收。對上述步驟得到的文字、圖片、版式文件等數(shù)字數(shù)據(jù)進行再檢驗,以確保完整性和正確性。
NO.8數(shù)據(jù)入庫。將文字入全文數(shù)據(jù)庫,圖片入圖片數(shù)據(jù)庫,版式文件入版面數(shù)據(jù)庫,三種數(shù)據(jù)庫是相關聯(lián)的,可以聯(lián)合檢索。
NO.9建立雙平臺檢索系統(tǒng)。一般采用B/S架構(gòu),用戶通過瀏覽器即可檢索上述三種數(shù)據(jù)庫。
5*8小時技術支持電話:010-62978955
北京藍太平洋科技股份有限公司 ? 2000-2019版權所有 京ICP備05006839 京公網(wǎng)安備11010802016364號