蒙古文、藏文、維吾爾文等六種少數(shù)民族文字的紙出版物要轉(zhuǎn)換成電子出版物,今后不再靠人工錄入,只要經(jīng)“統(tǒng)一平臺少數(shù)民族文字識別系統(tǒng)”處理,印刷文檔的掃描圖像就會自動生成可編輯檢索的電子文檔。這是記者今天在清華大學(xué)舉行的“多體蒙古文(包括混排漢英)印刷文檔識別暨統(tǒng)一平臺少數(shù)民族文字識別系統(tǒng)”技術(shù)鑒定會上獲悉的。
據(jù)項(xiàng)目研制主持人,清華大學(xué)丁曉青教授介紹,該系統(tǒng)能識別多種印刷字體的蒙古文字符和文檔,并能識別蒙漢英混排的文檔,是集版面分析、文本行字切分、識別、縱向文檔圖文對照編改等技術(shù)于一體的蒙古文文檔識別實(shí)用系統(tǒng),解決了多字體蒙古文漢英混排文本切分和識別問題。在實(shí)際的多字體蒙漢英文檔測試集上,文本識別率可達(dá)96.89%。
據(jù)介紹,該系統(tǒng)是全球首款在統(tǒng)一平臺上支持我國主要少數(shù)民族文字文檔的識別系統(tǒng)。系統(tǒng)在漢字和英文文檔識別的基礎(chǔ)上將四種類型六種文字的少數(shù)民族文字,即蒙古文、藏文、維吾爾文、哈薩克文、朝鮮文和柯爾克孜文(混排漢英)。文檔識別綜合集成在一個(gè)統(tǒng)一的平臺系統(tǒng)中,使我國最主要的少數(shù)民族文字文檔能夠自動識別輸入計(jì)算機(jī)。該系統(tǒng)軟件產(chǎn)品采用國際標(biāo)準(zhǔn)編碼,系統(tǒng)結(jié)構(gòu)具有良好的擴(kuò)展性,還支持阿拉伯文的識別。
由倪光南、何新貴、戴浩院士組成的鑒定委員會認(rèn)為:該項(xiàng)目解決了實(shí)用的多字體印刷蒙古文文檔及其混排漢英的識別問題,實(shí)現(xiàn)了在統(tǒng)一平臺上蒙、藏、維、哈、柯、朝(混排漢英)文檔識別的綜合集成,其主要技術(shù)指標(biāo)達(dá)到了國際領(lǐng)先水平,對促進(jìn)我國少數(shù)民族語言文字的信息化建設(shè)具有重要意義。
共有 網(wǎng)友評論