- 2019年7月10日-12日,,上海攬境展覽主辦的2019年藍鯨國際標(biāo)簽展,、包裝展...[詳情]
2019年藍鯨標(biāo)簽展_藍鯨軟包裝展_藍鯨
- 今日排行
- 本周排行
- 本月排行
- 膠印油墨
- 膠印材料
- 絲印材料
電子書亟待高質(zhì)量轉(zhuǎn)檔
2012-08-17 09:41 來源:中國新聞出版報 責(zé)編:陳培
- 摘要:
- 電子書是校對者的噩夢,每當(dāng)需要將PDF文件轉(zhuǎn)化為epub格式時,,那些原本完美顯示的頁面就會出現(xiàn)一系列令人困惑的排版和格式錯誤,。對于出版商和內(nèi)容供應(yīng)商來說,,在電子書如此暢銷的今天,能夠使PDF文件準(zhǔn)確無誤地轉(zhuǎn)化為epub格式,從而存入電子書閱讀器已經(jīng)成為亟須關(guān)注,、亟待解決的問題,。
【CPP114】訊:電子書是校對者的噩夢,,每當(dāng)需要將PDF文件轉(zhuǎn)化為epub格式時,那些原本完美顯示的頁面就會出現(xiàn)一系列令人困惑的排版和格式錯誤,。對于出版商和內(nèi)容供應(yīng)商來說,,在電子書如此暢銷的今天,能夠使PDF文件準(zhǔn)確無誤地轉(zhuǎn)化為epub格式,,從而存入電子書閱讀器已經(jīng)成為亟須關(guān)注,、亟待解決的問題。
“有人認(rèn)為轉(zhuǎn)換PDF格式就像從word文檔里復(fù)制文本一樣簡單:只需要選取那些已編好格式的文本并保存就能制作一本電子書,。”印度金奈紐貞知識機構(gòu)的首席執(zhí)行官大衛(wèi)·拉杰說,。然而,遺憾的是,,“PDF文件并不是按照單詞,、空格、段落和圖像的邏輯流程來編寫的,,也就是說,,沒有內(nèi)在信息可以顯示PDF文本的結(jié)構(gòu)與順序。”
最嚴(yán)重且最常出現(xiàn)在電子書中的錯誤是單詞間,、標(biāo)點符號丟失或多余的空格,。因為PDF文件并沒有把每一個單詞視作被空格分開的獨立單元,轉(zhuǎn)換程序通常需要猜測空格從哪里產(chǎn)生,。如果猜測錯誤,,就會出現(xiàn)一個單詞被分為兩個部分或者兩個單詞連在一起的情況。
另一個問題存在于連字符中,。只要轉(zhuǎn)換軟件需要判定連字符是非強制性的(在文本行末尾,,由于該單詞過長,輸入連字符使頁面保持整齊美觀)或強制性的(比如像“e-books”這樣必須使用連字符的單詞),,那么就可能出現(xiàn)判定錯誤的情況,。
同樣的問題還存在于判定文本格式上:粗體、斜體,、下劃線,、下標(biāo)、上標(biāo),;字體的選擇上:有襯線字體,、無襯線字體,、傳統(tǒng)字體、現(xiàn)代字體等,。在制作PDF文件中字間距,、行間距的設(shè)置,反白字的使用都會影響轉(zhuǎn)換結(jié)果的準(zhǔn)確性,。
如果作者沒有使用統(tǒng)一編碼標(biāo)準(zhǔn)的字符,,那么這些特殊字符比如非拉丁語字母就成了轉(zhuǎn)換軟件面臨的又一個困難。對于這些特殊符號而言,,建立字符轉(zhuǎn)換庫是有用的,但是把所有可能出現(xiàn)的字符集結(jié)成庫并不現(xiàn)實,,所以大多數(shù)轉(zhuǎn)換軟件在遇到特殊字符時會以亂碼的形式呈現(xiàn),。
此外PDF文件還不能識別多列文本。轉(zhuǎn)換軟件會讀取整個頁面而不是按順序從上到下依次讀取每一列的內(nèi)容,,因此,,識別與分列就會導(dǎo)致不同的列線混亂,從而產(chǎn)生完全錯誤的顯示,。
與此相似的是,,PDF文件沒有強制性分隔段落的概念,這就增加了正文內(nèi)容混亂或幾個段落連在一起的可能性,。另一種情況是,,轉(zhuǎn)換后段落中的每一行都成為獨立的一段,或者是轉(zhuǎn)換程序會將頁面中的頁眉,、頁腳作為正文中的內(nèi)容進行轉(zhuǎn)換,。
轉(zhuǎn)換程序最大的挑戰(zhàn)在于如何破解表格、數(shù)學(xué)方程式以及圖表,。將這些元素識別為獨立的單元并與正文分開成為許多轉(zhuǎn)換軟件不能完成的任務(wù),。
在紐貞知識機構(gòu),有一種使用自然語言處理和文本識別工具的程序,,這種程序用來分析PDF文件文本結(jié)構(gòu),,使用這種程序可以改正PDF文件轉(zhuǎn)換為epub格式過程中通常出現(xiàn)的錯誤。如今這種產(chǎn)品已經(jīng)出現(xiàn)——在紐約舉辦的2012TOC數(shù)字出版大會上,,可以將PDF文件高質(zhì)量轉(zhuǎn)換為epub2或3的產(chǎn)品“絲綢”(意為像絲綢一樣流暢光滑)閃亮登場,。
據(jù)介紹,使用“絲綢”的轉(zhuǎn)換規(guī)則系統(tǒng)可以得到高質(zhì)量的結(jié)果,,同時最大限度保持PDF文件原文的風(fēng)貌,。“絲綢”會運行拼寫檢查工具找出連在一起或被分解的單詞,并使用內(nèi)在連續(xù)性檢查工具區(qū)分字符,。不到一分鐘的時間,,“絲綢”就可以對一本標(biāo)準(zhǔn)的300頁圖書完成以上所有工作。接下來,“絲綢”會引導(dǎo)用戶查看它標(biāo)記的每一處可能出現(xiàn)的錯誤,,并將原始的PDF文件與轉(zhuǎn)化后的電子書進行并排式對比,。拉杰同時補充說:“‘絲綢’直觀的界面意味著用戶不需要精通HTML編輯也可以熟練地控制與使用這些功能。腳本處理選項可以快速有效地將PDF文件中出現(xiàn)的自定義或其他復(fù)雜的變化轉(zhuǎn)換為epub/HTML文件,。”
目前,,“絲綢”正在進行內(nèi)部測試,拉杰證實這種軟件運營服務(wù)模式很快會與廣大客戶見面,。在更為復(fù)雜的PDF文件與電子書版面設(shè)計問世之前,,我們無疑需要更先進的解決方法,將零錯誤的電子書和用戶對電子書質(zhì)量的高滿意度作為奮斗目標(biāo),,將驅(qū)使轉(zhuǎn)換工具研發(fā)朝著更快,、更可靠、更自動化的方向發(fā)展,。
“有人認(rèn)為轉(zhuǎn)換PDF格式就像從word文檔里復(fù)制文本一樣簡單:只需要選取那些已編好格式的文本并保存就能制作一本電子書,。”印度金奈紐貞知識機構(gòu)的首席執(zhí)行官大衛(wèi)·拉杰說,。然而,遺憾的是,,“PDF文件并不是按照單詞,、空格、段落和圖像的邏輯流程來編寫的,,也就是說,,沒有內(nèi)在信息可以顯示PDF文本的結(jié)構(gòu)與順序。”
最嚴(yán)重且最常出現(xiàn)在電子書中的錯誤是單詞間,、標(biāo)點符號丟失或多余的空格,。因為PDF文件并沒有把每一個單詞視作被空格分開的獨立單元,轉(zhuǎn)換程序通常需要猜測空格從哪里產(chǎn)生,。如果猜測錯誤,,就會出現(xiàn)一個單詞被分為兩個部分或者兩個單詞連在一起的情況。
另一個問題存在于連字符中,。只要轉(zhuǎn)換軟件需要判定連字符是非強制性的(在文本行末尾,,由于該單詞過長,輸入連字符使頁面保持整齊美觀)或強制性的(比如像“e-books”這樣必須使用連字符的單詞),,那么就可能出現(xiàn)判定錯誤的情況,。
同樣的問題還存在于判定文本格式上:粗體、斜體,、下劃線,、下標(biāo)、上標(biāo),;字體的選擇上:有襯線字體,、無襯線字體,、傳統(tǒng)字體、現(xiàn)代字體等,。在制作PDF文件中字間距,、行間距的設(shè)置,反白字的使用都會影響轉(zhuǎn)換結(jié)果的準(zhǔn)確性,。
如果作者沒有使用統(tǒng)一編碼標(biāo)準(zhǔn)的字符,,那么這些特殊字符比如非拉丁語字母就成了轉(zhuǎn)換軟件面臨的又一個困難。對于這些特殊符號而言,,建立字符轉(zhuǎn)換庫是有用的,但是把所有可能出現(xiàn)的字符集結(jié)成庫并不現(xiàn)實,,所以大多數(shù)轉(zhuǎn)換軟件在遇到特殊字符時會以亂碼的形式呈現(xiàn),。
此外PDF文件還不能識別多列文本。轉(zhuǎn)換軟件會讀取整個頁面而不是按順序從上到下依次讀取每一列的內(nèi)容,,因此,,識別與分列就會導(dǎo)致不同的列線混亂,從而產(chǎn)生完全錯誤的顯示,。
與此相似的是,,PDF文件沒有強制性分隔段落的概念,這就增加了正文內(nèi)容混亂或幾個段落連在一起的可能性,。另一種情況是,,轉(zhuǎn)換后段落中的每一行都成為獨立的一段,或者是轉(zhuǎn)換程序會將頁面中的頁眉,、頁腳作為正文中的內(nèi)容進行轉(zhuǎn)換,。
轉(zhuǎn)換程序最大的挑戰(zhàn)在于如何破解表格、數(shù)學(xué)方程式以及圖表,。將這些元素識別為獨立的單元并與正文分開成為許多轉(zhuǎn)換軟件不能完成的任務(wù),。
在紐貞知識機構(gòu),有一種使用自然語言處理和文本識別工具的程序,,這種程序用來分析PDF文件文本結(jié)構(gòu),,使用這種程序可以改正PDF文件轉(zhuǎn)換為epub格式過程中通常出現(xiàn)的錯誤。如今這種產(chǎn)品已經(jīng)出現(xiàn)——在紐約舉辦的2012TOC數(shù)字出版大會上,,可以將PDF文件高質(zhì)量轉(zhuǎn)換為epub2或3的產(chǎn)品“絲綢”(意為像絲綢一樣流暢光滑)閃亮登場,。
據(jù)介紹,使用“絲綢”的轉(zhuǎn)換規(guī)則系統(tǒng)可以得到高質(zhì)量的結(jié)果,,同時最大限度保持PDF文件原文的風(fēng)貌,。“絲綢”會運行拼寫檢查工具找出連在一起或被分解的單詞,并使用內(nèi)在連續(xù)性檢查工具區(qū)分字符,。不到一分鐘的時間,,“絲綢”就可以對一本標(biāo)準(zhǔn)的300頁圖書完成以上所有工作。接下來,“絲綢”會引導(dǎo)用戶查看它標(biāo)記的每一處可能出現(xiàn)的錯誤,,并將原始的PDF文件與轉(zhuǎn)化后的電子書進行并排式對比,。拉杰同時補充說:“‘絲綢’直觀的界面意味著用戶不需要精通HTML編輯也可以熟練地控制與使用這些功能。腳本處理選項可以快速有效地將PDF文件中出現(xiàn)的自定義或其他復(fù)雜的變化轉(zhuǎn)換為epub/HTML文件,。”
目前,,“絲綢”正在進行內(nèi)部測試,拉杰證實這種軟件運營服務(wù)模式很快會與廣大客戶見面,。在更為復(fù)雜的PDF文件與電子書版面設(shè)計問世之前,,我們無疑需要更先進的解決方法,將零錯誤的電子書和用戶對電子書質(zhì)量的高滿意度作為奮斗目標(biāo),,將驅(qū)使轉(zhuǎn)換工具研發(fā)朝著更快,、更可靠、更自動化的方向發(fā)展,。
- 相關(guān)新聞:
- ·索尼推新型電子書閱讀器:整合社交網(wǎng)絡(luò) 2012.08.17
- ·[圖]哈佛醫(yī)學(xué)院研究小組在DNA模型中成功編碼電子書 2012.08.17
- ·市場新形勢 電子書曲線走高 2012.08.16
- ·電子書城應(yīng)用字節(jié)社在App Store被下架 2012.08.16
- 關(guān)于我們|聯(lián)系方式|誠聘英才|幫助中心|意見反饋|版權(quán)聲明|媒體秀|渠道代理
- 滬ICP備18018458號-3法律支持:上海市富蘭德林律師事務(wù)所
- Copyright © 2019上海印搜文化傳媒股份有限公司 電話:18816622098