檢索: 帳戶 密碼
文匯網首頁 | 檢索 | 加入最愛 | 本報PDF版 | | 簡體 
2011年9月21日 星期三
 您的位置: 文匯首頁 >> 讀書人 >> 正文
【打印】 【投稿】 【推薦】 【關閉】

《四庫全書》 電子字典用數碼打開「寶藏」


http://paper.wenweipo.com   [2011-09-21]     我要評論
放大圖片

 ■余志明希望讓更多的人看懂《四庫全書》。

 約12年前,《四庫全書》電子版面世,其開發公司香港迪志文化出版,利用數碼化技術,重新建立了一個超大型的中文字庫,包括異體字在內,《四庫電子》提供的數碼化中文字符多達8萬2千多個,而在這以前,最大的中文字庫頂多才1萬3千多字。

 自2009年開始,余志明率領的迪志文化又在迎接下一個考驗:以迪志的《四庫全書電子版》的龐大字庫為基礎,編纂《四庫電子字典》。國學大師饒宗頤出任主編,香港大學饒宗頤學術館部組織專家編纂團隊,目標為4年,現已完成了一半。

 沒有政府資助,沒有龐大的人力資源,余志明捐出部分早年投資所得,只是為了一個樸素而宏偉的心願:承接中國的傳統文化。

 《四庫全書》電子首版投了5千萬研發,《四庫電子字典》,他與港大各出了300萬。 ■文、攝:香港文匯報記者 梁小島 部分圖片由迪志文化出版有限公司提供

 今年64歲的余志明,出席上周舉辦的《四庫電子字典》編纂啟動禮時,一身中山裝,一副黑框眼鏡,見到到場來賓,謙和又真誠的表示謝意。4年,6百萬港幣,要出來一部集音、義、形,並涵蓋超過8萬字符的電子字典,儘管有迪志的《四庫電子》大底,這仍然是一個浩大的工程。余志明深知,在這個過程裡,離不開一眾和他一樣、有文化責任感的學者和專家的支持。

 「過去編《康熙字典》的時候,有多少翰林院的大學士,又花了多少年才編完。現在回頭看,用余先生的現代科技去查對,《康熙字典》依然遺漏了1萬多字。以前要找一個字,一定要翻完《四庫全書》才找得到,現在用新的輸入法,一點擊,它的音、形、意都出來了。」來自台灣成功大學中文系的王三慶教授,是這次電子字典編纂的副主編。他有著非常的豐富的字典編纂經驗,曾參與編纂《中文大辭典》、《經典釋文韻編及索引》、《敦煌俗字譜》等。這次接下《四庫》電子辭典的工作,他的手下只有3位全職助手,其餘都是實習生。「當然資源還不夠,但《四庫》電子版已經省下了不少人力。」

建立海量字庫

 《四庫電子字典》和之前的《四庫全書》電子版一樣,都只是余志明計劃裡的一部分。《四庫》電子版曾讓數碼中文字庫增至海量,而《電子字典》的建立是為了日後的資料庫作準備,「《四庫全書》有3,400餘部典籍,但你不能只把它們看成是一本一本的書,而要看成為整個中華文化的資料庫,裡面甚麼都有,」余志明說,「但每個人去看它,如果沒有特定的主題、人物、時代等,這些資料就連不起來。我的最終想法是,將來擴充、豐富《四庫電子字典》的內容,讓所有對中國傳統文化有興趣的人,都可以看得懂《四庫》裡面的東西。」

 為甚麼選擇《四庫全書》為理想藍本?這與余志明的個人遭遇有關。余志明早年畢業於香港大學電機工程系,後曾於投資銀行、紡織製衣以及高科技行業供職,臨近50歲時,他決定做一些更有意義的事情。

 早在90年代初,他就發現電腦的發展日新月異,各種教學光盤在國外被開發出來,他覺得在中文世界裡,也可嘗試中文教育軟件的研發。不久,余志明投資成立迪威科技有限公司,卻碰上了中文信息處理的問題。他發現很多漢字在電腦上無法顯示。他意識到,缺少了一個龐大的統一的中文字庫。但如何建立?建立的標準是甚麼?

 台灣商務印書館的朋友向他推薦了他們在80年代影印出版的《文淵閣四庫全書》,因為其系統性和文獻豐富性,匯集了中華幾千年的重要典籍,「將《四庫全書》電子化,就意味著能解決大部分中文數碼化的問題」。

 與此同時,中華文化的傳承問題,也逐漸走入余志明的心中。「一次我在報上看了一個故事,講一位80多歲的女教授辛辛苦苦,整理了很多筆記和資料卡片,把一整間房間都佔滿了,她覺得現在的人不會有興趣做考古學式的研究了,擔心中華文化會斷層。」

用科學解讀文學

 但余志明也清楚,開發《四庫全書》,一定是個賠本買賣。97年,他成立迪志文化出版有限公司,先後共投放5千萬港幣,專做《四庫》電子。99年面市,迅速被國內外高等學府及圖書館購買,甚至包括內地政府單位及學術研究機構。他賣8萬港幣一套,盡可能降低使用者的門檻,「常常有很多記者問我,出版社怎樣收支平衡,怎樣賺錢?其實我根本不靠這個賺錢。《四庫電子》剛出來,內地就出現盜版,讓我們損失達千萬港幣,告人都告不完。而台灣正值陳水扁當政,他下令禁止對一切中國傳統文化的推廣。我們一下子就丟掉了兩個最大的中文字市場。」

 「但我早年做了很多事情都賺到錢,能夠支持這個計劃走下去,雖然我也不知道能走多遠。」他還徵求過饒宗頤大師的意見,後者對他的想法非常贊成。

 「饒公說,其實每個人在念小學時就要接觸中國的傳統。」余志明認為,《四庫電子字典》可以讓人看到文字衍變、發展的歷史,「以前我們習慣用質性分析中國文學,但不能用科學的方法說出來,其實國外研究語言學很早就採用了統計學。」

 《四庫》電子版本身也不斷在改進,幾年前,推出電子版3.0,斥資500萬港幣。除了擴大檢索的範圍,從文字到表格及圖像,新增檢索的細節外,新版已捨棄原有以光碟為載體,直接在互聯網或移動硬盤上使用。

 余志明不便透露迪志文化的研發隊伍規模,「我們有一班核心成員,但很多項目都是外包出去或直接購買開發軟件,為了防止盜版,我們對外包項目上也做了一定的選擇。」

 「迪志並不是一間傳統意義上的出版公司,」余志明說,「它有營運資金來做文化推廣,但我又不喜歡用『基金』這個名稱,我不求人,不用貸款,都是靠私人的力量。」

上期《中國期刊業的后香港時代》,受訪者譚海燕小姐的職位應為:中國期刊協會數字期刊分會秘書長。特此致歉。

相關新聞
《四庫全書》 電子字典用數碼打開「寶藏」 (2011-09-21) (圖)
N城書記:上海/北京•無他時代 (2011-09-21) (圖)
要刊書事:L'Express 8/09:(法國) (2011-09-21) (圖)
要刊書事:The Economist 《經濟學人》17/09:(英國) (2011-09-21) (圖)
要刊書事:Newsweek《新聞周刊》19/09:(美國) (2011-09-21) (圖)
要刊書事:The New Yorker《紐約客》19/09:(美國) (2011-09-21) (圖)
伊姆斯椅子的背後傳奇 (2011-09-19) (圖)
書評:說不清的世界,解不了的命運 (2011-09-19) (圖)
書介:《烈酒一滴》 (2011-09-19) (圖)
書介:《城市的憂鬱》 (2011-09-19) (圖)
書介:《香港歌詞八十談》 (2011-09-19) (圖)
書介:《日本.再出煄X在日港人311地震後感》 (2011-09-19) (圖)
書介:《我係跑步基》 (2011-09-19) (圖)
徵稿啟事 (2011-09-19)
中國期刊業的後香港時代 (2011-09-14) (圖)
《2011世界期刊創新報告》案例示範:數碼航機雜誌 (2011-09-14)
「尋找中國期刊創新案例」面向港、澳、台地區徵集: (2011-09-14)
中國期刊業市場遠未飽和 (2011-09-14)
N城記:北京/上海•四合院裡的大嶼山 (2011-09-14) (圖)
劉慈欣:科幻故事 一生講不完 (2011-09-12) (圖)
【打印】 【投稿】 【推薦】 【上一條】 【回頁頂】 【下一條】 【關閉】
讀書人

點擊排行榜

更多 

新聞專題

更多