Page 1 of 41234

『轉載』江蘇考生駢體文言高考作文

中文與漢字, 精華轉載 17 Comments »251 views

江浙之地真是人才輩出,今年江蘇理科生王雲飛用文言寫了一篇駢體散文《綠色生活》。其中有大量古字,用法得體,能在高考考場上寫出實屬不易。有專家評論稱此人文言造詣堪比古文獻學研究生,建議破格錄取。

看過此文之後,着實令我汗顏。暫且不論文章如何,能用這麼多古字,可見此人訓詁學水平非同一般。但另一方面說來,畢竟還是有賣弄之嫌,因爲就連古人也很少用這麼多古字、典故。無論如何,作爲我的同齡人,我還是倍感欽佩。

下面是全文轉載

呱呱小兒,但飲牛湩(dòng),至於弱冠,不明犍狀。佌佌(cǐ)之豚, 日食其羓(bā)。洎(jì)其成立,未識豜豭(jiān jiā)。每嚙毚(chán)臑(nào),然竟不知其夋兔(qun)之三窟也。方彼之時,窋(zhú)詫之態,非闠闠 (huánhuì)之中所得見也。

今北方久熰(ōu),瀵(fèn)氿(guǐ)甃(zhòu)眢(yuān),坌(bèn)坲坲(fó),燾天幠(hū)日。土地皴崩,罅可容人。南疆霶霈,洚水肆虐,當此之滈,茅舍盡走。欲苫(shàn)不能,啼口立(同泣)啾啾。

凡此異態,非天之咎。

君不見斵(zhuó)楩(pián)焚樟,岵(hù)之為屺(qǐ),睇眄(miàn)之下,萬山盡屼(wù),百尺篔(yún)簹,化為竹著。於彼幼蛇,匌(gé)不盈寸,巴蛇王虺(huǐ),盡化柈(pán)饈。玈(lu)氣烰烰,上格瑤池,貧地徠賈,以豐其貲(zī)。然千丈方圓,萊菔不生,九天之上,星河不見。

嗚呼!漫山設棙,遍地盡罘。此天災也?人禍也!河海黟(yī)然,濁水仍傾,此天災也?人禍也!斵木[算刂]竹,彍(guō)弮(juàn)待獸,以至鹿不得走,翬不得飛,蟻不得宭(qún),髬髵不見。此天災也?人禍也!

翕合沴(lì)氣,終日涽涽。天不復藍,水不復清。未有烏雲,天何暝暝?赤烏既出,焜耀無復。看天下,鳥飛不下,鮮見狉狉,當此之時,何處貣青天?

所幸者,人知之也,人更之也。然,上作網法,下偩幾何未可知也。

今天下多災。北國井冞(shēn),陣主復至,當與孔張俱歾(mò)。南域之霖,大禹洊存,只得扼腕而歎息。人不咎己而咎旱魃,不誚(qiào)己而諑共工。未之可也。闤闠所趨,不可恈恈。當思子孫後代,人己知之。然行之效,則體躆廟堂者思之,媕娿(ān ē)之徒,棄不婟(hù)嫪,國之大蠹,捐而必究。

吾所思者,河泮水墺,楊槐蓁蓁,町疃(tuǎn),柳榆其秝(lì)。苾葌柅柅遊屮(chè)葳蕤,見柳而人不攦,視草而眾不蹸,日駕雙軑(dai)之車,斐斐閭巷之間,目不復睺,鼻不再鼽(qiú),鳥不驚人,鮒遊沴然。

人者,天地孕育。今其反萬物,此獍也。今其不宜瞡瞡,遺禍搙孫,當修長遠之道以藾萬世。

今吾執筆於此,所思者,舍旁早蟠一株,今當唪唪,攲枝水上,當復駕舴艋,擅其落桃,投於苙。坐銀杏樹下,觀兒童嬉於樹下,延於磚祴(gāi),搤(è) 腕而惜水中未置菱藕幾株。燠(yù)熱之時,而可摘菱冣(zuì)菂,爇之為饘(zhān),以奉親房。

标签:, , , , , , ,

Open Chinese Convert 開源簡繁轉換

中文與漢字, 設計開發 15 Comments »326 views

Open Chinese Convert(OpenCC)是一個中文簡繁轉換開源項目,提供簡繁轉換詞庫和可供程序調用的程序庫(libopencc)。現託管於Google Code

關於簡繁轉換

由於種種歷史問題,漢字系統被割裂爲「簡化字」和「繁體字」,然而「簡化字」並不能完全取代原有的繁體字,一方面是由於古籍、書法、文字學的研究需要,另一方面則是港澳臺日韓越及其他海外地區「簡化字」並不通行。隨着信息技術的發展,這方面的需求不斷突出,因此簡繁轉換便成了一個信息技術界和中文研究界需要共同解決的問題。

精確的簡繁轉換一直以來是一個難題,其原因主要是簡體和繁體互有一對多的現象,而具體用字對應規則需要聯繫上下文分析語義纔能確定。而廣義的「簡繁轉換」,還包括了不同地域習慣用字和用詞差異的轉換(如「软件」「軟體」等),甚至詞和詞之間也有「一對多」的關係,因而使轉換更加複雜。目前現有的簡繁轉換軟件,即使是專業的(收費),也不能完全解決這些問題,在開源界能接近其水平的更是寥寥無幾。因此OpenCC的誕生,就是爲了儘可能地解決這個難題。

一些概念

漢字(據不完全統計)有十萬之眾,「簡化字」非但沒有減少漢字數量,反而使漢字數量更加龐大。雖然日常用到的字祇有數千,且有着複雜的關係。要做好簡繁轉換,必須理解這之中的許多關係與微妙的差別

「異體字」

由於漢字造字年代久遠,且非一人一時之所造,通行時間又爲世界之最,流變眾多,許多字並非祇有一種寫法,如「為爲」「朵朶」「畫畵」「污汚汙」等等。這些字祇是寫法不同,而沒有任何表意的區別,因此被稱爲「異體字」。狹義的異體字是沒有任何表意的區別的一組字,而廣義的異體字還包含了表意範圍有交叉或所屬關係的字以及「通假字」。下文中的異體字全部是狹義的異體字

需要注意的是「通假字」祇是同音假借,本字和被假借字可能意義完全不同,因而不是異體字。而「訛字」和「俗字」(絕大多數)則屬於異體字。例如「繫」字在傳抄的時候,左上角被寫成了「車」,然後以訛傳訛,就產生了訛字「繋」。「俗字」或稱「俗體字」是民間通行的一種變體,許多俗字就是筆畫較爲減省的異體字,也有很多來自訛字。

「繁體字」「簡體字」「簡化字」

嚴格地說,「繁體字」和「簡體字」是異體字關係,「繁體字」是相對「簡體字」而創造的概念。「簡體字」這一名稱,始見於1935年民國教育部總結的一批「古已有之」、「歷代通行」的「筆劃較少的」異體字。這批簡體字主要蒐集自民間話本「述而不作」地整理出,沒有類推造字。

「簡化字」,顧名思義則是人工簡化的字,這個概念的產生與近代「漢字改革」思潮有關,最早見於錢玄同的文中。1964年,中國文字改革委員會出版了《簡化字總表》(不是「簡體字總表」),簡化字開始在中國大陸流行開來。1977年,中央又發佈《第二次漢字簡化方案》,1986年被廢除,史稱「二簡字」。慢慢「簡化字」這一概念就被固定下來,專指中國大陸推行的簡化字

可見「簡體字」並不等於「簡化字」,前者強調異體關係,後者強調簡化關係。而現在這兩個概念趨於混淆,乃至用「簡體字」表達「簡化字」的意義更常見,其主要原因是由於另一個詞彙「簡體中文」的出現。比起中文的混淆,英文解釋更加清楚:「簡化字」的英文翻譯是「simplified Chinese characters」(簡化過的漢字),simplified源自動詞simplify簡化。「簡體字」由於概念不常見,沒有公認的正式翻譯,有一種譯 作「simpler variants of Chinese characters」(較簡單的漢字變體)。

由於「簡體字」和「繁體字」本身存在對立關係,繁體字也就慢慢變成專指港澳臺用字了。事實上港澳臺用字也不盡相同,如「裏」「裡」等,於是又有了「港澳繁體」「臺灣正體」等名字。

已有項目的缺陷

OpenCC的的誕生並不是輪子的重複發明,而是爲了實現一個更好的簡繁轉 換計劃,因爲目前已有的各種項目,或多或少地有着各種缺陷。

Wikipedia

毫無疑問最廣爲人知的簡繁轉換項目莫過於Wikipedia提供的簡繁轉換表。Wikipedia有效地利用了分散的人力,整理出了一個數量不小的表格,其優點在於*詳細地區分了簡繁轉換和地域轉換。但是也有許多不足:

  1. 異體字處理混亂,「一簡對多異」被當作「一簡對多繁」處理。如「为」對應「爲為」。
  2. 一簡對多繁有眾多爭議,處理不統一,時分時不分。如「卷烟」「烟卷」分別用了「煙」和「菸」。
  3. 有大量不成詞的「詞」,祇爲正向最大轉換優化,不兼容別的分詞算法。如「们斗了胆」「們斗了膽」。
  4. 專爲Wikipedia設計,依賴編輯的人工干預。
  5. 一般非地域轉換中「着」被併入「著」,不符合香港、海外等地用字習慣。

使Wikipedia做出改變較難,尤其是在這種民主的管理模式下,多數人(臺灣)可能會毫不顧及少數人(香港)。

cconv

cconv是另一個簡繁轉換的項目,較早開發,有一定的用戶。缺陷很明顯:

  1. 簡繁轉換和地域轉換混同一談。
  2. 完全沒有處理異體字。
  3. 功能雜糅了編碼轉換和簡繁轉換,不易剝離。
  4. 簡繁轉換數據被編譯到庫中,無法修改和擴展(除非重新編譯)。
  5. GPL協議發佈,對開發者限制較大。
  6. 目前長期無人維護。

OpenCC 的特點和方法

OpenCC特點

  • 嚴格區分「一簡對多繁」和「一簡對多異」。
  • 完全兼容異體字,可以實現動態替換。
  • 嚴格審校一簡對多繁詞條,原則爲「能分則不合」。
  • 使用歧義分割+最少分詞算法,儘可能從技術上優化轉換效果。
  • 詞庫和程序庫完全分離,可以自由修改、導入、擴展。
  • 以Apache開源協議發佈,使開發者真正可以自由使用。
  • 已經用於ibus-pinyin的繁體模式輸入,由ibus開發組長期協助維護。
  • 支持 C,C++,Python,PHP等多種語言調用,命令行直接調用,以及圖形界面(開發中)。

解釋

OpenCC有獨立的「一簡對多繁」表、「一繁對多簡」表和異體字表,保證沒有混雜着異體字。而且可以方便地自定義地區習慣使用的異體字,兼容臺灣、香港和海外地區不同的習慣。

簡繁轉換詞庫中數萬詞彙經過校對,最大可能地保證轉換準確性,用字原則爲「能分則不合」。舉例如「臺」「檯」「台」,在臺灣習慣中,有合流爲「台」的現象,但其意義界限明顯,故OpenCC從分,(具體見此列表)。根據不同的習慣,也可以設定爲合流。

簡繁轉換功能的核心算法爲歧義分割+最少分詞,簡單解釋爲首先掃描待轉換字符串,分割成若干個有歧義的區間(即每個區間內可以有多種分詞方案),然後對每個區間的字內構造圖論模型,使用最短路徑算法求出最優分割方案,然後對分詞的結果每部分進行轉換。這種算法不僅準確性高於直接正向掃描轉換,而且速度也很快,測試中每秒可以轉換8.4MB文本(UTF8編碼,內容爲小說,速度僅供參考)。

OpenCC把詞庫和程序庫完全分離,程序庫可以讀取兩種格式的詞庫,一種爲Tab分割的平面文本,一種爲OpenCC專門優化過的數據結構,ocd格式。平面文本數據庫格式方便閱讀和修改,ocd格式是OpenCC構造出的Double Array Trie數據結構,使用其可以大大提供轉換速度。OpenCC還提供了詞庫轉換程序,可以自由在兩種格式之間轉換。

OpenCC程序庫提供了C,C++,Python,PHP等語言的接口,便於在任何環境下使用,此外還提供了命令行直接調用的模式,圖形界面也在開發當中。

詞庫來源

OpenCC的繁體到簡體轉換的詞庫是由單字對應人工校對後生成的,單字對應數據來自Unicode數據庫以及人工的覈對和修改。簡體到繁體的詞庫由大量的繁體語料自動轉換到簡體然後校對而成。

參考資料

歡迎試用和加入

如果感興趣,可以先在綫試用一下, 然後安 裝到你的系統

開源非一人之力,有眾人的支持纔能做得更好。歡迎有意者加入開發,歡迎中文專業者和愛好者加入詞庫審校工作。

如有任何問題或建議,請到 http://code.google.com/p/open-chinese-convert/issues/entry 報告。或者可以直接與BYVoid取得聯繫

标签:, , , ,

[轉載]漢字簡化得不償失

中文與漢字, 精華轉載 7 Comments »234 views

聲明:這是一部有版權的書,但由於內容不符合「相關部門」的「相關法規」,無法在中國大陸出版,故作者將其pdf版本散播到網上,以供諸君參閱。

點此下載

漢字簡化得不償失

——彭小明

目錄

序 ……………………………………………………………章詒和 3
1. 實驗繁簡兩體的比薩斜塔……………………………………. 6
2. 簡化字無助於快速認字……………………………………….. 9
3. 簡化字無助於提高書寫效率……………………………….. 24
4. 簡化字的弊端…………………………………………………..40
5. 漢字簡化與共產黨、與反右派運動的關係……………………..64
6. 漢字簡化與掃盲………………………………………………………..83
7. 簡化運動是中華民族的宿命………………………………………113
8. 識繁用簡:恢復官方正體,簡化字降格為書寫體………….123
9. 簡化字與漢字信息處理……………………………………………. 134
10.「漢字難」說法的由來和發展……………………………………145
11.全人類綠色文化意識………………………………………………..158
12.漢字文化圈與漢字復興…………………………………………….169
13.它山之石:德國的拉丁文教育和德文改革……………………187
14.點評與反駁…………………………………………………………….201
15.附錄:
一.艾偉………………………………………………………………..231
二.胡錦濤、溫家寶寫繁體字的意義………………………….234

染透猩猩血 風釀楚天秋

—彭小明《漢字簡化得不償失》序

章詒和

老舍1949年後創作了《龍鬚溝》、《春華秋實》、《青年突擊隊》、《女店員》,在這些作品裏,分明表現出一種主動尋找「新時代」的自覺性。父親(章伯鈞)在看了他的話劇《西望長安》後,再不讀老舍了。十幾年後,老舍仍在繼續「尋找」,不過,他轉換了方向,是向後「尋找」了!向後找什麼?他要找回自己,找回自己熟悉的人物,人情,人性。于是,晚年的他寫出了經典之作,也是收官之作的《茶館》。《茶館》的本質意義,是一個飽經社會滄桑,熟諳人情世故的作家對孩提時代的「文化反芻」。毫不過份地說,《茶館》挽救了老舍,也成就了老舍。筆寫至此,我又不禁聯想到京劇名演員程硯秋。1949年前的程老闆是想唱什麼就唱什麼,連唱數月戲碼不回頭,因為肚子裏裝著一、二百出戲呢。1949年後,他只能演七出戲,因為上邊只許他演七出戲。程硯秋要求上進,入了中共。可在病危時刻,他向黨提出的要求是希望能恢復演出《鎖麟囊》。這是什麼?這也是「文化反芻」—多麼深刻的文化現象啊!如今,我們生活在一個全球化體系裏,似乎更需要從歷史上、理論上、政策上對百年以來的文化問題做出新的反思和歸結。

無須點明說穿,我們的文化事業是被政治權力高度掌控、嚴格監管的。老舍的筆,程硯秋的嘴也不例外。更嚴重的是,在我們這裏一個政黨能動用國家力量,來強行貫徹文化政策。文字改革(即漢字簡化運動)就是首開先例的一個典型。文字乃文化之根,是歷史之本。從一個字的形成與演化,我們得以窺探到華夏千年的歷史,人類的發生和生存。紅色政權成立了,立即就要改動這個「根」與「本」,而這個改動居然是由一個叫「文字改革委員會」的機構一手包攬。領導人吳玉章不是文字專家,是中共元老。這個機構開了些會議,便形成了「漢字簡化方案」文件;很快,「方案」上報了中共中央;很快(時隔三月),第一批漢字簡化方案在全國推行。推行的重點就是報紙和學校。當時,民盟中央領導人個個震驚,議論紛紛。如此重大的政策,咋就這樣出臺了?和中國老百姓商量了嗎?和文化教育新聞藝術機構商量了嗎?和語言文字的專業人士商量了嗎?而後者正是民盟組織之優勢所在。父親對這種獨斷專行做法和漢字簡化方案以及改豎排為橫排的版式都極為不滿,並到處表達這種不滿。

不久,在一次民主人士的聚會上,周恩來見到我的母親,特意走過去。寒暄幾句後即問:「健生,你是懂書法的,你說說,簡化字和橫排版好不好?」

母親答:「我不習慣。書法還是繁體字好看。讀書也是豎排好看,說不上一目十行,但是我瞥上兩眼,一頁內容就都能知道個大概了。現在看橫排版,我要一行一行看個仔細才行。」周恩來笑笑,點點頭。

回到家中,母親便把與周恩來的簡短談話告訴了我們。

父親聽後,說:「這叫徵求意見?」

以上的事發生在1956年。到了1957年反右運動,「漢字簡化運動」升格為政治問題,換句話說,對漢字簡化的態度就是對中共的政治態度。「染透猩猩血,風釀楚天秋。」章伯鈞反對漢字簡化的發言,成為他「劃右」定性的重要罪狀。著名學者、文字學家陳夢家為此而送命。還有許多的教師(特別是語文教師)、職員、機關幹部對行政干預漢字簡化工作表達了不同意見,而丟掉飯碗,最後家破人亡。彭小明先生的這本書,就是對這段沉重的歷史,對這個嚴重文化事件的系統梳理、解析與歸納。書中有一節,標題為「識繁用簡:恢復官方正體,簡化字降格為書寫體」,對此,我是非常認同的。

最近從與齊白石子女家屬吃茶閑談中,我得知:有人說章詒和是個怨婦,滿篇滿紙皆是怨。他們概括得真准,說得也好。樹砍光了,水斷流了,太湖綠(藻)了,老鎮古城只剩下經緯度是真的了,怎地不怨?中華傳統快滅絕了,怎地不怨?民族文化的根子也拔了,怎地不怨?我想,無怨者定是既得利益者或是幹那些斷子絕孫事的人!

是的,而今能在文化上守住根的人,已經很少,很少了。我們這個民族還能有文化意識的復甦嗎?我是很悲觀的。現實的情況是—叫我們的孩子學簡化字,練英語,中學語文課本撤掉唐詩宋詞、換上金庸陳忠實。課外組織學生去參與「紅色經典」(實則是有紅色而無經典)的欣賞、學習、游覽等大型活動。而潛在的另一種現實情況是—那些政壇老將與新秀,幾乎個個都在家裏惡補古文,背古詩,哼京戲,拍昆曲,拉胡琴,練繁體字書法,把玩古董,收藏字畫。因為誰心裏都清楚—政治等級的終極體現是文化等級。于是,各級官員在一番吃喝的同時,也急著「提升」自己的文化品味。

最近,網上看到胡錦濤先生的四幅書法作品,其中最有名的是「高瞻遠矚」四字橫幅,流傳極為廣泛。寫得好壞還在其次,令大家感興趣的是,胡先生原本是想依照傳統書寫的,寫成繁體字,而且從右向左;(惜乎將矚字錯成了簡體)。無論如何,他還是懂漢字的。

2007年10月27日于北京守愚齋

标签:, , , , ,

我能吞下玻璃而不伤身体 (Ubuntu 10.04)

點滴發現 2 Comments »189 views

Ubuntu 10.04字体查看器新发现:我能吞下玻璃而不伤身体

BYVoid点评

这句话虽然很有创意,却并不是一个很好的测试字体的语句。一般测试英文字体,总是用这句话:“The quick brown fox jumps over the lazy dog”,为什么呢?因为它不多不少正好包含了26个拉丁字母。测试中文当然不能找一句话包含所有的汉字,但我还是希望能有一个长度恰当的句子,包含的汉字能覆盖常见的偏旁部件,尽可能要有“日月金木水火土 人手口言玉足草”等这些偏旁吧,谁能想出这样一个句子呢?

标签:, , , , ,

[轉載]大陸44漢字的新寫法有理

精華轉載 7 Comments »105 views

雖然這是去年的事了,今日偶然想起,還是轉載一篇優秀的文章。下文轉自 http://www.cuhkacs.org/~syaoran/blog/read.php?359 (節選部份)

先列出這44項修訂(點擊圖片以放大):

「毂」字的修訂,我鼎力支持。漢字中從來就只有「㱿」這部件(右圖為放大了的「㱿」字),沒有「㱿減去一」這部件。「殼、瞉、穀(從禾,㱿聲)、榖(從木,㱿聲)、彀、嗀、愨、觳」等字,以及「毂」的繁體字「轂」,全部都從「㱿」,而不是從「㱿減去一」。當年《簡化漢字表》是胡亂竄改字形,今天大概可說是平反昭雪。

㱿

把「朩」部件改作「木」,亦很可取。「朩」、「木」根本是同一部件,沒有任何分工的必要。現時的分工,都是強記的,沒有字理、沒有客觀原因可言的。(BYVoid註:一般來說「朩」適合於手寫體,舊時改成「木」本是爲了適應雕版印刷,因此現在沒有區分的必要。)

至於那些把「小」、「示」等不同部件,與這改動混為一談的網民,聲稱「要麼就把『小』、『示』下方都改作『木的底部』,要麼就不要改」,根本就不明字理。這種意見的根據薄弱,並不可取。真的要分工的話,就把「麻、麼、摩、殺、剎、弒、術、述」的「朮」部件還原,從「木」部件中分工吧!

「巽」、「珡」、「徵」的改動,亦符合漢字寫法。雖說宋體印版字不一定要改,但既然國內仍奉行「宋楷同形」這政策,改之亦有據。

「辰」的字形,只有左撇可以往下伸長,右捺卻不能,因此,從「辰」的字,本來就是做上下結構,比做包孕結構好的。現在的改動,正是把從「辰」的字都統一作上下結構。

「恿」、「瞥」等字,我個人認為全部統一作有小鈎較好,但全部統一作沒小鈎,也是一個一視同仁的做法。

至於新增數個避重捺(一字不二捺)的字,即「魅、籴、汆、褰、衾」,個人認為避重捺不是強制法則,這些字可作例外處理,但要統一避重捺也不是壞事。

标签:, , , , , , ,
19 queries. 0.566 seconds. Designed by NattyWP .
Images by desEXign.