推薦一個神級輸入法——Rime

用了那麼多年的輸入法,一直沒有一個讓我滿意的。早年我是從 Windows 95 自帶的「全拼輸入法」開始使用的,印象最深刻的就是一次只能打一個字,還有完全不搭邊的聯想。後來 Windows 98 以後改用「智能 ABC」,相比全拼真是質的飛躍。現在輸入法中的看似平常的功能,如聲母簡拼、用戶詞庫、以詞定字、模糊音等等幾乎都發軔於「智能 ABC」。後來接觸到網絡以後,我學會了使用「拼音加加」和「紫光拼音」,這兩者除了詞庫大了不少以外與「智能 ABC」相比並沒有什麼飛躍。直到「搜狗拼音」的誕生,我纔對輸入法有了更深的理解。搜狗拼音應該是第一個把自然語言處理算法應用到輸入法中的產品,通過大規模的統計語言模型實現了「智能組句」功能,爾後被「Google 拼音」和「QQ 拼音」複製,不過都在同一水平。

我是一個對輸入法有特殊要求的人,因爲我要輸入繁體字。早期的拼音輸入法沒有一個支持繁體中文的,最早是「微軟拼音」率先支持了繁體,但它亂用異體字,真的是把「回」的四種寫法在不同詞中用全了。搜狗拼音和Google 拼音後來也支持了繁體,不過簡直太爛了,幾乎是基於字的轉換,完全不考慮簡繁一對多的情況。雖然現在支持了一些,但還是錯漏百出,用起來極其不舒服。我嘗試過使用註音輸入法,好處在於沒錯誤,而且支持聲調,但是太不靈活了,不支持簡拼和打長詞,因此我開發了 ibus-bopomofo 註音輸入法,試圖把拼音輸入法的一些好特性移植過去。另一個問題是臺灣的註音輸入法打出的字都是「臺灣正體」,最大問題是「着」「著」不分工,而且使用了「為」「裡」「台」等俗字。後來我乾脆轉到了形碼的陣營,先後學習了鄭碼、五筆和倉頡輸入法。可是當我習慣音碼以後,再轉到形碼絕非一日之功,雖然我一直練習,可打字速度還是達不到拼音的三分之一。難道普天之下就沒有一個能準確打出繁體的拼音輸入法嗎?

Rime

一直以來,這個答案是否定的,畢竟開發輸入法本來就是一件費力不討好的事,況且有這種需求的人又不多,有誰會去開發呢?一切還得靠自己。可惜我書到用時方恨少,讓我開發一個這麼複雜的輸入法可幹不了。直到不久前佛振的Rime終於誕生,我的願望纔成了現實。

Rime全名是「中州韻輸入法引擎」,它不僅僅是一個輸入法,而是一個輸入法算法框架。Rime的基礎架構十分精良,一套算法支持了拼音、雙拼、註音、五筆、倉頡等所有音碼和形碼輸入法,遠比基於碼表的各種「輸入法生成器」優秀許多。Rime默認提供了兩個拼音輸入法「朙月拼音」和「地球拼音」,兩者都可以輸入準確的繁體和簡體,而且「地球拼音」還支持聲調輸入。Rime還支持了許多種方言拼音,如吳語、粵語,甚至中古漢語。

更超出我預料的是,Rime還是跨平臺的!Rime針對Windows、Linux、Mac三大平臺提供了不同的發行版,核心算法不變,還能和系統完美融合,真乃絕妙。佛振還給Rime的發行版起了好聽的名字,Windows發行版叫做「小狼毫」,Mac發行版叫做「鼠鬚管」,Linux發行版叫做「中州韻」。

廢話少說,讓我們用截圖說話:

「幹」「干」「乾」涇渭分明。

「饑」和「飢」都不會錯哦。

「出」「齣」分工正確。

「才」「纔」不一樣。

帶聲調的「地球拼音」。

註音符號輸入法。

支持七萬Unicode漢字的倉頡,還帶提示。

粵語拼音。

吳語拼音。

簡化字也是可以用的(由 OpenCC 強力驅動)。

「臺灣正體」模式,滿足臺灣人的用字需求。

用完以後我真是對Rime佩服得五體投地了,真可謂神級輸入法!更多的簡繁一對多問題,歡迎大家嘗試這個表 https://github.com/BYVoid/OpenCC/blob/master/data/scheme/st_multi.txt

Rime 下載地址 http://code.google.com/p/rimeime/wiki/Downloads

順便給 360 殺毒使用者提個醒,由於該輸入法作者沒給 360 交保護費,被 360 殺毒某些版本列入「未知木馬」(還未知就叫木馬,恐嚇用戶啊),請使用者冷暖自知。

關於作者佛振

大概在兩年前,我開發 OpenCC 和 ibus-pinyin 的時候認識了 rime 的作者佛振。他是我認識的第一位輸入法開發專家,也是最令我佩服的一位。我曾經在 Ubuntu 10.10 Release Party 上與他有過一面之緣,當時爲之手寫註音符號的能力所震驚,至今自愧弗如。作者佛振不僅編程能力高超,而且對中文有很深厚的造詣,這樣的一個人開發了若干年的輸入法,豈有不好用之理?兩年以來,他始終以不變的熱情投入到開源輸入法開發的工作當中,纔發明出了這麼好用的一個輸入法。誠心向佛振致敬!

註:本文通過rime小狼毫「地球拼音」輸入方案錄入。

被百度強姦

眾所周知,百度不能搜索繁體,因爲任何繁體都會被“智能”轉換至簡體。自從我發現了百度繁體(hk.baidu.com)搜索,終於對百度產生了一點好印象。可是今天發生的事讓我對百度僅存的一點好感蕩然無存了。

打開http://hk.baidu.com在搜索框中輸入“鑑”,然後“百度一下”。

結果如下,“鑑”被強姦爲異體字“鑒”。

果然是“百度更懂中文”。

明瞭體——優美的舊字形無襯線體

明瞭體,是我個人以Windows Vista日文字體Meiryo為基礎製作的一款舊字形字體。Meiryo作為日文字體保留了許多舊字形的優美特徵,然而卻混入了一部分日本新字體略字,我將之一一糾正為經典的舊字形,並加入了方正蘭亭黑體以補全生僻字簡化字,使其成為一個非常優美的屏幕顯示字體。配合Windows的Cleartype或者Linux的文字清晰技術,明瞭體在任何字號都有非常良好的表現,效果如下圖。

為解釋明瞭體為什麼是優美的舊字形,我用下面名句中的字來一一解釋

1、燕燕于飛 差池其羽 之子于歸 遠送於野(《詩經 邶風 燕燕》)

“差”上下不連筆。“羽”中兩撇而非點提,更符合象形。“歸”右上“⺕”中間一筆貫穿。“遠”、“送”二字走至旁兩點。“送”右上兩點為“八”字形。“於”最後一筆為提而非點。

2、知我者 謂我心憂 不知我者 謂我何求 (《詩經 王風 黍离》)

“者”字中間有一點。

3、天命玄鳥 降而生商 宅殷土茫茫 (《詩經 商頌 玄鳥》)

“天”上面一橫較長。“玄”下半部分“幺”前兩筆為撇點。“降”右下角為四筆。“商”第一筆為短橫。“殷”字右上角“几”帶鈎。“茫”右下角“亡”字形上面一橫不出頭。

4、令沅湘兮無波 使江水兮安流 (《楚辭 九歌 湘君》)

“令”中間為一橫,下部從“卩”。“兮”上邊“八”字形有一橫。

5、木受繩則直 金就礪則利 (《荀子 勸學》)

“受”上邊從“爪”字形。“繩”部首從“糸”字形。“直”下邊從一折。

6、請布基 慎聖人 愚而自專事不治 (《荀子 成相》)

“請”字右下角“丹”字形之中為一豎。“慎”從“眞”。

7、既自以心為形役 奚惆悵而獨悲 (《歸去來兮》 陶淵明)

“既”從“上白下匕”。“以”從豎提兩筆。“為”從爪字頭“爲”。“惆”之“周”中兩橫之間的豎出頭。“悲”上部“非”左邊從一撇一提。

8、此曲祗應天上有 人間能得幾回聞 (《贈花卿》 杜甫)

“祗”部首從“示”字形,“氐”下邊為一橫。“幾”左下角“人”字形不出頭。

回頭再看看我們的微軟“雅”黑,相比之下真是毫無雅緻可言。最大的問題是筆畫粗細不一,讓人感覺好像是雜糅了好幾個字體。再加上“新字形”一味追求於手寫體接近,使印刷體毫無印刷體之美感。

1、走至旁只有一點,顯得不夠穩當。 2、言字旁起筆一點讓整個字有傾斜之勢。 3、絞絲旁下邊三點顯得非常難看,尤其是本來對稱的字如“絲”。 4、“直”平行筆畫過多,讓人眼花繚亂(數不清到底有幾橫)。 5、示字旁和衣字旁僅僅一點之差,難以分辨。

本人修改的明瞭體還在後期製作階段,目前已經可以使用,涵蓋了GBK Big5 Unicode BMP內所有漢字。如果你需要這款字體,歡迎與我聯繫。

百度搜索強悍的地方

我的博客已經裝了簡繁轉換的插件,而且在路徑上有所區別。今天偶然在百度上搜索了一下,發現竟然能夠根據語言自動區分鏈接。下面兩個圖分別是百度簡體和繁體搜索的結果,可以看到,繁體搜索上面路徑自動識別爲了zh-hant。

令人可惜的是,Google沒有做的這一點。

“鍾”、“鐘”之辨

“鍾”、“鐘”均讀作“zhong1”,其“簡化字”均爲“钟”。兩者本義不同,但簡化字刻意追求簡略,把兩者合為一字,因而在辨別上造成了不少困難。

”,本意爲“盛酒的器具”,與“盅”相通,如“酒鍾(酒盅)”、“酒逢知己千鍾少,話不投機半句多”,後引申爲一種容量計量單位。另一個引申義爲“積聚,集中”,例如“鍾愛”、“鍾情”、“鍾靈毓秀”。此外,“鍾”和“鍾離”還是兩個姓氏,古有“鍾繇”、“鍾子期”、“鍾離權”等人。

”,本意爲“一種打擊樂器”,如“編鐘”、“鐘鳴鼎食”。後起意義爲一種計時工具“鐘錶”,如“鬧鐘”、“鐘點”、“鐘擺”。

“后”、“後”之辨

(本文與漢字學相關,故用傳統漢字書寫)

“后”、“後”均讀作“hou4”。

”本義“君王、諸侯、君王的正妻”,例如《詩經˙商頌˙玄鳥》:“商之先后,受命不殆,在武丁孫子。”“皇天土”。

”的意義就比較廣泛了,可以用作名詞、形容詞、副詞或動詞,其核心意義就是“時間空間上與‘先’相對的概念”,引申爲“子孫”,“落後”,“延緩”。

兩者並非同出一源,然古籍已有互假,如《禮記˙大學》:“知止而后有定。”中“后”通“後”。互假在古籍中畢竟僅僅是極少數現象,大規模的混淆開始於大陸“簡化字政策”的推行,“後”字被認爲繁難而廢棄改寫爲“后”。而且如同“蕭”、“肖”二姓被人爲合併,“后”、“後”也本是不同的兩個姓氏,如春秋時齊國有孔子的弟子后處,漢代有后蒼,五代時後漢有後贊,清代有後禮。