越來越長

最近發現近一兩年來我的博客文章有越來越長的趨勢,讀起來費勁,每次寫起來也很費勁。

應該寫短一些,多寫一點,立此爲證。

其實互聯網和養豬場一樣

去年九月我去聽了網易CEO丁磊在清華的講座「其實互聯網和養豬一樣」,聽的過程中記錄了一些丁磊的語錄,後來發了一篇文章,不過閱讀量只有幾百。今天纔發現我當時的這篇文章被網上瘋狂轉載,許多媒體原封不動轉載了我記錄的所有內容,例如:

而網民的評論更加喜感:

甚至還有「丁磊曝iPhone5延期原因:胶水缺貨」:

此外,還有許多網站轉載了我的文章,據估計總閱讀數量在數十萬次。

http://www.cnbeta.com/articles/155579.htm

http://news.xinhuanet.com/it/2011-09/19/c_122054825.htm

http://www.phpchina.com/archives/view-39686-1.html

http://www.lupaworld.com/article-213522-1.html

http://www.admin5.com/article/20110919/376526.shtml

http://www.gamersky.com/news/201109/180592.shtml

http://gamebbs.zol.com.cn/1/2_2538.html

……

但共同的特點都是不註明出處,中國網絡上轉載時專門刪除作者和出處的文化真是不容小覷!所以我認識到了,其實互聯網和養豬場一樣,網民根本不在乎食材的來源,只要滿足眼球的慾望即可。

推薦一個神級輸入法——Rime

用了那麼多年的輸入法,一直沒有一個讓我滿意的。早年我是從 Windows 95 自帶的「全拼輸入法」開始使用的,印象最深刻的就是一次只能打一個字,還有完全不搭邊的聯想。後來 Windows 98 以後改用「智能 ABC」,相比全拼真是質的飛躍。現在輸入法中的看似平常的功能,如聲母簡拼、用戶詞庫、以詞定字、模糊音等等幾乎都發軔於「智能 ABC」。後來接觸到網絡以後,我學會了使用「拼音加加」和「紫光拼音」,這兩者除了詞庫大了不少以外與「智能 ABC」相比並沒有什麼飛躍。直到「搜狗拼音」的誕生,我纔對輸入法有了更深的理解。搜狗拼音應該是第一個把自然語言處理算法應用到輸入法中的產品,通過大規模的統計語言模型實現了「智能組句」功能,爾後被「Google 拼音」和「QQ 拼音」複製,不過都在同一水平。

我是一個對輸入法有特殊要求的人,因爲我要輸入繁體字。早期的拼音輸入法沒有一個支持繁體中文的,最早是「微軟拼音」率先支持了繁體,但它亂用異體字,真的是把「回」的四種寫法在不同詞中用全了。搜狗拼音和Google 拼音後來也支持了繁體,不過簡直太爛了,幾乎是基於字的轉換,完全不考慮簡繁一對多的情況。雖然現在支持了一些,但還是錯漏百出,用起來極其不舒服。我嘗試過使用註音輸入法,好處在於沒錯誤,而且支持聲調,但是太不靈活了,不支持簡拼和打長詞,因此我開發了 ibus-bopomofo 註音輸入法,試圖把拼音輸入法的一些好特性移植過去。另一個問題是臺灣的註音輸入法打出的字都是「臺灣正體」,最大問題是「着」「著」不分工,而且使用了「為」「裡」「台」等俗字。後來我乾脆轉到了形碼的陣營,先後學習了鄭碼、五筆和倉頡輸入法。可是當我習慣音碼以後,再轉到形碼絕非一日之功,雖然我一直練習,可打字速度還是達不到拼音的三分之一。難道普天之下就沒有一個能準確打出繁體的拼音輸入法嗎?

Rime

一直以來,這個答案是否定的,畢竟開發輸入法本來就是一件費力不討好的事,況且有這種需求的人又不多,有誰會去開發呢?一切還得靠自己。可惜我書到用時方恨少,讓我開發一個這麼複雜的輸入法可幹不了。直到不久前佛振的Rime終於誕生,我的願望纔成了現實。

Rime全名是「中州韻輸入法引擎」,它不僅僅是一個輸入法,而是一個輸入法算法框架。Rime的基礎架構十分精良,一套算法支持了拼音、雙拼、註音、五筆、倉頡等所有音碼和形碼輸入法,遠比基於碼表的各種「輸入法生成器」優秀許多。Rime默認提供了兩個拼音輸入法「朙月拼音」和「地球拼音」,兩者都可以輸入準確的繁體和簡體,而且「地球拼音」還支持聲調輸入。Rime還支持了許多種方言拼音,如吳語、粵語,甚至中古漢語。

更超出我預料的是,Rime還是跨平臺的!Rime針對Windows、Linux、Mac三大平臺提供了不同的發行版,核心算法不變,還能和系統完美融合,真乃絕妙。佛振還給Rime的發行版起了好聽的名字,Windows發行版叫做「小狼毫」,Mac發行版叫做「鼠鬚管」,Linux發行版叫做「中州韻」。

廢話少說,讓我們用截圖說話:

「幹」「干」「乾」涇渭分明。

「饑」和「飢」都不會錯哦。

「出」「齣」分工正確。

「才」「纔」不一樣。

帶聲調的「地球拼音」。

註音符號輸入法。

支持七萬Unicode漢字的倉頡,還帶提示。

粵語拼音。

吳語拼音。

簡化字也是可以用的(由 OpenCC 強力驅動)。

「臺灣正體」模式,滿足臺灣人的用字需求。

用完以後我真是對Rime佩服得五體投地了,真可謂神級輸入法!更多的簡繁一對多問題,歡迎大家嘗試這個表 https://github.com/BYVoid/OpenCC/blob/master/data/scheme/st_multi.txt

Rime 下載地址 http://code.google.com/p/rimeime/wiki/Downloads

順便給 360 殺毒使用者提個醒,由於該輸入法作者沒給 360 交保護費,被 360 殺毒某些版本列入「未知木馬」(還未知就叫木馬,恐嚇用戶啊),請使用者冷暖自知。

關於作者佛振

大概在兩年前,我開發 OpenCC 和 ibus-pinyin 的時候認識了 rime 的作者佛振。他是我認識的第一位輸入法開發專家,也是最令我佩服的一位。我曾經在 Ubuntu 10.10 Release Party 上與他有過一面之緣,當時爲之手寫註音符號的能力所震驚,至今自愧弗如。作者佛振不僅編程能力高超,而且對中文有很深厚的造詣,這樣的一個人開發了若干年的輸入法,豈有不好用之理?兩年以來,他始終以不變的熱情投入到開源輸入法開發的工作當中,纔發明出了這麼好用的一個輸入法。誠心向佛振致敬!

註:本文通過rime小狼毫「地球拼音」輸入方案錄入。

四年來我的Blog的變化

突然發現,我的Blog已經運行快四年了。四年以來,域名從moonfeng.com到cmykrgb123.com到cmykrgb123.cn,再到byvoid.com,經歷不下十次數據遷移,在沒有任何備份的情況下,內容從來沒有丟失,實在是幸運之至。

Blog這個東西在中國興起於2005年前後,恰是中國互聯網用戶爆炸性增長的時期,也正是互聯網內容豐富化、多元化的開端。我向來是一個喜歡追求技術潮流的人,當然沒有忘記跟風。記得當時是上初中,也正好是我家安裝上寬帶,告別龜速撥號上網的時候,我在blogchina上申請了免費Blog。雖然申請了,卻苦於沒有內容可寫,無病呻吟算是寫了幾篇文章,可惜看得人寥寥無幾。喪失興趣後,祗能放棄。進入高中以後,也就是2007年,算是遇到一位貴人——蔡馨霄。有一次他偶然問我對網站有沒有興趣,想讓我管理服務器,可以建立我專屬的個人網站。建立個人網站?我豈止是有興趣,簡直是從小到大的夢想!記得小時候看見Windows98附件裏面的“Web發佈嚮導”,以為在裏面輸入任意一個網址,想要的內容就能發佈到互聯網上。後來纔知道要申請域名,要有服務器空間,我祗能望而卻步。在蔡馨霄的幫助下,我用了他的一個域名moonfeng.com,在他的服務器上創建了網站。當時用的是ASP,我找了一個叫LBS的Blog系統,建立了我的第一個獨立Blog。後來我申請了自己專屬的域名cmykrgb123.com,Blog系統也從LBS遷移到了PJBlog,服務器依然是蔡馨霄提供。慢慢的我迷上了管理服務器,從ASP到PHP,從Windows到Linux,從國內主機到美國主機。一年以後,cmykrgb123.com到期了,當時正好是.cn域名大推廣的時候,一個域名一年僅僅需要10元,我就換成了cmykrgb123.cn。好景不長,奧運會後互聯網風暴驟起,一夜之間十萬沒有備案的網站被關閉,域名也危在旦夕。我對.cn域名徹底失去了信心,於是把遷移到了國外,申請了byvoid.com。

按照傳統的定義,Blog應該是一個公開在互聯網上的日記本。而對我來說,Blog更像一個個人信息發佈平臺,是一個向全世界人展示我的窗口。翻看我寫過的文章,從形式上看,發現幾個規律:轉載越來越少,原創越來越多;短文越來越少,長文越來越多;日記越來越少,文章越來越多。從內容上看,從早期的以信息學競賽心得和題解為主,轉向技術、開源、語言學的混合型內容。此外,2010年後半年以後更新頻率也有所下降。

2008年以後興起的SNS對傳統Blog的衝擊很大,至今還在延續,有人說Blog已死。我的觀點是,Blog將會更多的轉型爲個人信息發佈平臺,而純日記、感悟、生活的內容將會向SNS轉移。SNS的特點是封閉、圈子化,而Blog則是公開化的代表。我還會繼續將我的Blog細心經營下去,或許,直到下一次技術革命。