Archive for 二月, 2009

強烈支持政府立法加強監管互聯網

2009/02/24

請講出三條片既共通點。

第一段,叫做「何文田愛民村學生群毆」

第二段,叫做「九人幪面超人大戰杜古瑪宇宙星團」

第三段,叫做「十人幪面超人大戰巴丹怪獸軍團」

答案:都係群毆囉。

我好懷疑佢地係睇完幪面超人之後學番黎既。互聯網毒害青少年,影响深遠。

因此,我支持政府立法加強監管互聯網!!!

(致無幽默感人:以上乃係鳥語,鳩噏也。)

搜尋器·續續續續完

2009/02/23

五。

另一個問題是,我一直都懷疑google的賺錢能力。

在風高浪急的二零零八年,google透過賣廣告的收入是二百一十一億美金,比對上一年增加近百份之三十。一千六百億港幣唔係講笑的,夠買起0001.HK。可是,我不太覺得自己有㩒過幾多次廣告並且真係買野的。

多年來看過這麼多個金融騙局,根據維基,二零零年安然的收入是一千億美金,內裏大部份都是吹出來的,會計醜聞被揭發後,整間公司消失的無影無綜。近年的的又有美國幾間投資銀行,都可以一夜間化為烏有。又有無數在金融海嘯後被揭發的龐氏騙局。這些,都是在提醒我們,世界上沒有too-big-to-fail這回事。這一切都可以是個美麗的謊言。

又或者有天,google要賣盤。IBM曾於八十年代雄霸天下。九十年代,是微軟家家都有窗開的金黃時代。今時今日我們眼前的是Google。不難想像,幾年後google喪失了自己的優勢,或者因為種種原因,股權要轉讓給別人,那時候,我們的一切資料,一切過往的搜尋紀錄,電郵對話,都會隨著股權的轉讓落入不知誰人的手裏。

“Don’t be evil"是google的格言。但,就如一九八四裏,我們曾經見過"War is Peace; Freedom is Slavery; Ignorance is Strength"。

(完)

負一。
因著種種理由,也因為事忙,愈寫愈差。愈寫愈冇心機。
原本仲有好幾樣野想寫,睇下以後有冇機會。

搜尋器·續續續

2009/02/18

四。
之不過。這個世代,我們的成長裏,其中一件所學會最重要的事情,是不要相信任何的事/承諾。

就如有人曾經支持過「支持○七、○八雙普選」(咦?!好似而家係零九啦喎),又如有人話今年見四萬點,又如有人說過當日凌晨毛澤東的肖像前沒死過一個人,又如有人說伊拉克有大殺傷力武器,又如有人說自己好天真好傻,又如有人說四個半私有化是為股東著想,又如有人說過ipod不需要video⋯⋯數之不盡。

四。一。

我自願放棄私隱,指所有東西都放在網上面。包括寫過的文,拍過的照片,還沒有發表的論文,正在寫的程式,通通放在網上。在家工作到一半,可以兩手空空地走回學校繼續努力。又很自然地假設各個網絡服務商會為我backup,於是連自己備份都工夫都省卻。曾經何時我覺得丟了電話會使我冇曬朋友,如果一天,facebook和gmail同時消失,我簡直是叫天不應叫地不聞。

網絡,為我帶來多多方便,也令我們依賴它們得不能自拔。

四。二。

田中芳樹《銀河英雄傳說》的背景是一個開明的專制國家和一個朽壞的民主國家之間的故事,魯道夫是個專制帝國的元祖,吊詭地他是個由民選產生的「有力的領導者」,不過後來成了「神聖不可侵犯的銀河帝國皇帝」。在第一章,主角楊威利(得,我知道在某些人心目中,萊茵哈特才是主角,甚至是尤利安⋯⋯)的父親對他說:

「這樣說好了,一般人碰到問題時,都不願靠自己的精力心思去解決,他們只期望超人或聖賢的出現,為他們承擔所有的痛苦、困難和義務。魯道夫就抓住人性的這個弱點,伺機而動,一舉成名。你要好好記住:讓獨裁者有機可乘的人,要負比獨裁者本人更多的責任!雖然沉默的旁觀者沒有支持他,但沉默旁觀其實與支持同罪……只是……,你應該把注意力放在比這些東西更值得關心的事情上……」

四。三。

Google的出現,我就不再用書簽,不再用usb手指或floopy,不再用多個不同電郵,不再用microsoft office,不再backup。最基本的電腦,只要可以上網,再加個firefox(最好有埋倉頡),就可應付大部份日常需要。

某程度上,google甚至成為了我的日記。如果大家登入google,可以找到閣下一路以來的搜尋字句。透過那些搜尋字句,我們可以知道當時的生活。出現了很多日本女姓的名字時,必然是某個孤寂的週末晚上;出現同一個女生名字但有不同variation的時候,好明顯是睇中了某某然後起底的電車男時間;又或者是"python tuple", “python namespace", “python multiple inheritance"的工作時間⋯⋯

有時亂click自己的search history,都發覺幾係恐怖。恐怖的是發覺原來自己也不太能夠面對自己的過去,也發覺如果有天給別人發現這個search history都幾係尷尬。

四。四。

那麼,google算不算是承擔了很多痛苦困難和義務?google的目標是「 organize the world’s information and make it universally accessible and useful」八年來我都受惠於這個搜尋器,為我帶來了不少方便,曾幾何時學寫program要去黃金買書,買了還要慢慢搵。去年的這個時候,我重新學python,一切都是從網絡來的。

問題是,"the world’s information"包不包括我的私人資料?我是世界的一部份,固之然,the world’s information includes myself。

當然google十分重視這個問題。一直以來,它都盡所能使客戶的資料不會外泄,好讓客戶們安心使用它的工具。

這是極之重要的無形資產。

比方說,如果中宣部推出免費電郵、辦公室軟件、博客網站、相片儲存,並保證閣下資料永不外泄,你敢唔敢用?

一旦google被發現它的資料外泄,人們就會對其失去信心,客戶就自然會流失到其他地方。

四。五。

姑且假設larry page跟serge brin是好人。

如果,有隻內鬼响裏面偷野?

累到冚世界雞毛鴨血的房利美,於去年十月炒了個unix contractor(即係所謂既合約員工),在他離開之前,他把一個可以導致整個電腦系統崩潰的程式放進系統,同時設定把這個程式在今年一月三十一日引爆。或幸運或不幸地,這個程式在爆炸前被其他員工發現,否則,後果堪虞。

炒人記得炒得乾淨利落,難怪友人傳來這樣的一個電郵

友人在面書工作,主要工作是從wall post,msg裏發掘不同的spam。聽罷,我在想,這工作需要用真實的data作training,而真實的data又從哪裏來?第一個問題是:咦?你咪睇曬冚世界啲msg?友人笑笑口,沒有答我。

(唉,仲未寫完⋯⋯⋯)

搜尋器·續續

2009/02/12

三。二。一。

Re yuenyathei:

Live search has weird behavior that it does not always return accurate results.

Taking the query “Python tuple" as an example. (For non-tech-savvy, “Python" is a programming language and “tuple" is a basic tool in Python). The latest version of Python is 2.6 and the official release date for the next 2.x version is not announced yet. And, the non-backward-compatible-version 3.0 is also released.

googlelogged-out

Above is the result from Google (I actually logged out to ensure the result is not biased to my search history). The first result is the tutorial for “tuple", which is for beginners. The second result is the tutorial for the c-api/implementation of “tuple", which is for advanced developer. The third result is a chapter of the best online, free python book I have ever read.

live

This is the result from Live. The advanced documentation of a not-yet-released version (v2.7a0) ranks the first. And another advanced documentation of Python 3 ranks the second. The third is even worse. There is no tutorial/novice introduction to “tuple" in the first page. A novice internet user who is learning Python will be scared by the advanced features of Python, while the design goal of Python was to make it high-level and really easy to use.

Google returns more relevant results than Microsoft Live search. For Live search, the query has to be more specific to get a as-good-as-google result, like “python tuple tutorial“. Being a computer scientist who works in optimization systems, I am born to be optimized and lazy. If typing two words can get the desired result, there is no reason to type three.

Yes people may say I am too picky. But, this kind of pickiness makes Google the king.

三。三。一。

Re John,

I have actually read 1984. It is my best classic.

(to be continued.)

搜尋器·續

2009/02/12

二。七。

先回kk

冇錯。google出現以前,係用NLP一向用開既technique去認字的。

我讀過佢地一九九八年既google search engine既architecture既文,約略有提過佢地點做crawling。同埋,Larry Page似乎有出過文關於crawling,不過我冇讀過。

再回circle

其實利用連結去做分析一向都有人做開。其中一個最重要既例子係,學術期刊既重要性,就係透過佢刊載既論文被其他期刊連結(refer)過既次數,作為衡量既準則。

三。

近日在網上看見一文,叫Google Monoculture

三。零。

撰文者為Jeff Atwood,他跟Joel Spolsky合作建立編程社區網站stackoverflow.com(淨睇個名都夠geeky)。Joel Spolsky是微軟前PM,他一系列關於軟件工程的書超好睇,高傲得黎又有料,以前約略提過。Jeff Atwood同佢做得野,都應該有番咁上下。

三。一。

該文指,今天我用說web search,其實大多是指google。同時有些英文字典都把google當作一個verb了。

他舉例說nytimes的網站,從google來的較從yahoo來的人流多六倍。他的網站stackoverflow.com更甚,是三百五十倍。問題是,為甚麼互聯網作為一個低門檻的商業模式(如Thomas Friedman所言,這是個leveled playing field),任何人都可以輕易參加,連小學生都可以建立網站,在矽谷裏startup多如恒河沙數,為甚麼多年來Google都沒有競爭對手?

入門網站的先行者如yahoo,財雄勢大的Microsoft,為甚麼不能夠打敗Google?

十年前Microsoft挾internet explorer以令諸侯,一方面做低了netscape,另一方面透過其壟斷作業系統的優勢以維持自己的覇權。微軟得以維持,是因為windows的用戶不容易轉到新的系統,更重要的,是在windows上運行的軟件不能輕易地轉移到其他作業系統上,(喜歡wine既朋友唔好打我,我覺得wine而家只係「尚可」,同「好」還有好一段距離)習慣使用windows的人,無論自己是多麼的不願意,都可能被迫留在視窗系統的懷抱裏。

問題是,從www.google.com轉到www.yahoo.com或者www.live.com的難度是零,google並沒有十年前微軟的優勢,為何會出現這個寡頭局面?

三。二。

其中一個解悉,是搜尋器可以從使用者的動作裏,了解使用者的preference。

响以前(而家好似已經唔係),求其search一個詞「凍啡走甜」,第一個結果好應該是敝扑,當right click這條連結,可以選擇"copy link",大家會得到"https://yipjustin.wordpress.com"。但實情,當大家按那個連結時,其實google會trap了這個動作,先redirect你去google度,等佢記得你剛作既動作,然後才再redirect你去你想去既地方。

向好處想,這是個收集資料的好方法。這樣,透過知道使用者既選擇,日後可加以篩選,得出更合人們心意的搜尋結果。

當一個搜尋器愈多人使用,就收集得到愈多使用者習慣的資料,從而強化自己的效能和搜尋的準備性。那就吸引更多人使用。

這亦可以解悉,點解年資最淺的live search既行為咁古怪。

三。三。

不過,問題係,如果有天,Google不再"Don’t be evil",咁又會點?

(唔好意思,太忙,其實呢一part先係最想寫,但又未寫完⋯⋯等下啦)

說時遲,那時快

2009/02/10

picture-22

正想開google doc寫埋篇文,竟然出error。我啲document files唔見曬。我信得過佢有backup。

搜尋器

2009/02/10

一。

生活跟Google有很大關係。

我把所有電郵都forward至gmail,同時習慣把文件forward給自己,當流動硬碟用,兼具backup功能;大部份我的文都是在google doc寫的;我進行實驗的數據也是在google doc內;每天努力地爬的新聞也都在google reader內;已經沒有用bookmark,打兩隻字然後google方便得多。

我時常想,如果有天,沒有了google,我真的會唔知點死。

二。

Google在世紀初的第一次互聯網泡沫裏,擊敗了yahoo成為最強搜尋器,因為兩位創辨人提出了前所未見的概念。

二。零。

在Google出現以前,搜尋器跟閣下notepad裏的search基本上沒有分別。

搜尋器只會配對在網頁裏和query的字眼,然而這個方法很不準確,很容易被人manipulate。Google搜尋方法(跟據Brin和Page在九八年發表的論文)的基本原則,是認為如果一個的網頁連結了另一網頁,某種意義上是投了那個網頁一票。而Google的搜尋器,是透過分析網頁上的超連結,來區分不同網頁的重要性。簡單來說,愈多人連結的就愈好愈重要。

二。一。

基本上,這是個「自由行」。

可以想像成,一個人,由某個隨意的網頁開始,在網頁上隨意地按一個連結,然後遊到新一頁,然後又亂按一個連結,一直無止境地亂走下去。途中紀錄每個網頁被訪的次數。被重覆到訪的次數愈多,代表這個網頁被愈多人連上,即指這個網頁愈為重要。

「自由行」,亦即是人所共知的PageRank。

二。二。

又或者,整個互聯網是一個Directed Graph。vertex代表一個網頁,一支edge由vertex i指向vertex j意即網頁i上有連結指向網頁j。這是一個在graph上面的random walk。

二。三。

又或者,可看成一個Markov chain,我們求的是stationary distribution。重要的網頁,自然有較高的frequency。

二。四。

咦咦咦咦咦。等陣先。

如果有條茂利,起個網站,淨係得兩頁,自己link自己,跟住响出面求其地方,放條link連去自己果兩頁度,那個random walk咪會失效?!意思係,如果「自由行」行到金至尊,入到去睇完個金廁所,先發覺原來係冇出路既,咁就永遠被困住响個金廁所裏面喇。佢地永遠留响個金廁所度,但咁又唔等於個金廁所德高望重喎。

當然史上最偉大公司的兩位創辨人沒有那麼笨,至少他們考進stanford讀phd(而兩年前我報stanford的master也給reject了)。

他們也知道有世上有這些茂利的存在,於是他們在「自由行」的時候,加了一個「自由跳」的機制,每到新的一頁,在亂按之前,會先擲骰,擲中一點就求其飛去互聯網的求其一頁。(當然擲中一點只是個比喻,傳說中,Google使用的機會率是0.15)。

二。五。

當然,呢個咁簡單既模型是Page跟Brin兩位先生十一年前用來出paper的。响academia生活過既人都知,從來,最好既野,通常都唔會用黎出論文咁浪費既,真係咁正既話,點解唔自己做左佢然後搵真銀?

今日,pagerank只不過係一個好基本的模型。裏面真正既運作就真係木宰羊。

二。六。

咦咦咦咦咦。又再等多陣先。

翻查史料,第一個提出並應用網頁連結作分析的,是個叫做Jon Kleinberg的人。一九九七年,他是康柰爾大學的研究生(好似係),他發了史上第一篇文,關於如何透過超連結來找出重要的網頁。

這個意念今日沒有人會覺得新鮮,因為Google已經進行最龐大的user studies。不過,在一九九七年,當他第一次發表有關論文時,竟然給人reject,後來幾經辛苦到九九年才給發表。跟據citeseer,Jon Kleinberg果篇文俾人引過一千六百八十九次,而PageRank只係比人引過一千零四十三次。事實證明,象牙塔同現實係少少距離。

今日,Jon已貴為康柰爾大學電腦系的教授。不知道Jon會否夜半夢迴,想「頂,如果當日我做多少少,今日就可以有私人飛機⋯⋯」

(未寫完,再續,容許我緩慢的寫⋯⋯)

麻雀救國運動

2009/02/01

photo.jpg

十六世紀初,東印度公司把茶葉介紹到歐洲,未幾喝茶成為歐洲上流社會的習慣。然而茶葉只能從遙遠的中國入口,供應量少成本亦高,每磅茶葉可達十英磅*。從而導致英國白銀大量外流,即貿易逆差也。於是英人反向中國傾銷毒品鴉片,至十九世紀,大量白銀反從中國流向英國,從此清朝走上不歸路,永不超生。

八十年代改革開放,中國透過出口廉價勞力,成為世界工廠,對美國出現長期順差,坐擁大量外幣儲備。零七年,全球資金泛濫,不少跨國機構以天價放售,國務院批準成立的中投公司以每股約廿九美元向黑石集團購入三十億美元股份。零八年全球股市大瀉,多間金融機構被發現擁有大量大毒資產,累其股價大幅下跌。上星期五黑石收市價為四個五毫一美元。

歷史不斷重覆。

澳門回歸後開放賭權,引進兩間美資娛樂公司,順著內地開放自由行的優勢,娛樂事業的回報之厚獲利之豐,使該特區得以急速發展。一時間,另一特區難以望其項背,愛國人士大指應以澳門為榜樣。然而,賭博本身是個零和遊戲,對歷史發展進步毫無幫助,羊毛出自羊身上,澳門政府的博彩稅收益,到底也是從賭場裏的自由人來的,是間接地從老百姓來的。沉迷賭博禍害之深遠,社會結構的嚴重傾斜,而使北京不得不收緊對澳門自由行的限制。

美資的永利和威尼斯人在澳門賺個盤滿缽滿,國人辛苦之所得,竟然一個唔該就給賭場裏巨大的輪盤轉到外國的銀行戶口裏,作為對關心社會敢於承擔的大學生,每見及此內心實是悲痛不已。然後讀史書忽聞「師夷之長技以制夷」一說,今日洋人能在我國的土地上開賭,我們又能否以子之矛攻子之盾?

於是,在下成立「麻雀救國運動」,以各種形式吸引洋人落場耍樂。洋人在我國土地引進由西洋模式經營的賭場,使地上地下大量的真金白銀外流,造成毫無貿易可言的貿易逆差。今日,我向當年的英人學習,向洋人反輸出麻雀,望有日洋人嗜賭如當天清人嗜鴉片,此消彼長下達到救國之目的。現在運動仍於萌芽階段,才僅僅半年,敝系已夠人頭開兩枱馬吊,並全為洋人。敝人自當繼續努力,以表愛國之心。

當然,外國的月亮特別圓。這是敝系的公共空間,時值某個下著冷雨的星期五下晝,教授們實蕉們走過都視而不見。如果在MMW七樓開枱,又會如何?

*林行止《英倫采風(I)》,遠景出版社,頁三十四

%d 位部落客按了讚: