Monday, September 29, 2008

從毒奶事件看台灣政府之野蠻

台灣的媒體素質很差, 罵過很多次, 我已經無力了. 聯合報毫無根據的說歐盟的規定是多少,紐西蘭規定是多少等等, 我猜想聯合報的居心, 大概是幫政府開脫, 表示台灣衛生署的規定算是相對嚴格的了. 但事實是: 那些規定是子虛烏有,甚至漏掉最主要的: 歐盟根本不准中國貨進口的規定. 這有人整理, 詳見此. 另, 2.5ppm 這個標準到底合不合理? 當然不合理, 一個簡單的對照就可得知: 中國豬飼料的規定是2ppm, 台灣衛生署卻是2.5ppm. 言下之意, 衛生署眼中的台灣百姓不如中國政府眼中的豬. 這個也有人提過了, 也不用我重複.

我想講的是整個事件讓我看到政府的野蠻. 怎麼說呢? 先看一段簡單的文字敘述: 原文

------------------------------
這樣說好了。一盤蛋炒飯是由雞蛋、白飯、蔥花、沙拉油、鹽巴所組成,有些蛋炒飯也許還會有其他的成分,例如青豆、紅蘿蔔丁、肉末等,端看老闆有多大方。但不論是增加些什麼,一定都是可以吃的食材,絕對不會有蟑螂腿這種玩意出現。
其實蟑螂腿真的給他吃下去,也並不會真的怎樣,特別是經過高溫烹調後,可能已經有了不錯的殺菌效果。但是蟑螂腿既然不是食物,就算吃了不會結石,當然還是不應該出現在食物中;所以衛生署英明的長官們,也絕對不會失心瘋地去訂出「一盤蛋炒飯當中蟑螂腿的含量不得超過兩條」這種規定,更當然不必苦口婆心地向民眾宣導「誤食蟑螂腿後只要拉出來就沒事了」這種沒心肝的話。

這樣,懂了吧?
-----------------------


猜想我看到這段後浮出的第一個念頭是?

我想到之前有個性騷擾案. 被告因為摸胸部而被控性騷擾, 法官裁判其無罪因為摸10秒不至於引起性慾. 這案件和這次毒奶事件有什麼關聯? 其實很簡單講, 因為摸10秒不至於引起性慾, 有了這個判例之後, 司法單位乾脆規範以後摸10秒或不引起性慾都無罪. 如此一來是否會鼓勵色狼亂摸,反正只要自己計時, 一次不超過10秒即可. 更何況如果也沒有規範不可以連續摸, 那就更方便了! 我的朋友鐵雪在毒奶事件後一度把他msn暱稱改為 “捅5刀不會死, 因此直接規定以後桶五刀或以下都無罪”有異曲同工之妙.

如果你覺得設下這種規定很扯, 那麼現在的2.5ppm或零檢出的規定為什麼就不扯呢? 更進一步來問: 為什麼需要這規範?

一個社會之所以文明, 因為其百姓知其可為與不可為. 不幸當社會不夠文明, 或為了維持其文明因有法律具體規範可行或不可行,更進一步講, 來規範其是否為犯罪. 為什麼歐盟原來只規定不准某些中國貨的進口而沒有規範添加量之標準? 很簡單, 因為就像蟑螂腿, 三聚氰胺根本就不該出現在食物中, 也不該出現在食品添加物之列, 因此重點不在於吃了多少以下不會死,而是“衛生署英明的長官們,也絕對不會失心瘋地去訂出「一盤蛋炒飯當中蟑螂腿的含量不得超過兩條」這種規定”.正因為這是顯然易見的道理,所以文明社會根本不需要這種規定. 也因此只有在這種文明的約束有遭受不肖者挑戰之虞, 只好在近日多加一層保護而發布報告.

反過來看, 哪些國家規範? 中國,香港與台灣. 而台灣衛生署更是一絕, 自規範後還曾經更改官方首頁, 由原先的 “不可用於食品或食品添加物” 改成 “不可添加於食品”, 換句話說, 當成食品添加物是許可的! 這不就是和所謂的此後正式規範 “ 摸十秒內或不引起性慾就不犯罪”-->當成食品添加物只要不超過2.5ppm就可以繼續加一樣嗎!? 台灣政府你是在鼓勵廠商添加是嗎?

我雖然一度很想幫政府找藉口, 把台灣衛生署的規範簡單歸諸於許可制與禁止制的差別[1], 可惜在看過反覆的衛生署與其公佈的文宣前後之差別--不全面禁止進口,卻只是賣弄文字遊戲;不全面禁止添加,而只規範不得超出某標準. 我不得不歸諸於台灣政府的野蠻.

文明與野蠻的分際[2], 我再次看到台灣社會的野蠻.而這一次, 野蠻的不只是媒體,還是政府.

-----------------
[1] 例如, 在美國,除非寫了紅燈不准右轉的路口外,其餘都是准許右轉的. 又例如, 左轉車道只許左轉車輛使用,除非有著 “左轉與直行”的標誌表示許可直行車外, 直行車一般被禁止使用左轉車道. 前者是禁止制,未禁止則許可; 後者是許可制,未許可則禁止.
[2] 文明國家假設人民無罪, 野蠻社會反之. 詳見 “文明與野蠻的分際

Monday, September 1, 2008

部落格流量(4) : family feud? 從部落格流量看830嗆馬遊行的人潮數報導差異

這篇不是政治文,如果你想看的是政治文,可以轉台了. 喔,為了你辛苦搜尋來這裡,附贈影片(是路透社的830報導, 英文的)

830百日嗆馬運動之後,我看了一下各報的報導. 最有趣的,當然是各報的報導人數不一,不但不一,還有很大的懸殊--

親綠的自由時報說:30萬人嗆馬 擠爆凱道
親藍的東森說是近五萬 (“馬總統表示,兩天前有將近五萬人遊行,”)
外籍媒體AP報導指出 “據警方表示四萬人” (In downtown Taipei, people shouted, "Ma Ying-jeou, step down!" Some waved cardboard signs reading, "Taiwan Yes, China No." Police said about 40,000 people participated in the rally.) (我印象中也看到東森或是聯合報一開始說是警方表示,不過這兩報冷處理,我現在都找不到原來的報導,如果各位找到可以通知我,謝謝!)

不過詭異的是,根據兩年前(2006)的報導, 警方就不再公佈遊行人潮的數據了(Analysis: In crowd estimate game, political pressures loom “ ………Lin Ming-hua (林明華), director of the city police's Public Relations Department, said that they stopped giving out estimates of crowd sizes or marches two years ago when a march organized by the Chinese Nationalist Party (KMT) and the People First Party was staged in front of the Presidential Office.”). 謎之音: 這警方到底是哪來的警方?又是哪裡的警方呢?

回歸正題, 為什麼兩者公佈的數據差異這麼大?到底哪個可信?

事實上,我對兩者都抱存疑的態度. 原因很簡單, 因為兩者都沒有提供1)怎麼估計的? 2)單位是什麼? 在沒有這些資料的情況下,兩個數據都不具備可信度.

先回到這個系列討論的流量問題, 在(1)裡面我先引用的一個交通流量估計的問題當引子,現在遊行人數有多少也類似. 中南部動員的當然可以用遊覽車數乘上每車搭載人數來估計,但是散客的部分呢?

有一種估計的方法是用每平方公尺可以容納多少人來計算(詳見Billy Pan大), 這方法雖然比上述沒有根據,或是有根據卻沒有加以描述的已經進步許多也可信許多, 但這方法還是有一些問題.

(1)單位是什麼? 樣本是什麼? 我還是要強調, 估計本身就是走進統計世界裡了, 統計最重的就是母體與樣本. 母體很清楚,就是所有參與遊行的人, 這個回頭再討論. 那麼樣本呢? 我在此系列的(1)一開始就提及,單位(unit of analysis, level of analysis)很重要. 例如,當你要用(每平方公尺容納4人)X(人潮所占面積)來得出總人數, 一個很重要的單位不見了! 是什麼單位?

好吧! 直接告訴你,是時間! 也就是說, 上述方法比較正確的來講是, 在幾點幾分時或是在哪一個時段內(看你要用多大的時間單位為基礎), 遊行的人潮有XXX人!

當抽樣的時間點不同,估計出來的人潮數量也會不同. 有些人因為擠不進去, 因此沒被估算進去. 有些人因為遲到, 因此也沒被估算進去. 但是, 如果引用數據的時候許明確表示這是當天幾點幾分根據某某方法估計出來的, 那麼這樣的數據才有可信的基礎. 省略這個部分有個邏輯上很大的疏漏, 那就是該方法假設每個平方尺內的人數是固定的(static),因此可以不必描述時間, 但實際上這個數據卻應該是隨時間而會有所變動的(dynamic)! [1]

回到部落格流量, 我在第(1)(3)裡提到,用時間序列的方法時, 時間單位表達清楚很重要, 而且我用的是日流量. 因此只要在同一日內到達的都算. 先記住這點, 又推到830人潮估計, 另一個問題是--

(2) 待多久才算? 有些人在拍攝照片的當時在場, 但下一秒鐘就離開了; 有些人則是拍攝時尚未擠進去,但下一秒擠進去了, 請問何者應該被算? 何者不應該? 又請問, 假設路人甲在拍攝時候在場,之後去上廁所, 然後半小時後又回到現場, 在所謂平方尺容納人數X擴散面積的估計方法下, 他應該被計算幾次? 會被計算幾次? 簡單講, 母體是什麼? 母體理論上所有來參加遊行的人, 不論他停留時間久短,只要是來參加者都當計為母體. 但事實上往往很難知道真正的母體有多大. 這也是統計常爲人詬病的一點.

很難理解嗎? 想像一下好了! 如果你是個麥當勞迷, 剛好麥當勞在研究她們的人潮已決定是否擴大店面. 你中午去吃麥當勞,晚餐又去吃麥當勞, 那麼你應該被計算幾次? 如果麥當勞也一樣不考慮到時間(也就是上面問題1), 只在午餐時間抽樣, 那麼你被計算為一次; 反之被計算為兩次. 這一往返, 麥當勞計算流量就已經產生兩倍的差異了!

回到部落格的日流量也是一樣,如果用IP, 你被計算為一次而已, 如果是以閱讀頁次則被計算為2, 所以, 再問一次我在(3)裡面提問的, 用IP計算真的比較好嗎? 還是以閱讀頁次計算比較好? 我還是要強調, 每種數據有不同意義, 重點在於計算的方法,單位是什麼.

最後來談一點與統計無關的流量問題. 流量的估計對研究排隊理論的也是個很重要的議題.尤其是那些因為人潮太多而走掉的, 這部分的人潮要如何估計有很大的影響.如果將這部分完全忽略而已為現行資源已經足夠, 那麼只會造成顧客不滿但業者還得意洋洋的窘況.

舉個笑話來完結本篇.話說之前我所在的城市大風雪, 飛機因此受到延誤. 我打開weather channel, 那面出現一個美國地圖, 氣象主播說, MSP機場平均延誤45分鐘, 惡名昭彰的芝加哥ORD機場平均延誤1.5小時, 但是紐約州某機場的平均延誤時間卻是0! 好有效率啊,不是嗎? 事實上是, 該機場關閉, 既然沒有飛機起飛或降落,哪來延誤可言?

所以, 你真的相信那些報導的數據嗎? Think twice.

------

部落格流量1: fad or fashion?
部落格流量2: friend or foe?
部落格流量3: fact or fiction?

爲了維持標題一貫的風格,我加了副標題family feud來講藍綠間連個數字報導都要互相攻訐的情況.

[1]你當然可以假設人潮數不因時間而變動, 那麼這個假設是否成立或是是否合理值得討論. 如果假設的時間是一分鐘內人潮數不變 相對於假設一小時內不變,甚至一個白天不變, 都會影響這個假設的合理性. 當然時間愈短假設愈可能成立也愈合理. 但如此一來就相當於我提出的, 比較嚴謹的說法是在某時某分或是某段時間內人潮數估計為XXX.

關於假設前提的成立與否,之前以某文章為例討論過,不重複.