Monday, September 1, 2008

部落格流量(4) : family feud? 從部落格流量看830嗆馬遊行的人潮數報導差異

這篇不是政治文,如果你想看的是政治文,可以轉台了. 喔,為了你辛苦搜尋來這裡,附贈影片(是路透社的830報導, 英文的)

830百日嗆馬運動之後,我看了一下各報的報導. 最有趣的,當然是各報的報導人數不一,不但不一,還有很大的懸殊--

親綠的自由時報說:30萬人嗆馬 擠爆凱道
親藍的東森說是近五萬 (“馬總統表示,兩天前有將近五萬人遊行,”)
外籍媒體AP報導指出 “據警方表示四萬人” (In downtown Taipei, people shouted, "Ma Ying-jeou, step down!" Some waved cardboard signs reading, "Taiwan Yes, China No." Police said about 40,000 people participated in the rally.) (我印象中也看到東森或是聯合報一開始說是警方表示,不過這兩報冷處理,我現在都找不到原來的報導,如果各位找到可以通知我,謝謝!)

不過詭異的是,根據兩年前(2006)的報導, 警方就不再公佈遊行人潮的數據了(Analysis: In crowd estimate game, political pressures loom “ ………Lin Ming-hua (林明華), director of the city police's Public Relations Department, said that they stopped giving out estimates of crowd sizes or marches two years ago when a march organized by the Chinese Nationalist Party (KMT) and the People First Party was staged in front of the Presidential Office.”). 謎之音: 這警方到底是哪來的警方?又是哪裡的警方呢?

回歸正題, 為什麼兩者公佈的數據差異這麼大?到底哪個可信?

事實上,我對兩者都抱存疑的態度. 原因很簡單, 因為兩者都沒有提供1)怎麼估計的? 2)單位是什麼? 在沒有這些資料的情況下,兩個數據都不具備可信度.

先回到這個系列討論的流量問題, 在(1)裡面我先引用的一個交通流量估計的問題當引子,現在遊行人數有多少也類似. 中南部動員的當然可以用遊覽車數乘上每車搭載人數來估計,但是散客的部分呢?

有一種估計的方法是用每平方公尺可以容納多少人來計算(詳見Billy Pan大), 這方法雖然比上述沒有根據,或是有根據卻沒有加以描述的已經進步許多也可信許多, 但這方法還是有一些問題.

(1)單位是什麼? 樣本是什麼? 我還是要強調, 估計本身就是走進統計世界裡了, 統計最重的就是母體與樣本. 母體很清楚,就是所有參與遊行的人, 這個回頭再討論. 那麼樣本呢? 我在此系列的(1)一開始就提及,單位(unit of analysis, level of analysis)很重要. 例如,當你要用(每平方公尺容納4人)X(人潮所占面積)來得出總人數, 一個很重要的單位不見了! 是什麼單位?

好吧! 直接告訴你,是時間! 也就是說, 上述方法比較正確的來講是, 在幾點幾分時或是在哪一個時段內(看你要用多大的時間單位為基礎), 遊行的人潮有XXX人!

當抽樣的時間點不同,估計出來的人潮數量也會不同. 有些人因為擠不進去, 因此沒被估算進去. 有些人因為遲到, 因此也沒被估算進去. 但是, 如果引用數據的時候許明確表示這是當天幾點幾分根據某某方法估計出來的, 那麼這樣的數據才有可信的基礎. 省略這個部分有個邏輯上很大的疏漏, 那就是該方法假設每個平方尺內的人數是固定的(static),因此可以不必描述時間, 但實際上這個數據卻應該是隨時間而會有所變動的(dynamic)! [1]

回到部落格流量, 我在第(1)(3)裡提到,用時間序列的方法時, 時間單位表達清楚很重要, 而且我用的是日流量. 因此只要在同一日內到達的都算. 先記住這點, 又推到830人潮估計, 另一個問題是--

(2) 待多久才算? 有些人在拍攝照片的當時在場, 但下一秒鐘就離開了; 有些人則是拍攝時尚未擠進去,但下一秒擠進去了, 請問何者應該被算? 何者不應該? 又請問, 假設路人甲在拍攝時候在場,之後去上廁所, 然後半小時後又回到現場, 在所謂平方尺容納人數X擴散面積的估計方法下, 他應該被計算幾次? 會被計算幾次? 簡單講, 母體是什麼? 母體理論上所有來參加遊行的人, 不論他停留時間久短,只要是來參加者都當計為母體. 但事實上往往很難知道真正的母體有多大. 這也是統計常爲人詬病的一點.

很難理解嗎? 想像一下好了! 如果你是個麥當勞迷, 剛好麥當勞在研究她們的人潮已決定是否擴大店面. 你中午去吃麥當勞,晚餐又去吃麥當勞, 那麼你應該被計算幾次? 如果麥當勞也一樣不考慮到時間(也就是上面問題1), 只在午餐時間抽樣, 那麼你被計算為一次; 反之被計算為兩次. 這一往返, 麥當勞計算流量就已經產生兩倍的差異了!

回到部落格的日流量也是一樣,如果用IP, 你被計算為一次而已, 如果是以閱讀頁次則被計算為2, 所以, 再問一次我在(3)裡面提問的, 用IP計算真的比較好嗎? 還是以閱讀頁次計算比較好? 我還是要強調, 每種數據有不同意義, 重點在於計算的方法,單位是什麼.

最後來談一點與統計無關的流量問題. 流量的估計對研究排隊理論的也是個很重要的議題.尤其是那些因為人潮太多而走掉的, 這部分的人潮要如何估計有很大的影響.如果將這部分完全忽略而已為現行資源已經足夠, 那麼只會造成顧客不滿但業者還得意洋洋的窘況.

舉個笑話來完結本篇.話說之前我所在的城市大風雪, 飛機因此受到延誤. 我打開weather channel, 那面出現一個美國地圖, 氣象主播說, MSP機場平均延誤45分鐘, 惡名昭彰的芝加哥ORD機場平均延誤1.5小時, 但是紐約州某機場的平均延誤時間卻是0! 好有效率啊,不是嗎? 事實上是, 該機場關閉, 既然沒有飛機起飛或降落,哪來延誤可言?

所以, 你真的相信那些報導的數據嗎? Think twice.

------

部落格流量1: fad or fashion?
部落格流量2: friend or foe?
部落格流量3: fact or fiction?

爲了維持標題一貫的風格,我加了副標題family feud來講藍綠間連個數字報導都要互相攻訐的情況.

[1]你當然可以假設人潮數不因時間而變動, 那麼這個假設是否成立或是是否合理值得討論. 如果假設的時間是一分鐘內人潮數不變 相對於假設一小時內不變,甚至一個白天不變, 都會影響這個假設的合理性. 當然時間愈短假設愈可能成立也愈合理. 但如此一來就相當於我提出的, 比較嚴謹的說法是在某時某分或是某段時間內人潮數估計為XXX.

關於假設前提的成立與否,之前以某文章為例討論過,不重複.

No comments: