之前硬碟死掉,資料和檔案都沒救出來. 有些問題是MSN messenger中和朋友討論到的, 當時有轉成word檔, 不過隨著硬碟爛掉, 當然也屍骨無存. 現在我憑著印象回應那些討論, 也只能憑印象寫下本來打算交代但在前兩篇尚未交代的東西.草稿不見了, 因此用條列式來寫比較快, 請見諒.
-----------------
和第一篇相關的問題:Q: 一個問題是關於這個部落格的特性,這個部落格的內容包含了生活/學術研究/政治議題的評論,然而,如果換做另一個部落格,例如專門介紹美食與遊記,則流量分析的結果是否會是一致?
A: 這個問題簡單來說是, “這篇文章的推論也可以適用到屬性不同的部落格嗎?”
我從兩方面來回答. 第一, 到底是與同質性的部落格相連結增加流量的效果比較大還是與異質性的部落格相連結增加流量比較多? 這個可以參考我在該篇的連結之一: 流行的曲線, 不贅述.
第二, 結論的適用性(generalizability)跟樣本特性有關. 統計的重點之一在於抽樣, 抽出代表母體的樣本,然後從樣本推出結論再套回母體並宣稱該結論適用到整個母體. 另外, 當母體的成員愈多樣化, 統計結論就可以適用於較廣的範圍. 那麼問題的重點就變成, 這個統計方法的樣本是什麼? 母體是什麼?樣本數(sample size)又是多少?
是 “部落格”所以樣本數=1嗎? 如果這是你的答案,那麼很抱歉, 答錯了!
這個分析方法是時間序列, 因此樣本是時間單位(unit of time). 我衡量的是日流量, 因此樣本是 “日”, 而樣本數是18(從5/31到6/17). 也就是說, 如果關心結論適用性, 應該將問題改為: 在另一段時間內, 部落格的各類內容比例不變, 發文的頻率也雷同, 這個結論還是適用嗎? 如果結論適用, 且關心部落格內容多樣性的影響, 那麼可以繼續追問, 一段時間內, 部落格內容比例不同, 這個結論還適用嗎? 當我們問到內容比例不同時, 我們的樣本已經具有與原來樣本不同的特性了. 最後才能再問: 在同一段時間裡, 其他部落格各類內容比例也呈現類似的分布, 該結論適用否?
為什麼要從自身部落格的另一段時間問起最後再擴展到其他部落格某段時間的內容特質? 因為自己部落格某個時間點的流量的母體是自己部落格本身從開格至今的流量 ,是一個nested 的統計問題. 直接問到別人部落格的流量是否也可以據此估計嚴格講並非錯誤,只不過犯了邏輯上跳躍思考的毛病,而且跳了好幾步
和第二篇相關的問題:在第二篇的回應裡我提到為什麼只選擇劃出部分部落格? 先解釋一下箭頭的方向代表的意義. 圖中的ggsadventure(本站)-->lakatos1 代表在本站首頁提供連結到lakatos1. 接著來看看在我提供連結的17個部落格裡, 是哪些部落格雀屏中選?
公共事務論壇: lakatos1, lakatos2 (我方直接連結, 對方間接連結—以下會解釋), Karamazov(我提供單向連結), ironsnow(雙向連結),
生活日誌: gulgula
糕點美食: ibake
姑且把這些稱為直接連結, 還有所謂間接連結的, 也就是不符合上述條件, 但在本部落格的留言裡附有個人網站之連結. 此類網站有:
公共事務論壇:daytripper (我方間接連結, 對方直接連結)
家庭生活:Linda
生活日誌:Jajin
簡單而言, 選擇的標準有二: 1) 多樣性, 涵蓋各種特性的部落格, 2) 同類部落格(即 “公共事務論壇”)則涵蓋不同連結強度.
這就回到上述問題. 只不過, 時間序列的分析裡,樣本是時間單位; 網路結構的分析裡樣本數是部落格. 考量到樣本(與母體)成員之多樣性, 而盡可能選擇將不同主題的部落格加入分析裡. 也就是說, 其實我一開始就考慮到部落格特性的問題了,只不過在時間序列的分析裡, 我只能拿到自己部落格流量的資料, 因而無法比較部落格特性與內容多樣性的問題.
至於連結強度的不同, 我試了兩種方式. 方法一是採用二分法,而不論直接間接連結. 方法二是直接連結的強度設定為間接連結的兩倍. 不過兩種方式產生的結果相當接近, 顯示scale-free network的robust(不知道中文怎麼講??)的特性.
一般問題
流量來源是另一個有趣的問題. 我最感興趣的其實是那些從搜尋引擎而造訪本站的讀者, 如果成為長期訂戶, 到底訂閱的是當初搜尋的類別呢? 還是其他類別? 例如, 我注意到最近很多人是以 “茴香”為關鍵字而到本網站, 如果他因此成為本站的訂閱讀者,訂閱的是 “實驗廚房”一類而已? 還是其他?
我的推測是,如果新讀者因此成為實驗廚房的長期訂戶, 雖然決定訂閱前會花一段時間(推論與求證過程見第一篇), 他所花的時間應該會比因此訂閱本格不只一類甚至訂閱所有類別的讀者來得少. 反之,如果已是定期之常客, 每次閱覽頁數應該接近1或是接近每次更新的頁數, 那麼他每次所花瀏覽時間應該最少. 也就是說, 每次閱覽頁數可以當做一個proxy來推算出每讀者每次停留時間. 這個資料在google analytic 有提供, 可惜的是, MSN的部落格目前無法使用google analytic. 不過, 利用我自己在google的部落格做比對(這是為什麼我後來也在另一個部落格加入地圖追蹤訪客數, 即使已有既有的google analytic可用), 發現每次閱覽頁數的走勢的確與每次停留時間的走勢非常接近, 也就是說每次閱覽頁數的確可以當作proxy來衡量後者.
也許你要問, 這麼大費周章幹麻? 我的重點在於當實證資料(empirical data)不可得時,如何利用既有資料(secondary data)找到合理的proxy. 對於實證研究者,這可是個重要的議題呢!
最後回到流量計算. 這也是這系列部落格關心的主要問題. 有些朋友問了很好的問題,例如自己點算不算? Refresh算不算? 這些都是實證研究者蒐集資料時必須考慮進去的. 簡單的回答, 如果是以頁次計算流量則兩者皆會被計入(當然登入後再點不算, 我還曾經看過網路上教學,看要怎樣自己製造人氣而不被抓包的, 那種 “ 不正常”使用不在討論之內), 反之,如果是以IP計算流量, 那麼不管點多少次或是refresh多少次都只會被記為一次而不會影響真正流量. 在這種情形下, 以IP計算似乎是比較好的方式. 但是如果只以IP算就無法得知一個讀者到底讀了多少頁,停留多久了. 一言以蔽之, 每種計算方式都有其優缺點, 研究者要了解數據的意義, 而讀者更應該了解研究者數據的衡量方式與單位, 才不會被誤導. 另外就是,兩個計算方法的cut off time不同,一個是MN時間,另一個卻是台灣時間, 這當中十幾小時的時差當然也造成流量的不同.
公佈的數字是真(fact)是假(fiction)? 到底會不會騙人, 可不可騙人, 聰明的讀者自可判斷
------
部落格流量(1): fad or fashion?部落格流量(2): friend or foe ? 後記:我在第一篇就強調, 作為一個讀者,要了解數據是怎麼被衡量被計算的, 現在又回到這個結論. 花了那麼多篇幅來表達這麼簡單的原則, 我還真是個囉唆的人啊
我承認第三篇寫得有點意興闌珊,而且囉哩囉唆.主要是因為之前檔案不見, 加上托太久, 有些本來想寫的忘了或懶了(如果被點到,我會乖乖回答的啦). 如果各位有什麼意見,或有什麼問題是我沒回答到的,請踴躍發言.對內容有疑慮的, 也請不吝指教. 本來沒有料到這麼硬的網誌還有人看得下去, 甚至有許多意見. 各位與我互動, 讓我受惠不少. 我特別印象深刻的是, 為了控制可能的其他變因, 我提到有一度我把更新部落格時間鎖定在特定時間裡,以方便追蹤流量. 雖然控制其他變因是個很重要的觀念, 但是卻是在篇幅不算短的第一篇裡(其實每篇都很長啦,我知道)一個小小的橋段. 但是有讀者不但讀到,還提出來跟我討論. 我很感動有這麼用心的讀者, 因為你們的切磋, 我才能更進步.
曾經有人問到, 這和我的研究相關否? 沒有. 一點都不相關. 我也沒有修過時間序列或是網路分析的課. 只不過無聊(不是不忙,就是不想做正事)看了書或是文章,然後拿來練習這些技巧而已. 寫部落格對我而言本來就是自愚自娛而已, 但我盡量做到不愚他.
其實還有好幾種分析可以做. 例如我的連結裡每個連結各自有哪些連結, 都是異質多還是同質眾? 加上每個部落格的流量(像無名,痞客幫等都提供此公開資料)來看部落格流量可能也蠻有趣.. 還有就是因搜尋引擎而來的讀者閱讀那些網誌? 與其他來源的讀者閱讀特性相同嗎?等等. 不過因為需要每天去追蹤資料, 實在沒有時間, 所以就暫時先告一段落吧! (我兩個開放的部落格內容重疊很大, 我蠻好奇搜尋引擎的邏輯是什麼, 用相關鍵字, 為什麼不是兩個部落格都被顯示出來? )
最後想提的是, 我在標題做的 “手腳”. 其實第一篇一開始的標題是現在第三篇的, 因為我的初衷就是討論數據的真假與意義, 只不過分析出來的結果很有趣, 我才臨時改了標題. 第二篇的標題也是在跑了數據之後才下的. 只想傳達 “水可載舟亦可覆舟”,或說福禍相倚的網路結構.只不過英文太差, 不知道要怎樣翻譯 “水”那句. 最後是因為第一篇與第三篇的副標都是f開頭(不是罵人的那種f單字啦)的單字,心想亦敵抑友也算差強人意, 第二篇的標題才因此決定. 我好奇的是, 多少人對標題有特別留意呢?
2009/8/28:
客從何處來:
一十之間找不到, 不過其實這系列我還想測試一些想法.例如地理上的距離vs.文化上的距離vs.其他心理層面的距離,那個比較能夠預測訪客來源. 今天發現這篇, 就毫不考慮的加進連結了!