「今天我」裏看小圈子選舉

在開始講我想講的話題之前,我想問你:你是經過什麼途徑讀到這篇文章的呢?這問題看似無聊,但這正正就是本文的主旨。 最有可能的答案,是你的朋友在facebook將這篇文推送給你;另一個可能是,你有讚好星期日生活、明報即時新聞或陳電鋸的facebook專頁,於是這篇文出現在你的news feed,而你又對本文的主題1有興趣,所以點擊來看。再低的可能性,是你會瀏覽明報的網站,也會看點副刊的文章,於是乎看到這篇文。 也有可能是,你手上有一份實體版《明報星期日》生活,是你在公廁如廁時拾到的。本來你是在讀阿果的專欄,但卻在偶然機會下才發現到這篇文章。 其實你有沒有想過,以上多種讀到本文的途徑,絕大部分都是因為你或你的朋友根據自己的喜好,做過了一些選擇,這篇文才會出現在你眼前。而只有最後「想讀阿果卻偶然讀到陳電鋸」,才是真的隨緣(serendipity2)讀到。 以前的年代,隨緣接受消息和觀點,相對會較容易。例如在看電視新聞,可能你關注的只是體育新聞,但卻會偶然攝收了些本地新聞和國際新聞,大約都會知道外面的世界是怎麼樣。以前讀實體《明報》的世紀版,是整版的看,故此會讀到李立峯和梁啟智,也會讀到阮紀宏和

詳情

數據新聞﹕「專頁」推介 爆粗十大 2016網絡 九刻憤怒

令人悲喜交集的2016年過去。在過去一年,你有沒有為身邊的人和事爆過粗? 英國分析員Paul Stollery從各大網絡文章計算2016年文章出現英文f字頭粗口的次數。發現在2016年網上爆粗最多的一天,是11月9日。當天網民爆粗的次數是每天平均數的三倍,正是美國總統大選選出特朗普的一天。 廣東粗口博大精深,加上香港華洋匯聚的特質,若果採用香港社交媒體的數據,用同樣的研究方法研究香港在2016年爆粗最多的日子,找出香港人最需要情緒抒發的時刻,應該會相當精彩。 之前已介紹過香港大學新聞及傳媒研究中心的facebook研究計劃,無間斷收集共21,000多個香港facebook專頁的數據。筆者找尋2016年所有含有廣東話五大粗口(即「小狗懶擦鞋」,包含門字部寫法、尸字部寫法和最常見的諧音寫法)、仆街和f字頭英文粗口的所有帖文。 筆者發現, 2016年收集到的超過300萬帖文當中,當中有56,455含有以上粗口,總爆粗次數為104,060次,共116,513字。如果一個成年人平均每分鐘可閱讀350字計算,讀完所有粗口要5小時30分鐘。 所有粗口當中,最常見的頭五名分別是 「懶」(36,744)

詳情

數據新聞﹕假新聞3條人柱 活埋事實 大眾有責

年度媒體關鍵字,肯定非假新聞(fake news)莫屬。在此,本人要先定義好字眼,下文會便用假消息(disinformation)一詞而避用假新聞,因為假新聞本身不是新聞。今年美國大選,將假消息問題帶到桌上,最知名的假消息是廣為傳播的「薄餅門」(Pizzagate)。此假消息指希拉里和民主黨在華盛頓經營販賣兒童予戀童人士的薄餅店。單聽上去已覺得不可思議,多家傳媒甚至美國警方調查後證明此為毫無根據,但無奈消息在社交媒體廣為傳播,甚至在月初有槍手到涉事薄餅店開槍。為何假消息在今時今日社會會變成如此嚴重的問題?社交媒體 「精英」撒手後遺社交媒體盛行,一個點擊就可以將消息傳播給更多的人,固然是引致假消息氾濫的原因。但我認為更嚴重的問題並不在facebook這類社交媒體平台,而是在於在平台上的人。互聯網普及化,它已不再是早期由左傾自由主義精英所主導的媒介,任何教育程度、年齡、背景的人都可以上網。人性的黑暗面、教育的不足,從此在互聯網上表露無遺,甚至透過社交媒體變成放大鏡愈放愈大。為什麼假消息有市場?我們認為世界的理想狀態是,媒體具有公信力,他們就會有市場,觀眾就會愛看此媒體。相反,如果媒體不停報道假消息,毫無公信力可言,觀眾就會唾棄這種媒體。在達爾文式的汰弱留強之下,媒體為求獲得公眾的信賴,會一起力求精準,以免失去觀眾。但這是個不存在的理想狀態。以香港為例,香港公信力低下的報章和電子傳媒,有些是香港歷史最悠久的傳媒,死而不僵。傳播市場,其實並不是以這種理想的原則運作。驗證性偏見:按立場找「證據」不是所有人都有批判思考的訓練,就算有也不是所有人都能去挖掘證據,根據所有的證據去下結論。心理學有認知失調理論(cognitive dissonance),指出人在同時接受兩套相互排斥的思想時,會感到不舒服。而避免這種不舒服的感覺,我們最容易的處理手法是選擇性接觸(selective exposure),即放棄與本身立場相悖的消息來源,只偏聽立場相近的消息。更甚者,是驗證性偏見(confirmation bias),指我們只會聽立場相近的消息,去證明自己本身的立場正確。而實際上媒體賴以生存的,實在不是什麼公信力,而是去滿足人的這種弱點。誰能滿足這些偏見,反而更能獲得大眾的注意。上述的「薄餅門」,正正就是能夠迎合反對執政美國民主黨的立場,用以證明民主黨人背後作惡多端的結論,事情本身的真偽對分享這宗消息的人來說無關重要。香港的情况其實也並不好很多,甚至更差。舉一個例,肖友懷傳出回港、新移民綜援婦每月13,000元度日、新移民用政府資助買Gucci眼鏡等等,是內容農場每隔幾星期就會翻炒的題目。無論此類假消息已多次證實為假,也有將濫用綜緩人士硬塞為新移民的例子,但這些假消息能夠滿足社會上反新移民人士的驗證性偏見,以傳誦這些消息去證明自己本身暗藏於心底新移民是濫用香港福利的立場,所以總是會廣為流傳。平台干預:仲裁真相 利益行先假消息流傳猖獗,有人提出社交媒體平台有責任防止假消息,例如平台有責任管制,禁止或限制假消息流動。一直以來,我們認為社交媒體平台一如其名,僅為中立平台,讓人在上面自由發表意見。但事實上,學者Tarleton Gillespie指出,社交媒體平台的角色並不中立,它們暗地裏有進行挑選,消滅了一些意見。這現象他命名為「平台干預」(Platforms Intervene),並強調此類干預是按平台的利益出發。例如中國的新浪微博刪除政治敏感的內容,迎合中共管制言論,是防止公司被政治整頓利益受損。西方社交媒體平台同樣會干預,例如facebook會封禁與其「社群標準」(Community Standards)所不容的用戶;又或刪除濫用facebook的內容,如裸露相片。這些干預,縱使平台會用上美麗的詞藻,包裝成保護用戶,但其實只是懼怕小眾的異常行為嚇跑大眾,同樣會招至廣告利益受損。平台干預,代表平台有權導正了觀眾所應要看的內容。若果我們支持平台應禁制假消息流動,代表平台甚至代我們決定哪些消息是真哪些消息是假。如果我們給予平台如此的權力,這無疑是一面雙面刃。若果平台真的能準備判斷消息的真確性,管制假消息的確可以減低假消息的影響;但平台是否真的具有分辦消息真假的能力?如果平台判定真假的時都有驗證性偏見,將不合自己本來立場的內容都判為假,那豈不是內容審查?正如之前所言,平台干預是從平台的利益出發,而提出要管制假消息的都只是精英小眾,平台大可不用理會。從facebook應對禁制假消息的態度可見,他們其實並不太想做。執筆之時見《紐約時報》報道,facebook未來應對假消息的方法,包括與事實核查(fact checking)的專業團體和傳媒合作,將判斷和管制的責任外判出去,這或許是更合理的處理手法。媒體素養:新聞核心 查證事實更長遠的處理手法,其實是訓練包括新聞從業員在內的大眾媒體素養(Media Literacy)。簡而言之,媒體素養就是媒體的正確使用方法,包括如何分析和理解媒體的資訊,以及如何正確的產生媒體信心?。我部門的同事鍛治本正人博士和Anne Kruger小姐是這方面的專家,我也是從他們的網上課程(MOOC)學習媒體素養。媒體素養第一個要討論的問題,就是何謂新聞。根據新聞學界最常用的手冊《新聞的十大原則:新聞從業者和公眾的期待》,其定義新聞為—說到尾,新聞與娛樂、政治宣傳、小說或藝術之別,在於再三查證。新聞本身應專注於就是將事情準確地描述。簡而言之,新聞的重點在於查證,而並非僅描述「事實」。試舉兩例,例如報章那些權威人士表示誰人參選特首獲紅燈、綠燈,由於消息來源不透明,也無法查證為事實,故此並不應該定義為新聞。此外,不少親建制媒體愛報道網上瘋傳的消息和圖片,最經典的例子是黃之鋒曾獲美國海軍陸戰隊教授格鬥術。此消息來源,正是所謂的網上瘋傳消息。縱使此消息在網上瘋傳這件事本身是事實,但傳媒在報道時將消息當成是真的報道,本身就有問題。傳媒在報道時並沒有經過記者再三查證,沒有問過黃之鋒本人是否有接受過訓練,也沒有向美方求證事件是否屬實,根據以上的定義,此消息並不可以稱為新聞,分類為政治宣傳(Propaganda )會比較合適。媒體素養,很大的一環在於事實核查。以前這個責任在於新聞從業員,但現時傳媒生態改變了,大眾免於被騙,也要承擔這個責任。我們要避免不加思索就將消息傳播,記着愈嚴重的指控,需要愈重大的證據支持。有這一種的覺悟,假消息自會被踢爆。順帶一提,台灣在這一方走得比我們前。例如民間團體零時政府(g0v)因應當地的傳媒亂象,開發出「新聞小幫手」 軟件,監察問題新聞。香港本土也有獨立的事實核查團體,如佔領運動當時的hkverified和現在仍有運作的求驗傳媒。但對比狂發假消息的內容農場和問題媒體所獲得的廣大關注,這些事實核查團體的努力可謂杯水車薪。編輯﹕何敏慧fb﹕http://www.facebook.com/SundayMingpao原文載於《明報》星期日生活(2016年12月18日) 傳媒 新聞 後真相

詳情

數據新聞﹕如何勝出選戰——2016年立法會選舉舞弊模擬器

政治是沒有如果,但數據卻可以模擬各種情境的結果。立法會選舉緊張過後,今次數據新聞有個數學遊戲,輕鬆一下。從這個遊戲,可以讓公眾理解香港選舉是怎樣運作,也可以揭示各候選人到底是怎樣勝出選舉。遊戲是這樣的:假設你是某秘密強力部門的主管,專攻選舉舞弊,目的是要防止個別候選人當選,而你只有一招可用,就是臨時關閉一部分票站令選民無法投票,方法可能是票站大停電,或故意安排極少人手,引致票站大排長龍,令選民放棄投票等等。這個強力部門同時卻要扮作維持選舉公正,不能隨便關閉大量票站,要以關閉最少票站而又能引致某候選人落馬為大原則。到底應該要怎樣做才可以達成這個目標?這個遊戲為什麼難玩,是因為關閉哪些票站來攻陷某候選人,取決於以下因素:1. 候選人本身的民望2. 候選人的選票是否只集中在某幾個票站3. 其他候選人的民望4. 選區的競爭是否激烈5. 票源有否跟其他候選人重疊如果有候選人的支持度本身高企,而票源是分散於每個票站,有可能只關閉至獨剩一個票站,也無法阻止該候選人當選,代表其整體支持度相對堅實,或許對付這個候選人的方法就只有DQ(取消資格) 。也有些候選人只消關一兩站已可攻陷,代表很有可能是在制度幫助之下僥倖當選。根據政府公布的立法會選舉票站數據,我編寫了電腦程式模擬了以上遊戲。要找出這個遊戲的最佳答案,是經典的運籌學問題,可以用不同的演算法去計算出來,最易的方法當然暴力演算法(Bruteforce),即是試所有的票站組合,再找出那些組合可令候選人落選,再找出票站數量最少的。說出來很易,但現實問題是這種演算法需時極長,也許大家在閱讀這篇文章時,都仍未計完。我今次運用了簡單的貪婪演算法(Greedy Algorithm)運算,取得答案。圖一列出今屆各當選者所需關閉票站數量。當中有葉劉淑儀、劉小麗、朱凱廸和楊岳橋是無法攻陷的。而所有參選人當中,容海恩是異常地容易攻陷,只消關閉 2 個票站已可阻礙她當選。必勝之道:瘋狂的配票機器以上的遊戲發現了不少無法攻陷的候選人,為什麼他們會無法攻陷?而為什麼有些候選人如容海恩卻一攻即破?更重要的問題是,到底候選人是如何勝出選戰?我們要明白一點,就是選票的競爭是零和遊戲,一張選票投了給甲,就代表不投乙;但候選人之間誰勝誰負,卻不是零和遊戲,甲勝出不代表乙就一定會輸。只要策略上兩個候選人不爭票,各自經營自己的票倉,就很有可能一齊贏。相反,如果兩個候選人互相在同一批選區「界票」,就很有可能兩敗收場。(圖二至圖六)五個三角圖,就是各候選人之間在各票站得票率的相關矩陣(correlation matrix)。格的顏色代表一對候選人之間得票相關度,愈藍代表愈成正比,愈紅代表愈成反比。建制派、「西環契仔女」 互不界票傳統智慧會認為政治立場相左的候選人,得票率應該成反比。立場相近的,得票率卻成正比。如此情况,在泛民陣營的確如此。但圖中可以見到不少奇異現象,是違反此一想法的。就是立場相近的傳統建制和「西環契仔女」之間,是不會互相界票的,紀律極佳。同一政黨派兩張名單出選,如新東「葛佩帆和陳克勤」和新西「梁志祥和陳恒鑌」,互不界票。但不同政黨同陣營也有如此關係,如香港島的「郭偉強和張國鈞」和九龍西的「蔣麗芸和梁美芬」,建制陣營能夠在票站層次上完美配票,所需的人力物力可想而知。如此情况,也可以用另一方法展示出來。流行病學有一個名為「標準化」(standardization)的概念,可用於分析選票。標準化的操作,可以用一個例子說明。例如在港島選區,郭偉強的總得票是12.2%。可以預料,他在各個票站的得票率,都應該在12.2%附近。例如在鰂魚涌體育館,郭偉強得票是13.4%。如果將郭在鰂魚涌體育館的得票率除以整體得票率,是1.10,這個數值可稱為RR(Rate Ratio )。正常的情况下,這個RR值應該是在1附近。這個RR可以用來偵查得票異常地高的情况。例如郭偉強在渣華道體育館得票率是35.2%,轉換成RR就是2.88,代表那個選區異常地愛投他。這也難怪,因為郭正是該選區(C18)的區議員。同站得票:陳克勤異常高 葛珮帆異常低將全港有任何議員RR值高於2的票站都列出來的話,見到可達如此異常優勢的,絕大部分都是建制派中人。而奇怪的是,這些選區RR值最低的,同樣也多是建制派中人,「打龍通」的可能性極高。在新界東,這些優勢更是嚇人,例如陳克勤在沙頭角中心小學的RR值高到6.8,冠絕全港。同一選區葛珮帆的RR卻可異常地壓縮至0.08。在此,我必須要再提醒大家,RR的正常值應是1。選舉舞弊模擬遊戲無法攻破的候選人,除葉劉淑儀之外,都沒有這些RR值異常高的據點,他們的支持度是分散的,而不是集中的。這種建制派高度集中支持高的玩法,令他們整體支持度高,也無法成為無法攻陷的候選人。而新民黨的容海恩,據說新民黨和公民力量在新界東據點眾多,但卻沒有如其他建制派那樣,有這些支持度高度集中的據點,同時也沒有分散性的高支持度,這也是為何她只消關閉兩站,就可以KO。她的勝選,僥倖的成分相當之高。■網上互動地圖地圖顯示候選人得票異常高(RR值高於2)的票站,紫點和黃點皆為民建聯候選人,可見他們的「據點」分明,沒有混雜。讀者可在網上互動地圖,查詢每個票站的詳細資料:tinyurl.com/legco2016-map文﹕陳電鋸 香港大學新聞及傳媒研究中心圖﹕陳電鋸、明報製圖、資料圖片編輯﹕屈曉彤fb﹕http://www.facebook.com/SundayMingpao原文載於《明報》星期日生活(2016年9月12日) 2016立法會選舉 大數據

詳情

高登的核心與外圍 香港網絡生態系列之二

互聯網論壇是互聯網早期的網上社交平台,同期的科技還有 usenet(新聞組)、經telnet連接的BBS(電子布告版)和IRC等等。當互聯網社交工具都全被社交媒體蠶食,以上各種互聯網科技日漸式微之時,世界各地互聯網論壇仍然發展健壯。香港的情况亦一樣,互聯網論壇仍然火紅。香港仍有四大論壇,分別是香港討論區、Uwants、親子王國和高登。今次研究的高登討論區不是香港最多人瀏覽的論壇,但如果談到對香港次文化影響最深的,就一定是高登。高登已經建立起了他們的文化系統,無時無刻影響主流文化。舉個例,不少高登術語如「硬膠」、「走數」和「食花生」,已慢慢成為香港的日常生活俚語。在主流認知的高登,有不同的面貌,例如有人說高登逢紅必反(反對主流受歡迎的人物和事物)、愛好起底食花生、多毒男狂踩港女,甚至有專欄作家說過高登是最支持普選的論壇云云。高登被談起,不會是談個別的會員,總是當成一個個體去談論。可是,這個常常被當成一個個體去討論的群體,偏偏卻沒有人認真的去探究這個群體的特性。我懷疑,主流論述中的高登只是瞎子摸象,以偏蓋全。為了客觀地理解高登這個群體,筆者編寫了「網絡爬蟲」收集高登最新的討論串。每條收集回來的討論串,會在發文時間六十天之後再次探訪,收集該討論串的所有回覆帖文。今次以去年七月一日至九月十五日兩個半月內共118,087個討論串、710萬個帖文數據作分析。筆者想從數據裏頭找出高登的「核心」與「外圍」。帕雷托原理(Pareto Principle)指出,大多數情况之下80%的結果取決於20%的原因,那屬於少數而又產生大量結果的原因,在此研究中定義為「核心」。根據此原則,筆者想找出以下的「核心」:1. 哪些主題的帖文吸引最多的回覆?2. 什麼用戶最常帖文?帖文回覆數量長尾分佈在討論什麼是高登最多回覆的主題之前,要先介紹一下高登的一些特色。在高登開一個新討論串,有可能會有其他用戶回覆,但在正常情况之下,高登只容許約一千個回覆,超過後會禁止回覆,高登術語稱為「1001鎖Post」。雖然名稱叫「1001鎖Post」,但其實很多時是可以發表略多於1001個回覆貼文,才正式「鎖Post」。在收集回來的討論串當中,只有 3654 條達到「鎖Post」,佔整體僅3%。但這3%的討論串,共引來336萬帖文回覆,即佔整體超過 50% 。如果將每個討論串回覆數量分布畫出來,會見到自然的長尾分佈( long-tailed distribution)。有趣的是,在長尾一端有個異常尖位。那個尖位是1002個回覆的討論串數量。從圖一可見,高登絕大部分的討論串都只有極小量回覆。圖中那個不自然的尖位,代表當某一討論串快要達到鎖post時,會吸引用戶去回覆,故意引致「鎖Post」。在討論區的術語,這叫做「搶千」,一般人會叫做「趁墟」。政治非吸引回覆核心主題到底在高登,哪些主題較為受用戶歡迎呢?每條討論串都有主題,也有每個討論串的回覆數量。筆者用拆字(word segmentation )的方法在主題提取關鍵字,再用特徵萃取法(feature selection)找出哪些主題關鍵字與討論串回覆數量有較強正面關係。圖二的文字雲列出與回覆數有較強關係的主題關鍵字,字體愈大及顏色愈深代表關係愈強。從圖中所見,與回覆數有較強關係的關鍵字,主要都是與電子遊戲有關(圖中的i和a,分別代表iOS和Android),足球(博彩)、股票投資、韓國藝人等等關鍵字,亦能在文字雲中見到。此外,圖二中的「93」和「90」,是高登常見的「九十後」話題討論串。當然,高登肯定是有人討論政治話題,但從此分析所見,政治並不是高登能吸引會員回覆的核心話題。20%用戶 佔發文量90%既然可以分析主題,當然也能分析用戶。收集回來的710萬個帖文,分別來自67,394名用戶。平均來說,每名用戶在研究期間的兩個半月發文有106.5篇,即一天最少發一帖。但事實上用戶發文的數量極不平均,亦屬長尾分布,代表絕大部分用戶發文的數量不多,但有極小量的用戶卻大量發文。最高發文量的用戶叫做「戇拎★勁勁」,在兩個半月內共發17,696個帖文(也即是平均每小時發文9.5個!),比第二位的「車頭大燈」的15,636個帖文多出2000個。這些異常活躍的用戶主導高登的發文總量。選取了發文量最高20%的用戶(即在兩個半月內發了73個帖文以上的用戶),他們的總發文量是641萬,即佔九成,比上述的帕雷托原理的「80/20」情况更極端。這個極端情况可於上述達到「鎖Post」的3654條討論串看到一二。我計算這批討論串所涉及的用戶數量。我發現有兩個討論串只涉及四個用戶,代表四個人不停回覆直至「鎖Post 」。「鎖Post」討論串所涉用戶眾數(mode)只是 37 個用戶,代表「鎖Post」的討論,只屬少數用戶的互相討論,並不能引起廣泛討論。當然,也有一些討論串涉及極大量的用戶,而這些討論串可稱為flamebait。例如涉及最多用戶回覆的討論串,內有一句「見post不回者 成世冇運行」,亦因為有此一句,引起大量用戶排山倒海的去罵。另一種是挑戰類,如聲稱「香港今晚贏到中國,請留名者食半島自助餐」,會引來大量人回覆「留名」,或「留名等走數」。這些涉及大量用戶的討論串都沒有太多內容,用高登的術語就是「好膠」。相關帖文:http://forum7.hkgolden.com/view.aspx?type=JT&message=5971393http://forum7.hkgolden.com/view.aspx?type=JT&message=5998956http://forum7.hkgolden.com/view.aspx?type=JT&message=5977879http://forum7.hkgolden.com/view.aspx?type=JT&message=6024088■結論極小部分高登人 塑造高登形象本次研究收集了高登討論區的大量討論串分析,看看高登整體的網絡生態為何。重量不論質、純用數據歸納,高登用戶是一群年輕、對流行文化極感興趣的人組成,而且他們跟大部分香港人一樣都有「趁墟」的特性。高登的大量帖文是只由一小撮極為活躍的用戶發出,可能就是這些人的行為習性最能影響公眾對高登的觀感。致謝:本研究由傅景華博士指導,獲香港特區政府中策組公共政策研究資助計劃撥款資助;筆者部分研究助學金由港大專業進修學院贊助。■下回預告本土派和親北京陣營是如何搶攻 Facebook 的言論空間的呢?原文載於《明報》星期日生活(2016年5月29日)圖片為高登討論區截圖 互聯網 網絡文化 高登

詳情

數據新聞﹕梁天琦票從何來?

梁天琦在新界東補選得票達六萬六千多,對政壇的影響可謂立竿見影。傳統泛民陣營甚至本土陣營自己都即時宣布轉換九月立法會選舉的策略;建制派及其宣傳機器卻試圖淡化,不停將焦點拉回勝出者身上,並將梁天琦得票較傳統泛民及建制為低,詮釋為「市民選擇理性的批判」云云。與其沉迷於無謂的自我安慰,不如正視現實,就是梁天琦的激進本土路線是獲一定數量市民支持。今年九月立法會選舉會按比例代表制分配議席,就算激進本土派得票如何比傳統泛民及建制為低、市民如何選擇「理性的批判」,他們都有機會晉身議會。在兩周前仍被部分傳媒稱為「暴徒」的候選人梁天琦,到底他的票從何而來?補選數據對未來的選舉又有何啟示?本研究試圖從梁天琦得票數據中找出端倪,給出最客觀的結論。地理分析圖A(圖﹕Map tiles by Stamen Design, under CC BY 3.0. Data by OpenStreetMap, under ODbL.)首先可以從梁天琦各選區得票率地圖找出特點。地圖上藍色深淺度代表梁天琦的得票率,愈深色代表該選區得票率愈高(見圖A)。從圖中所見,梁在北區市中心和大埔市中心得票率較高。至於沙田區,大圍及馬鞍山區對梁的支持,相對較城門河流域的沙田市中心為高。但總的來說梁在沙田的成績不算很好,亦是唯一一區並無選區能突破五分一選票。在西貢區,梁只在將軍澳區尚德邨附近選區成績較佳,其他選區的支持度偏低。至於為何梁天琦在西貢和沙田的得票不高,從政治上是可以推論,例如沙田第一城及西貢環保區是建制派老巢,打不入也是正常。除了以上政治推論之外,我認為是可以用以下角度去分析。人口特徵分析圖B(圖﹕黃照達)使用上次已經介紹過的機器學習方式(見本刊 2月14日同系列文章),可以根據選區2011 年人口普查人口特徵(包括收入、長者人口、專上教育人口和操普通話及中國方言人口)自動為梁天琦在不同選區的支持度分組,畫成決策樹(圖B)。從決策樹可見,梁天琦的支持度只取決於專上教育人口、收入及長者人口。電腦分析指出專上教育人口高、收入高及長者人口高選區可影響梁天琦的得票。在專上教育人口低於三成及月入三萬人口低於3%的選區,梁天琦的支持度最高。梁天琦得票率最高五名選區,分別是尚德、華明、富亨、太和和寶雅,除寶雅為居屋屋苑,其他都是公共屋邨。而梁天琦得票率倒數五名選區,分別是駿馬、環保、火炭、白沙灣和西貢北,都是較為富庶的區域。票源重疊分析圖C這一點坊間已有不少討論,就連梁國雄議員自己都說了,梁天琦搶佔了「激進泛民」的票源。我想用純數據的方式證明這一點,於是利用2012年立法會選舉各名單在各選區的得票率與梁天琦的得票數據計算Kendall順位相關系數(Kendall tau rank correlation coefficient),找出誰人的票源與梁天琦最相近及最不相近。圖C中的分散圖我將X軸和Y軸轉成對數尺度(Log Scale),可更易見到關係。圖中上列為最相近頭五位,下列是最不相近頭五位。坊間的分析大抵正確,就是梁天琦可以在所謂「激進泛民」梁國雄、陳志全和范國威支持度較高的區域同樣獲得好成績。而有趣的是,工聯會葉偉明和民建聯陳克勤的得票率都跟梁天琦也呈正向相關。這並不代表工聯會或民建聯「過票」給梁天琦,原因是「相關不蘊涵因果」原則。更有可能的解釋是工聯會及民建聯部分議員主打某一人口社群,而此社群又剛好與梁天琦重疊而已。至於呈負相關的,也是可以預期的傳統泛民及主打中產的建制派。結論從以上三套分析,可以大概理解梁天琦的六萬六選票何來。三套分析中我覺得最能左右選情的是人口特徵,從分析所見似乎富裕階級難以接納梁天琦的激進本土路線。與傳統泛民不同,本土派不喜歡講「入屋論」,他們認為只需掌握關鍵少數的支持自己就足夠,無需要面面俱圓,也不需要感召最多的群眾支持自己。最少今次的選舉反映,梁天琦可以獲低下被壓迫階層的關鍵社群支持。而這批受壓一群,亦是現存的「激進泛民」及部分建制派的支持者,九月票源重疊之下可能引發的後果實在難以預料。文﹕陳電鋸@香港大學新聞及傳媒研究中心圖﹕Map tiles by Stamen Design, under CC BY 3.0. Data by OpenStreetMap, under ODbL.編輯﹕屈曉彤原文載於2016年3月6日《明報》星期日生活 立法會選舉

詳情

選舉結果 發現斧鑿——科學方法審計區會選舉

各界都在分析選舉結果,但分析都是為何誰人會贏之類。我想用另一個角度分析選舉,看看區議會選舉整體的本質有否轉變。政治科學界發明了2BL測試方法,可以透視出選舉特徵:假設有8個候選人,各人得票結果如下:1347, 378, 100, 20, 69, 1120, 1039, 2190之後抽取所有得票結果的第二位數(紅字),即1347, 378, 100, 20, 69, 1120, 1039, 2190再分析這些第二位數的頻率分佈,從此可以看出選舉的一些現像。上例可見,0出現了三次、1出現了兩次、3、7和9各出現了一次。單單看此頻率分佈,已可以看出不少現象。如此分析法看似極為兒戲,但其實很有科學根據。根據本福特定律(Benford’s Law),任何自然產生而且可自然增減的數字序列的第二位數,0至9的頻率分佈,理論上是接近平均分佈(uniform distribution),但呈輕微對數分佈(logarithmic distribution)的傾向。即是各數目的出現機率約為10%,但0的機率(12%或0.12)會稍稍高於9(8.5%或0.085)(見右圖)。根據此分佈,如果我們計算第二位數平均值,理論值為4.187。如果數列第二位數平均值愈偏離此數代表愈不自然。根據此定律,我們可以偵查出數字序列有否經過人工斧鑿。舉一個例,我抽取了以下兩組數據計算第二位數的平均值,分別是美國3142個縣的人口和香港412個區議會選區的人口,得出美國縣人口第二位數平均值是4.156,與理論值4.187的絕對差(absolute difference)僅為0.031;香港的區議會人口第二位數平均值卻是4.619,與理論值差0.463,差距巨大得很。原因是美國各縣的人口可自然增減,劃界時沒有限制人口數量。可是香港的區議會選區是根據人口數量劃界,試圖限制每個選區人口約為萬七人。由此例可見,如果數列經過人工處理變得不自然,根據本福特定律是可以偵測出來。 廣泛用於會計 政治會計界早已廣泛使用這個定律去審計會計數字有否造假,政治科學家也根據本福特定律設計2BL測試,用來測試選舉有否舞弊,就是因為人為修改選舉結果會引致選舉結果不自然,得票第二位數分佈會違反本福特定律。之前的伊朗和俄羅斯選舉都曾有人用2BL測試偵測出選舉極有可能舞弊。除了選舉舞弊的情况會影響2BL的結果,其他人為操控亦可引致選舉結果偏離本福特定律。 密歇根大學政治科學系教授Walter Mebane發現,「傑利蠑螈」劃界方式 (Gerrymandering ,即政府根據某方選舉利益不公正地劃分選區) 、威迫利誘選民投票給個別候選人、種票等等人為拉高部分候選人得票的行為,也會引致候選人得票的第二位數分佈變得不自然,會在2BL測試結果反映出來。 愈來愈不似自然選舉我抽取了1999年、2003年、2007年、2011年和今年2015年的區議會選舉點票結果進行2BL測試,一如所料,出現有趣的結果(見右圖)。圖中所見是每候選人得票第二位數的平均值,虛線為理論值4.187。如果選舉沒經人為操控,理論上各屆數字是應該在虛線上下隨機跳動,並且與理論值的距離不應太遠。但我們從圖中所見數值卻是愈來愈大。如果計算與理論平均值的絕對差(即圖中點與虛線的垂直距離),可見2015年是最高的,差距擴大到0.169。這張圖反映的現實是,香港區議會的選舉結果愈來愈不似自然選舉,人為斧鑿的痕迹愈來愈明顯。而事實上數字由2011年開始就愈來愈偏離理論值,2015年只是繼續其升幅。翻查新聞,或者可以找出為何2011年之後的區議會選舉結果愈來愈可疑。2011年區議會選舉首次發現香港出現大規模種票,甚至有選區因此而重選。2014年選管會曾就今屆選舉重新劃界,有在任區議員認為劃界具有針對性。今屆2015年選舉種票疑雲未解,選舉當天有傳媒發現「掌心雷」、老人院選票等等事件,在在都是人工操控選舉的行為。正當進行這些偷雞摸狗行為的人以為可以隻手遮天,但其實他們的行為會在選舉結果遺留下隱藏的印記,只消以科學方法嗅探,他們就會無所循形。文:陳電鋸(香港大學新聞及傳媒研究中心)編輯:曾祥泰fb﹕http://www.facebook.com/SundayMingpao原文載於明報星期日生活(2015年11月29日)

詳情

數據新聞:當高等院校成為了快活谷 ——大學排名之應用與誤用

當香港大學處於風眼之中,任何風吹草動皆會引起各界注視。三間國際性的大學排名機構 Quacquarelli Symonds (QS) 、《泰晤士高等教育》(THE) 和《美國新聞與世界報道》(USNEWS),由九月起分別公布全球大學最新的排名榜。對比去年,香港大學在三個排名都同樣下跌,事件引起傳媒關注。在校園裏,或至少在我們接觸的圈子裏,很少人會對這些排名太在意,反觀傳媒總愛用跑馬仔方式(horse racing frame)來煞有介事報道。究竟大學排名升降真的能反映學術水平變化嗎?香港大學的學術水平真的在佔領年間倒退嗎?本文目的是綜合分析大學排名結果,另外也想分析本港報章在報道大學排名時所採用的新聞角度。圖一排名下降:真是學術水平下降嗎?首先,本研究集合所有在網上公布的全球大學排名的公開數據,並抽出香港各大學在2014年和2015年的評分及排名。所有的大學評分方法,主要是以一籃子的數據,如論文引用數據、師資、學生出路甚至聲望等等,集結成綜合評分,再根據綜合評分高低作大學排名。結果,我們找到九個大學評分機構當中包括香港各大學的數據,名單如下:‧Quacquarelli Symonds World UniversityRanking(QS)‧《泰晤士高等教育》World University Ranking (THE)‧《美國新聞與世界報道》Best Global University(USNEWS)‧Center For World University Rankings(CWUR,沙特阿拉伯機構)‧Round University Ranking(ROUND,俄羅斯機構)‧CWTS Leiden Ranking(Leiden,荷蘭萊頓大學)‧Academic Ranking of World Universities(ARWU,上海交通大學)‧University Ranking By Academic Performance(URAP,土耳其中東理工大學)‧NTU Ranking(NTU,國立台灣大學)至執筆日止, QS、THE、USNEWS、CWUR、ROUND、Leiden和ARWU都有更新,NTU於每年雙十公布,URAP未有更新。ARWU網頁並無刊登香港各大學的詳細評分和排名,無法分析。最後分析只包括首六個機構的排名和評分在 2014 和 2015 年之間的變化,見(圖一)。港大、中大、科大:平均評分升 排名降(圖一)所見,具完整數據的港大、科大和中大的評分和排名,升跌並非一致。 THE的三所大學評分都上升,但排名卻紛紛下降。中大在各大排名都下降唯獨是在USNEWS上升,同樣的情况也發生在港大的Leiden排名。唯一各評級機構無論在排名和評分方面都認為是冒升當中的,只有理大。圖二有機構改評分機制有機構增加院校數目必須注意的是, QS已表明他們在今年改變了評分機制,會削弱醫學院和理學院出版文章的引文比重,加強工程、社會科學等等其他部門出版文章的引文比重,令有醫學院的港大和中大優勢減低。而THE 和USNEWS也增加了調查院校的數目,基數不同令排名根本無法直接比較。本研究的第一個啟示是:評級的方法是會嚴重影響大學評分及排名結果,單看一個機構公布決定大學的成績,其實並不可靠,社會科學稱之為可信度(reliability)不足,但這一點大眾在詮釋結果時往往忽略。(圖二)再展示六間排名機構港大、科大和中大的平均評分和排名數據的升跌情况。三所大學的評分平均都有上升,但平均排名卻弔詭地在下滑!若假設評分和排名機制轉變對評分影響不大,如某一大學的評分上升,但排名下降,就代表是其他大學冒升速度快過該大學,被追過頭了。跨年排名跌 不代表學術水平下降本研究的第二個啟示是:跨年比較某大學的全球排名下跌,不一定代表學術水平下降,可能只是該大學評分的升幅不及其他大學,甚至是因為排名方法轉變影響所致。所以排名下跌就代表學術水平下降的說法,其實並不完全站得住腳。如果覺得難以理解,可以作以下思想實驗:你的薪金是一萬元,同事瑪莉的薪金是九千元,另一位同事約翰薪金六萬。現在的薪金排名是(1)約翰 (2)你 (3)瑪莉。老闆見你和瑪莉工作努力,分別加薪。你加兩千,瑪莉加三千零一元。約翰因為工作懶散,被減薪一萬。現在你的薪金是一萬二千,瑪莉是一萬二千零一元,約翰五萬。同時老闆決定用薪金三萬聘請新人蘇珊。現在的薪金排名是(1)約翰 (2)蘇珊 (3)瑪莉 (4)你。你的薪金排名由第二位倒退到第四位排包尾,約翰卻穩佔第一。薪金排名中只有你倒退,但偷懶的到底是你還是約翰?如果有人執著你的薪金排名下降一點,批評是你工作懶散所招致,這樣對你公道嗎?傳媒取態:香港大學的罪與罰?本研究的第二部分為定量內容分析(Quantitative Content Analysis),研究本港所有報章在報道QS、THE和USNEWS大學排名時的新聞框架(news frame)。新聞框架是指媒體在報道事件時的取態,就算是建基於同樣的事實,寫出來的論點和筆法都可以很不一樣,就像為新聞設了個框框一樣,令讀者看到框內的東西,卻看不見框外。受眾閱讀不同框架寫的新聞,對事實的認知或會有所影響。從慧科新聞數據庫中,我們找來47篇香港報章文章報道以上三個評級的消息,陳電鋸仔細閱讀每一篇新聞,並回答以下的問題(由於問題都屬顯明的提問,所以並無計算編碼員間信度):‧有否報道香港大學之外香港其他大學的情况?‧是否只報道排名升降而沒有報道評分升降?‧有否向評級機構查詢?‧有否向第三方人士(即評級機構及校方以外)查詢排名升降原因?‧有否指出香港大學「政治化」令教職員疏於研究和教學引致排名下降?‧在報道時,有否表明該評分或排名方法曾有改變會影響結果?有報章特別注視排名結果,其中五份報章#「特別注視」大學排名,分別都有五篇新聞提及香港各大學的排名。在報道中,有9%只針對港大評級的情况,無提及香港其他大學。超過75%的報道純粹根據大學排名升降報道,而沒有報告評分升降。同時,只有32%的報道曾有向有關機構查詢,其中有關USNEWS的報道更僅有《明報》表示曾聯絡相關機構,但未獲回覆。只有23%報道表示評分或排名機制有改動會影響比較,66%的報道有詢問第三方意見。有36%的報道指出因香港大學的「政治化」令教職員疏於研究和教學引致排名下降,而曾作這「政治化」理解的,就只有前述那五份「特別注視」大學排名的報章。(見圖三)圖三傳媒報道時查詢有關機構有助減誤導如報道時有向排名機構查詢,有73%會同時報道評分或排名機制曾作改動會影響結果,相比沒有向排名機構查詢的報道完全沒有(0%)表示會影響結果,分別顯著(*p由此可見,傳媒在報道大學排名時向排名機構查詢有助減少誤導,但引用第三方意見評論大學排名時,容易產生推銷某一政治議題的效果。值得一記在此,某報引述某評論員解釋科大在QS全球排名上升,其理據令人忍俊不禁:「『佔中』三個主要發起人並無一人來自科大。」註:#《東方日報》、《太陽報》、《文匯報》、《大公報》、《星島日報》*p數值愈小,代表兩者相差愈大結語我們並非在為香港大學說項,而是想借此作個傳媒資訊素養(Media and Information Literacy)的案例。參閱三大學排名機構評級的設計原意,是用作比較同一年內不同大學的表現,而並非設計作比較同一大學在不同時間的變化。傳媒以兩年大學排名來比較同一所大學學術水平升降,有超出原先評審設計的應用範圍之嫌。我們要再三強調,比較跨年大學排名來衡量院校的學術水平進步與否,容易出現誤導,其中一個原因是評分及排名方式,每年都有轉變,原則上沒有跨年的可比性。部分傳媒亦喜歡以大學跨年排名的上落,而非大學評分的升跌,去推銷某政治議題。某些第三方人士,包括有名有姓的大學學者在內,無視大學排名跨年沒有可比性的事實,跟着政治議題的風向,隨便對大學的學術水平妄加判斷,實在令人扼腕。大學排名也好、評分也好,就像近日多人談論的「影響因子」,用來參考就好,量化的「學術水平」,同時要配合質性的同儕評審。高教界競爭激烈,大學同工都拚命爭取學術成就,不進則退的道理大家都懂。根據大學排名去指控某大學學術水平倒退之際,又有誰關注香港高等教育經費和培訓研究人才的困難,怎樣才可令香港整體的學術水平進步?「外人看熱鬧,內人看門道」,或許因為將大學當成賽馬會比較刺激吧。文:陳電鋸、傅景華(香港大學新聞及傳媒研究中心)文章為作者觀點,不代表《明報》立場,原文刊於2015年10月11日《明報》星期日生活 高等教育 港大 中大

詳情

不應作紀念的928

時近九月尾,傳媒找來支持和反對佔領行動的知名人士訪問,紀念特輯無日無之。由於佔領行動在鎂光燈之下的領頭又出來說話,網上又掀起「鞭屍」,興師問罪,追究運動失敗的責任。運動的失敗,除了傷員眾多卻沒有為民主帶來寸進,最令我覺得失敗的反而是「後政改」的社會呆滯氣氛,爭取普選的呼聲陷入谷底。公眾人物學了「講了當做了」的「見報主義」,將重啟政改的承諾忘記得一乾二淨。我懼怕928會像大家最近見到的「紀念中國人民抗日戰爭勝利70周年」,變成一段可以任由各方改寫消費的歷史,要不用來推銷勝利者的政治理念,要不就是行禮如儀紀念又紀念再慢慢被遺忘。我想提出一個大膽的想法:除非你認為事情已經作出個了斷,928根本不值得紀念,我覺得事情是要延續下去的。當政權也因應雨傘革命而變更管治方法,到底我們還應不應「正常生活」,繼續令香港「維持現狀」這個巨輪繼續運轉?你消極不變,任由政權擺佈的就是你。切實執行 改變現狀若然你真的想要紀念,我曾在facebook發表過一個建議,就是選最少一件事出來,無論是幾細小都好,你曾經想過可以改變香港現狀,但覺得太傻又或者自己一個人做無用的事,由今年928開始,擺脫犬儒想法,將這些事切實的執行,抵抗暴政為你編排好的生活方式,延續抗爭改變的力量。我自己想做到的有兩件事,都是小事。第一件是不要再罵某大電視台,要無視它。其實我一早已罷看,但我有時仍有對那個電視台開罵。我想到在單一選擇的情况,開罵都是宣傳,證明該台仍有影響力。媒體最忌不是沒有人看,而是人們連談都不談。為何網絡媒體加速香港紙媒興替卻不能打破電視一台獨大,就是因為我們又看又罵的奇怪收視習慣。該台亦睇死我們又罵又看,沒有真正的選擇,簡單而言他們以為自己牢牢地「食住了」香港人。罷搭罷睇同樣睇死港人沒選擇的還有交通。為何港鐵可以年年加價,高鐵延誤超支浪費納稅人金錢,而且在發生拒載樂器事件之後可以連PR客套話都不用跟你說?就是因為香港交通設計嚴重地向鐵路傾斜,兩鐵合併再上市後有權力壟斷交通網絡,睇死港人貪方便、貪快的性格最後都是要依賴港鐵,於是擺出高高在上,就像我們的管治者所擺出的那副「超然」姿態,又是以為已經「食住了」我們。我居住在元朗深山野嶺,每天都要到港大上班,是公眾交通系統的重度使用者。以前我是搭一程小巴加兩程巴士上班,浪費時間又辛苦。曾經我只需搭一程小巴一程港鐵,因為西港島線延到港大,所以天天都搭。由今年928開始,我會每周少乘五程,搭巴士再由上環行上港大。你可能會在笑,這是沒有用的,效果太細亦不夠徹底,有精神勝利的阿Q成分。沒錯,我個人的行動效果是極細的。我正在進行的博士研究是研究網絡行為,其一現象叫作群體智能(swarm intelligence),即系統中眾多小個體(agent)進行簡單行為,聚合成群後會變成像是有中心控制的複雜群體湧現行為(emergent behavior)。例子之一是白蟻建造白蟻窩,可以建成五米高堡壘。神奇的是白蟻是沒有建築師管工大判二判,卻可以在沒有指導監管、去中心化之下建成堡壘。一群沒有視覺的蟻其實只不停執行三種簡單的行為,就是搬泥到空的位置、如位置已有泥就找另一個空位,最後是搬泥時避免撞到其他白蟻,卻要與其他白蟻保持一定距離。單這三個行為一群白蟻就會建成堡壘。所謂趨勢,就是由簡單的個體行為聚合而成。不要維持香港現狀還記得數年前的台慶罷睇事件嗎?試想想天天也是如此,甚至那電視台變成了只有特定低消費群體才看的電視台,甚至變成談都不想談的環境噪音,廣告收益下降,看看那台還能否像如今意氣風發搬弄是非?試想想如果香港每個打工仔持續地五個工作天來回有一程選擇不搭港鐵,乘搭其他交通工具,港鐵客量就會下降10%,收益亦相應下降10%。試想一家被政府欽定為交通王者的上市公司10%收益流向其他公司,他們仍能張牙舞爪?試想想,去年928漫天烽火,危機處處,難道街上的人又有去想過計算走上街有沒有用?最少我自己當天走上街,心中想的除了是政府逼人太甚,就是我想要轉變,不要維持香港的現狀。那79天,有人認為佔領行動有外部勢力擺佈,其實只是每個佔領參與者不同的簡單行為,在沒有中心控制之下聚集成了趨勢……原文刊於明報星期日生活 後佔領

詳情