高登的核心與外圍 香港網絡生態系列之二

互聯網論壇是互聯網早期的網上社交平台,同期的科技還有 usenet(新聞組)、經telnet連接的BBS(電子布告版)和IRC等等。當互聯網社交工具都全被社交媒體蠶食,以上各種互聯網科技日漸式微之時,世界各地互聯網論壇仍然發展健壯。香港的情况亦一樣,互聯網論壇仍然火紅。香港仍有四大論壇,分別是香港討論區、Uwants、親子王國和高登。今次研究的高登討論區不是香港最多人瀏覽的論壇,但如果談到對香港次文化影響最深的,就一定是高登。高登已經建立起了他們的文化系統,無時無刻影響主流文化。舉個例,不少高登術語如「硬膠」、「走數」和「食花生」,已慢慢成為香港的日常生活俚語。

在主流認知的高登,有不同的面貌,例如有人說高登逢紅必反(反對主流受歡迎的人物和事物)、愛好起底食花生、多毒男狂踩港女,甚至有專欄作家說過高登是最支持普選的論壇云云。高登被談起,不會是談個別的會員,總是當成一個個體去談論。

可是,這個常常被當成一個個體去討論的群體,偏偏卻沒有人認真的去探究這個群體的特性。我懷疑,主流論述中的高登只是瞎子摸象,以偏蓋全。

為了客觀地理解高登這個群體,筆者編寫了「網絡爬蟲」收集高登最新的討論串。每條收集回來的討論串,會在發文時間六十天之後再次探訪,收集該討論串的所有回覆帖文。今次以去年七月一日至九月十五日兩個半月內共118,087個討論串、710萬個帖文數據作分析。筆者想從數據裏頭找出高登的「核心」與「外圍」。

帕雷托原理(Pareto Principle)指出,大多數情况之下80%的結果取決於20%的原因,那屬於少數而又產生大量結果的原因,在此研究中定義為「核心」。

根據此原則,筆者想找出以下的「核心」:

1. 哪些主題的帖文吸引最多的回覆?

2. 什麼用戶最常帖文?

帖文回覆數量長尾分佈

在討論什麼是高登最多回覆的主題之前,要先介紹一下高登的一些特色。在高登開一個新討論串,有可能會有其他用戶回覆,但在正常情况之下,高登只容許約一千個回覆,超過後會禁止回覆,高登術語稱為「1001鎖Post」。

雖然名稱叫「1001鎖Post」,但其實很多時是可以發表略多於1001個回覆貼文,才正式「鎖Post」。在收集回來的討論串當中,只有 3654 條達到「鎖Post」,佔整體僅3%。但這3%的討論串,共引來336萬帖文回覆,即佔整體超過 50% 。

如果將每個討論串回覆數量分布畫出來,會見到自然的長尾分佈( long-tailed distribution)。有趣的是,在長尾一端有個異常尖位。那個尖位是1002個回覆的討論串數量。從圖一可見,高登絕大部分的討論串都只有極小量回覆。

圖中那個不自然的尖位,代表當某一討論串快要達到鎖post時,會吸引用戶去回覆,故意引致「鎖Post」。在討論區的術語,這叫做「搶千」,一般人會叫做「趁墟」。

政治非吸引回覆核心主題

到底在高登,哪些主題較為受用戶歡迎呢?每條討論串都有主題,也有每個討論串的回覆數量。筆者用拆字(word segmentation )的方法在主題提取關鍵字,再用特徵萃取法(feature selection)找出哪些主題關鍵字與討論串回覆數量有較強正面關係。

圖二的文字雲列出與回覆數有較強關係的主題關鍵字,字體愈大及顏色愈深代表關係愈強。

從圖中所見,與回覆數有較強關係的關鍵字,主要都是與電子遊戲有關(圖中的i和a,分別代表iOS和Android),足球(博彩)、股票投資、韓國藝人等等關鍵字,亦能在文字雲中見到。此外,圖二中的「93」和「90」,是高登常見的「九十後」話題討論串。

當然,高登肯定是有人討論政治話題,但從此分析所見,政治並不是高登能吸引會員回覆的核心話題。

20%用戶 佔發文量90%

既然可以分析主題,當然也能分析用戶。收集回來的710萬個帖文,分別來自67,394名用戶。平均來說,每名用戶在研究期間的兩個半月發文有106.5篇,即一天最少發一帖。但事實上用戶發文的數量極不平均,亦屬長尾分布,代表絕大部分用戶發文的數量不多,但有極小量的用戶卻大量發文。

最高發文量的用戶叫做「戇拎★勁勁」,在兩個半月內共發17,696個帖文(也即是平均每小時發文9.5個!),比第二位的「車頭大燈」的15,636個帖文多出2000個。這些異常活躍的用戶主導高登的發文總量。選取了發文量最高20%的用戶(即在兩個半月內發了73個帖文以上的用戶),他們的總發文量是641萬,即佔九成,比上述的帕雷托原理的「80/20」情况更極端。

這個極端情况可於上述達到「鎖Post」的3654條討論串看到一二。我計算這批討論串所涉及的用戶數量。我發現有兩個討論串只涉及四個用戶,代表四個人不停回覆直至「鎖Post 」。「鎖Post」討論串所涉用戶眾數(mode)只是 37 個用戶,代表「鎖Post」的討論,只屬少數用戶的互相討論,並不能引起廣泛討論。當然,也有一些討論串涉及極大量的用戶,而這些討論串可稱為flamebait。例如涉及最多用戶回覆的討論串,內有一句「見post不回者 成世冇運行」,亦因為有此一句,引起大量用戶排山倒海的去罵。

另一種是挑戰類,如聲稱「香港今晚贏到中國,請留名者食半島自助餐」,會引來大量人回覆「留名」,或「留名等走數」。這些涉及大量用戶的討論串都沒有太多內容,用高登的術語就是「好膠」。

相關帖文:

http://forum7.hkgolden.com/view.aspx?type=JT&message=5971393

http://forum7.hkgolden.com/view.aspx?type=JT&message=5998956

http://forum7.hkgolden.com/view.aspx?type=JT&message=5977879

http://forum7.hkgolden.com/view.aspx?type=JT&message=6024088

■結論

極小部分高登人 塑造高登形象

本次研究收集了高登討論區的大量討論串分析,看看高登整體的網絡生態為何。重量不論質、純用數據歸納,高登用戶是一群年輕、對流行文化極感興趣的人組成,而且他們跟大部分香港人一樣都有「趁墟」的特性。

高登的大量帖文是只由一小撮極為活躍的用戶發出,可能就是這些人的行為習性最能影響公眾對高登的觀感。

致謝:本研究由傅景華博士指導,獲香港特區政府中策組公共政策研究資助計劃撥款資助;筆者部分研究助學金由港大專業進修學院贊助。

■下回預告

本土派和親北京陣營是如何搶攻 Facebook 的言論空間的呢?

原文載於《明報》星期日生活(2016年5月29日)

圖片為高登討論區截圖