維基百科的研究
發表語文
由於論文發表壓力,多數作品都先以英文寫作,再部份翻譯成中文後釋放於此供維基人討論使用,若有不便之處請見諒。
若有中文作者想要合作或協助相關研究的翻譯及延伸, 請連絡我 , 謝謝。
接收‧使用
小結(接收‧使用)
兩百科網站,在各地以中文關鍵字搜尋的結果,的確為能見度最高 的網站
中文關鍵字類型對能見度最高 網站排名雖有影響,但兩百科網站名列前矛的結果似乎具有一致性。
一般來說,中文網站在能見度排名分佈,及能見度歷史走向,有富者愈富, 貧者愈富的走向,百科網站的重要性也因此更確立。
各地/搜尋引擎的偏好,對不同網站形成的能見度高低偏好,可以用來驗證網路連結效果(internet connectivity effects)的實證資料基礎。
利用能見度前100名的網站,按其能見度數值,以數學方法的二維網絡關係區塊建模(two-mode blockmodelling),成功將原資料100x9(100網站x9搜尋可能)產出一個3x3分類(3類網站x3類搜尋可能)的分類結果,找出(連結)斷裂之所在(對特定中文用戶少出現在其搜尋結果的網站)。
以創新的網路視覺化 及社會網路分析 ,不但確定了兩百科網站的關鍵中心角色,也突顯了不同的連結效果,而這連結效果,似乎可以相關的地理語言設置來做出區分解釋。
(待內容擴充:有關於微博及twitter的接收及使用兩百科的分析)
選圖(接收‧使用)
能見度前20名網站列表與能見度分佈圖: 極少數的網站擁有相當高的能見度數值
2011 OX 在各地搜尋引擎能見度最高網站:不同種類搜尋關鍵字比較
2012 HK 在各地搜尋引擎能見度最高網站:不同種類搜尋關鍵字比較(多了Fortune 500的搜尋關鍵字)
能見度前100名網站按各地/搜尋引擎能見度區塊建模分類表結果(Blockmodelling)
按能見度區塊建模分類表結果來決定連結斷裂(邊界)之處
內容‧來源
小結(內容‧來源)
儘管總數上比中文維基多,百度百科的外部連結的世界地理分佈,不如中文維基的多元 :ccTLD和geoIP方法產生的地理分區的結果,在世界上幾乎所有的地域各別比較上,中文維基的外部連結數量比百度百科的來的多(差異比例最大地區為歐洲、中東和南美 ,並非中國和美國)。
百度百科絕大部份的外部連結為中文 內容(簡體為主),中文維基則較多元
百度百科絕大部份的東亞與中文的外部連結為全簡體中文 內容,中文維基則較平衡
考量地域大小後,百度百科和中文維基外部連結差異不在中國和美國 的差異,而是在香港、澳門及台灣。
在連往中國的網站 中,中文維基並沒有「不夠」中國 ,不過的確是比不上百度百科來的「電子商務」。
在連往美國的網站 中,百度百科最愛維基百科,而中文維基百科連往的美國網站有明顯地專業及資源集中偏好。
在連往香港的網站 中,中文維基百科比較接近「百科全書」的多樣包容性:包括香港主要新聞、政府、體育、金融及公共運輸的網站;百度百科不只易受到電子商務/資訊宣傳的外部連結影響,還不如中文維基百科在取得香港主要資訊的多樣和權威。
在連往台灣的網站 中,中文維基百科比較接近「百科全書」的多樣包容性:包括台灣主要新聞、政府、金融及媒體的網站;百度百科連往台灣的網站在質和量上比香港還差/少。
選圖(內容‧來源)
跨語連結:此圖呈現維基百科中文版(zh)和其他語言的主要連出連入關係在所有跨語連結網的關係,注意其他百度百科只有一種中文語言版本,而維基百科則有其他中文言語版本及文言文版本
跨語連結:此圖呈現維基百科俄文版(ru)和其他語言的主要連出連入關係在所有跨語連結網的關係
跨語連結:此圖呈現維基百科阿拉伯文版(ar)和其他語言的主要連出連入關係在所有跨語連結網的關係
跨語連結:此圖呈現維基百科土耳其文版(tr)和其他語言的主要連出連入關係在所有跨語連結網的關係
編輯‧環境
小結(編輯‧環境)
維基百科和百度百科都是使用者產出的網絡百科全書(user-generated encyclopedia),也因此,維基百科和百度百科的發展先決條件,在於:能在數字網絡環境有讀寫中文能力的使用者,也就是中文網民。
根據東亞網民擴散比率的歷史比較,中國地區的發展,在網民擴散比率上有比較特殊而不符合理想或其他東亞類似區域的創新擴散 S型曲線。
以#網絡百科發展 , 維基百科被封和百度百科發起的關鍵時間為2005-2006年。
以#東亞網民擴散 , 照創新擴散理論, 網民比率應該理論上為S型曲線(常態分佈累積), 如en:Diffusion_of_innovations ), 而台灣和馬來西亞的確較接近S型曲線(常態分佈累積)的發展。
台灣和馬來西亞分別做為北京及上海的對照組(依比率最靠近來選取的), 或著是理論S型曲線來看北京及上海的資料, 發現2002-2006年是一個奇異區段 , 似乎在2002-2006年有網民擴散比率在中國有受到抑制。
儘管如此, 網民擴散比率在中國2006-2008年飛快成長, 上海成長之快還超過原領先的馬來西亞,
在整合中國新興第三第四段段網民(late majority, late adopters), 特別是下鄉到各學校組織的推廣上, 百度百科著力和優勢多, 在2006-2009年的發展上也是事實
2002-2006年和2006-2008年兩段網路發展史,在中國大陸地區,似乎有一個明顯的發展斷裂。而這發展斷裂的轉折點,恰好也是兩個網路百科的發展的發展的轉折點:(維基百科開始遭受長期封鎖,百度百科開張)。
因此,在斷裂和整合的問題, 可能有地理語言區的斷裂和整合的問題:
百度百科主要整合的是中國大陸地區的使用者,排除了香港及台灣潛在用戶,而由於歷史發展,不少已使用並編輯維基百科的前期用戶,有可能和後來百度百科取得的用戶有時間上的斷裂。
維基百科主要整合的是各地區的中文使用者,沒有排除特定地區用戶的自發性問題,然而由於歷史發展和關鍵時期封鎖,在整合中國大陸地區2006-2008年快速成長的網絡人口中的前期大眾和後期大眾(early and late majority)則有一空缺,形成了在用戶地理(中國大陸地區非沿海城市)及世代人口上(2006-2008年開始變成網民的年輕人)的空缺斷裂。
(待內容擴充:有關於兩者的編輯政策的數字及素質的發展、及地理語言政策的差異)
選圖(編輯‧環境)
兩網路百科歷史: 百度百科作為後發者及維基百科被封期間
百度百科及維基百科超級用戶比較: 2012全球分佈
百度百科及維基百科超級用戶比較: 2012及2009年在東亞
研究總結及啟示
===總結===
網絡的連結效應(connectivity effects)是如何作用的呢?是否能有跨越原有界線的效果還是強化了已有的界線?
同樣的大問題,也可以問在百度百科 (Baidu Baike, BB)及中文維基百科 (Chinese Wikipedia, CW)對世界上的中文使用用戶的影響,到底這兩個網路百科全書,對中文使用者、中文書寫百科知識及各種知識來源的整體效果來說,究竟是整合抑或是斷裂呢?
我收集了三方面資料:
(1) 編輯‧環境 ,
(2) 內容‧來源 ,
(3) 接收‧使用
並從網絡計量學 (webometrics )、書目計量學 (bibliometrics , or scientometrics )及區域設置 設計及技術發展國際化(i18n)及在地化(L10n) ,發展出一套可一般化操作又符合中文網路發展差異的地理語言分析 方法,來對這些資料進行分析,結果發現:
中文維基百科 利用了不少符合網路發展的創新技術,部份解決了中文各地方可能因眾多地理語言(及其相關的文化政治)差異的整合性難題,本來最具有整合效應。
然而中文維基百科 在中國大陸地區特定時間遭長期封閉,使得其在整合中國大陸地區新興網民主體大眾上,發生斷裂的問題。
在中文維基百科 在中國大陸地區特定長期封閉時期,百度百科 的發起並在中國大陸地區新興網民主體大眾上,取得在中國大陸地區新興網民主體大眾整合的效果,然而其特定的地理語言設置及編輯政策,非中國大陸地區的使用者、內容、及潛在用戶並沒有整合進百度百科 的發展之中。
網際網路 的連結效應(connectivity effects)因此被證明和區域設置 設計及相關的地理語言因素 直接相關,中國官方的網絡封鎖只是影響連結效應的因素之一,而百度百科及維基百科在考量相關地理語言因素所造成的連結效應(或無/避免連結效應)可能更為關鍵。
回顧現代中國(modern China)自清朝以來報業發展的地理語言因素及文化政治,中文維基百科 和百度百科 的發展,相當程度為
學者王賡武等大陸中國及海洋中國 的觀點。中文維基百科 則為海洋中國為主體的發展,在東亞及太平洋沿岸的華人為主體並以漢字統一碼為共同架構上發展的整合活動,百度百科 相較之下則為大陸中國的發展,以三個沿海城市形成的中國大陸網路及簡體漢字為主要架構上發展的整合活動。
資料
(...WORK IN PROGRESS)
方法
(...WORK IN PROGRESS)
發表
===研究啟示:政策===
(...WORK IN PROGRESS)
發展策略
(...WORK IN PROGRESS)
文化政治
(...WORK IN PROGRESS)
===研究啟示:學術===
(...WORK IN PROGRESS)
地理語言
(...WORK IN PROGRESS)
網路計量
(...WORK IN PROGRESS)
贊助及獎勵
研究倫理: 給維基人的話
許多維基人也許會擔心自己在我個人研究的寫作中,會有不當的詮釋及陳述。也許有人會幫腔,反正維基百科全是公開的沒什麼好隱藏的。
的確,維基百科的特點之一就是透明,但許多個人資訊如個人的訪問資訊及監視列表仍是隱私的範圍,維基基金會在釋出可供研究的資料時,也非常重視個人隱私保障。
我的寫作原則是,預設都是匿名引用,必要時才直接引用其維基帳戶ID名稱,而不以實名引用。若有人強烈要求使用現實真名,我願配合,但必須請您簽一份紙本的同意書。
研究過程雖然是參與的,但論文的寫作是個人的,我對我的寫作負完全的學術及法律責任,但也請各位尊重我個人的判斷及研究成果,若有不同意見,歡迎提出討論,但並不能要求將討論全部要寫入論文之中,這點請各位瞭解。
Han-Teng Liao