搜尋與計量功能

語料庫建構後的重頭戲:如何讓使用者和研究者能夠從不同的角度去搜尋、過濾、呈現與看待他們的文本?

  1. 單機分析工具 單機版的語料分析工具是歷史最悠久的工具。從付費的 WordSmith 到免費但功能不減反增的 Ant* 系列,都是許多語料庫研究者目前都還在使用的分析工具。特別是 Ant* 系列除了提供常用的文本分析工具之外,還包括了中日文自動斷詞與詞類標記、語步 (move) 標記分析、字元轉換、字彙難易度、語言變異等工具,對於入門的讀者相當值得推薦。

  2. 整體式網路服務 線上的語料分析工具,比較著名的有 COCALinguist’s Search Engine,和 Word Sketch Engine。大部分的讀者比較不熟悉的是歐洲的傳統,比方說瑞典哥登堡大學開發的 Språkbanken (the Swedish Language Bank) 甚至整合了如 FrameNet 等詞彙語意資源與標記,將整合性語料庫語言學更向前邁進。 而在台灣正體中文的語料庫研究社群中,向來以使用中研院平衡語料庫 (ASBC) 為主。不過隨著語料停止收錄更新,比較難以符應語言使用的當代特性。加上語料標記的多元化也漸漸成為整合研究的需要,已經有不少規模不大但是具有不同特色的漢語語料庫公開外界使用,如師範大學的 華語為第二語口語語料庫、政治大學漢語口語語料庫 與本計畫開放語料與搜尋系統 (COPENS)批踢踢語料庫 等等。

我們認為:野生與開放的群眾智慧可以加倍創意開發速度。

傳統上,提取語料文本中的訊息包括

  • 詞彙的頻率 (frequency) 及分佈 (dispersion)。

  • 最基本的脈絡化關鍵詞 (concordance/Keyword in context。

  • 詞語的統計共現 (collocation)

  • 文法行為素描 (word sketch) ,

  • 語料庫對比關鍵詞 (Keyword),甚至是

  • 視覺化的文本探索 (word tree),等等。

但是其實還可以更好,讓我們慢慢看下去。

Concordance

定義:

向來作法

問題

  • 對功能學派與言談分析來說,要看的重點可能不太一樣。

我們以 COPENS 提供的言談資料為例。CHILDES, NTU Spoken, Debated Corpus

The term discourse is problematic, as it is used in social and linguistic research in a number of inter-related yet different ways. In traditional linguistics it is defined as either 'language above the sentence or above the clause', or 'language in use' (Barker, 2007)

詞彙文法行為素描 Sketch Grammar

感謝 http://www.sketchengine.co.uk/

秘密武器:結合大詞庫 (BIGLEX) 訊息的多元語料搜尋標記與統計系統

Last updated