搜尋與計量功能
Last updated
Was this helpful?
Last updated
Was this helpful?
語料庫建構後的重頭戲:如何讓使用者和研究者能夠從不同的角度去搜尋、過濾、呈現與看待他們的文本?
單機分析工具 單機版的語料分析工具是歷史最悠久的工具。從付費的 WordSmith 到免費但功能不減反增的 ,都是許多語料庫研究者目前都還在使用的分析工具。特別是 Ant*
系列除了提供常用的文本分析工具之外,還包括了中日文自動斷詞與詞類標記、語步 (move) 標記分析、字元轉換、字彙難易度、語言變異等工具,對於入門的讀者相當值得推薦。
整體式網路服務 線上的語料分析工具,比較著名的有 ,,和 。大部分的讀者比較不熟悉的是歐洲的傳統,比方說瑞典哥登堡大學開發的 甚至整合了如 FrameNet
等詞彙語意資源與標記,將整合性語料庫語言學更向前邁進。 而在台灣正體中文的語料庫研究社群中,向來以使用中研院平衡語料庫 (ASBC) 為主。不過隨著語料停止收錄更新,比較難以符應語言使用的當代特性。加上語料標記的多元化也漸漸成為整合研究的需要,已經有不少規模不大但是具有不同特色的漢語語料庫公開外界使用,如師範大學的 、政治大學 與本計畫 和 等等。
我們認為:野生與開放的群眾智慧可以加倍創意開發速度。
傳統上,提取語料文本中的訊息包括
詞彙的頻率 (frequency) 及分佈 (dispersion)。
最基本的脈絡化關鍵詞 (concordance/Keyword in context。
詞語的統計共現 (collocation)
文法行為素描 (word sketch) ,
語料庫對比關鍵詞 (Keyword),甚至是
視覺化的文本探索 (word tree),等等。
但是其實還可以更好,讓我們慢慢看下去。
定義
:
向來作法
問題
對功能學派與言談分析來說,要看的重點可能不太一樣。
我們以 COPENS
提供的言談資料為例。CHILDES, NTU Spoken, Debated Corpus。
The term discourse is problematic, as it is used in social and linguistic research in a number of inter-related yet different ways. In traditional linguistics it is defined as either 'language above the sentence or above the clause', or 'language in use' (Barker, 2007)
秘密武器
:結合大詞庫 (BIGLEX) 訊息的多元語料搜尋標記與統計系統感謝