開放語料庫:製程與分析
  • 動機
  • 導論
  • 語料處理方法論
  • 語料收集
    • 政治法律文本
  • 前處理
  • 分詞與自動標記
    • 隱喻與譬喻標記
  • 索引法與資料庫設計
  • 人工標記
    • GATE 標記與處理平台
    • 多層次標記
  • 搜尋與計量功能
    • 語料庫搜尋語言
  • 搜尋介面
  • 應用研究
    • 語言變異與變遷
    • 言談與文本分析
  • 未來可能方向
  • 附錄:Corpus Linguistics with Python
    • CQPwebInABox
    • 代表性語料庫
  • 參考書目
Powered by GitBook
On this page
  • Concordance
  • 詞彙文法行為素描 Sketch Grammar
  • 秘密武器:結合大詞庫 (BIGLEX) 訊息的多元語料搜尋標記與統計系統

Was this helpful?

搜尋與計量功能

Previous多層次標記Next語料庫搜尋語言

Last updated 5 years ago

Was this helpful?

語料庫建構後的重頭戲:如何讓使用者和研究者能夠從不同的角度去搜尋、過濾、呈現與看待他們的文本?

  1. 單機分析工具 單機版的語料分析工具是歷史最悠久的工具。從付費的 WordSmith 到免費但功能不減反增的 ,都是許多語料庫研究者目前都還在使用的分析工具。特別是 Ant* 系列除了提供常用的文本分析工具之外,還包括了中日文自動斷詞與詞類標記、語步 (move) 標記分析、字元轉換、字彙難易度、語言變異等工具,對於入門的讀者相當值得推薦。

  2. 整體式網路服務 線上的語料分析工具,比較著名的有 ,,和 。大部分的讀者比較不熟悉的是歐洲的傳統,比方說瑞典哥登堡大學開發的 甚至整合了如 FrameNet 等詞彙語意資源與標記,將整合性語料庫語言學更向前邁進。 而在台灣正體中文的語料庫研究社群中,向來以使用中研院平衡語料庫 (ASBC) 為主。不過隨著語料停止收錄更新,比較難以符應語言使用的當代特性。加上語料標記的多元化也漸漸成為整合研究的需要,已經有不少規模不大但是具有不同特色的漢語語料庫公開外界使用,如師範大學的 、政治大學 與本計畫 和 等等。

我們認為:野生與開放的群眾智慧可以加倍創意開發速度。

傳統上,提取語料文本中的訊息包括

  • 詞彙的頻率 (frequency) 及分佈 (dispersion)。

  • 最基本的脈絡化關鍵詞 (concordance/Keyword in context。

  • 詞語的統計共現 (collocation)

  • 文法行為素描 (word sketch) ,

  • 語料庫對比關鍵詞 (Keyword),甚至是

  • 視覺化的文本探索 (word tree),等等。

但是其實還可以更好,讓我們慢慢看下去。

Concordance

定義:

向來作法

問題

  • 對功能學派與言談分析來說,要看的重點可能不太一樣。

我們以 COPENS 提供的言談資料為例。CHILDES, NTU Spoken, Debated Corpus。

The term discourse is problematic, as it is used in social and linguistic research in a number of inter-related yet different ways. In traditional linguistics it is defined as either 'language above the sentence or above the clause', or 'language in use' (Barker, 2007)

詞彙文法行為素描 Sketch Grammar

秘密武器:結合大詞庫 (BIGLEX) 訊息的多元語料搜尋標記與統計系統

感謝

Ant* 系列
COCA
Linguist’s Search Engine
Word Sketch Engine
Språkbanken (the Swedish Language Bank)
華語為第二語口語語料庫
漢語口語語料庫
開放語料與搜尋系統 (COPENS)
批踢踢語料庫
http://www.sketchengine.co.uk/