語料處理方法論

方法論

  • Corpus work can be seen as an empirical approach in that, like all types of scientific inquiry, the starting point is actual authentic data.

  • It is therefore inductive, for the statements of a theoretical nature about the language or the culture which are derived at from observations of the actual instances.

Because corpus linguistics is methodology, all linguists - even generativists - could in principle use corpora in their studies of language. However, most generativists feel that a corpus enables one to study performance, not competence; as a result, they continue to use introspection as the primary source of their data. (Meyer 2002:28)

廣義地來說,語料庫方法至少包括了語料庫的建構、處理與分析三個面向。

  1. 建構:包括了語料的收集 (collection)、清理(cleaning)、編制索引 (index) 與儲存 (storage)。收集工作涉及了樣本在各式文類 (genre) 與文體 (mode) 的平衡性考量;清理工作則取決於不同研究目的,對於所收集到之樣本進行訊息保留或清理。編制索引的目的則是日後讓語料庫的應用程式可以快速檢索與搜尋,市面上有不少的可能方案(如開源的搜尋引擎 ElasticSearch, Apache Lucene, 語料庫語言學社群中也開發了如 EmdrosCWB (Corpus WorkBench) 等,後者是比較受到歡迎與使用的工具平台。

  2. 處理:包括斷詞(或分詞) (word segmentation)、詞類自動標記 (POS tagging)、句法剖析 (parsing),其他語意或語用等語言學訊息的人工標記 (annotation platform) 或自動標記工具 (tagger)等等。這個部分常常與計算語言學的研究工作重疊。

  3. 分析:包括對語料進行瀏覽、統計、模式抽取等工作,依照不同的研究目的而有區別。一般的分析工具提供的功能大概是共現環境 (concordance), 搭配詞抽取 (collocation extraction), 關鍵字詞計算 (keyness calculation; keyword extraction), N連詞抽取 (N-grams)與基本的製圖 (plot),進階一點的會結合統計計算如叢聚分析 (cluster analysis),語意相似度計算 (semantic similarity) 等等。

Last updated