語料處理方法論
方法論
Corpus work can be seen as an empirical approach in that, like all types of scientific inquiry, the starting point is actual authentic data.
It is therefore inductive, for the statements of a theoretical nature about the language or the culture which are derived at from observations of the actual instances.
Because corpus linguistics is methodology, all linguists - even generativists - could in principle use corpora in their studies of language. However, most generativists feel that a corpus enables one to study performance, not competence; as a result, they continue to use introspection as the primary source of their data. (Meyer 2002:28)
廣義地來說,語料庫方法至少包括了語料庫的建構、處理與分析三個面向。
建構
:包括了語料的收集 (collection)、清理(cleaning)、編制索引 (index) 與儲存 (storage)。收集工作涉及了樣本在各式文類 (genre) 與文體 (mode) 的平衡性考量;清理工作則取決於不同研究目的,對於所收集到之樣本進行訊息保留或清理。編制索引的目的則是日後讓語料庫的應用程式可以快速檢索與搜尋,市面上有不少的可能方案(如開源的搜尋引擎 ElasticSearch, Apache Lucene, 語料庫語言學社群中也開發了如 Emdros 和 CWB (Corpus WorkBench) 等,後者是比較受到歡迎與使用的工具平台。處理
:包括斷詞(或分詞) (word segmentation)、詞類自動標記 (POS tagging)、句法剖析 (parsing),其他語意或語用等語言學訊息的人工標記 (annotation platform) 或自動標記工具 (tagger)等等。這個部分常常與計算語言學的研究工作重疊。分析
:包括對語料進行瀏覽、統計、模式抽取等工作,依照不同的研究目的而有區別。一般的分析工具提供的功能大概是共現環境 (concordance), 搭配詞抽取 (collocation extraction), 關鍵字詞計算 (keyness calculation; keyword extraction), N連詞抽取 (N-grams)與基本的製圖 (plot),進階一點的會結合統計計算如叢聚分析 (cluster analysis),語意相似度計算 (semantic similarity) 等等。
Last updated