開放語料庫:製程與分析
  • 動機
  • 導論
  • 語料處理方法論
  • 語料收集
    • 政治法律文本
  • 前處理
  • 分詞與自動標記
    • 隱喻與譬喻標記
  • 索引法與資料庫設計
  • 人工標記
    • GATE 標記與處理平台
    • 多層次標記
  • 搜尋與計量功能
    • 語料庫搜尋語言
  • 搜尋介面
  • 應用研究
    • 語言變異與變遷
    • 言談與文本分析
  • 未來可能方向
  • 附錄:Corpus Linguistics with Python
    • CQPwebInABox
    • 代表性語料庫
  • 參考書目
Powered by GitBook
On this page

Was this helpful?

索引法與資料庫設計

  • 有許多語料索引可能。

    • lucene/ElasticSearch

    • CWB

    • Emdros

  • 決定用 CWB,原因還是語言學上的理由。

"The IMS Open Corpus Workbench (CWB) is a collection of open-source tools for managing and querying large text corpora (ranging from 10 million to 2 billion words) with linguistic annotations. Its central component is the flexible and efficient query processor CQP.

Previous隱喻與譬喻標記Next人工標記

Last updated 5 years ago

Was this helpful?