開放語料庫:製程與分析
  • 動機
  • 導論
  • 語料處理方法論
  • 語料收集
    • 政治法律文本
  • 前處理
  • 分詞與自動標記
    • 隱喻與譬喻標記
  • 索引法與資料庫設計
  • 人工標記
    • GATE 標記與處理平台
    • 多層次標記
  • 搜尋與計量功能
    • 語料庫搜尋語言
  • 搜尋介面
  • 應用研究
    • 語言變異與變遷
    • 言談與文本分析
  • 未來可能方向
  • 附錄:Corpus Linguistics with Python
    • CQPwebInABox
    • 代表性語料庫
  • 參考書目
Powered by GitBook
On this page

Was this helpful?

分詞與自動標記

Previous前處理Next隱喻與譬喻標記

Last updated 5 years ago

Was this helpful?

中文詞性 wordhood 與 詞類 parts-of-speech

  • 有很多故事可以說。

  • 也一直有推陳出新的分詞(斷詞)演算法。

  • 我們認為中研院的標準最有語言學的味。就跟了。

根據兩本 CKIP 技術手冊 [詞庫小組 1993,1996]

  • 分詞原則依據中央標準局「資訊處理用中文分詞規範」處理。

  • 詞類標記集:採用的是由詞庫小組八萬目辭典中的178個詞類 經簡化後所得的43個標記,另外加上3個特殊標記,共46個標記。

這兩本手冊正在翻成英文的階段,預計明年由 Routledge 出版。

在語料經過斷詞和詞類標記之後,許多研究需要進行特定訊息的標記(如言談標誌 discourse marker),此時就需要輔助人工標記的系統。歷史較為悠久的是 ,但是隨著語料訊息的多元化,標記工具也需要能夠同時在不同語言層次切換與工作,, 與 系統則應運而生。晚近的情緒預測分析已經成為語料庫與自然語言處理的重要研究主題之一,為了因應情緒模塊的斷裂性,我們也開發了情緒語言的線上標記系統 ,開放各界使用。

GATE
ANNIS
GMB
BRAT
LOPEtator