開放語料庫:製程與分析
  • 動機
  • 導論
  • 語料處理方法論
  • 語料收集
    • 政治法律文本
  • 前處理
  • 分詞與自動標記
    • 隱喻與譬喻標記
  • 索引法與資料庫設計
  • 人工標記
    • GATE 標記與處理平台
    • 多層次標記
  • 搜尋與計量功能
    • 語料庫搜尋語言
  • 搜尋介面
  • 應用研究
    • 語言變異與變遷
    • 言談與文本分析
  • 未來可能方向
  • 附錄:Corpus Linguistics with Python
    • CQPwebInABox
    • 代表性語料庫
  • 參考書目
Powered by GitBook
On this page
  • 自動前處理管線
  • 斷詞/分詞 (Chinese word segmentation)
  • 詞類標記 (POS tagging)
  • 管線後端補接語言工程

Was this helpful?

前處理

Previous政治法律文本Next分詞與自動標記

Last updated 5 years ago

Was this helpful?

自動前處理管線

  • 另一個夢是把台灣語言的前處理管線接起來。請見另一計畫 LOPEN.pipe

  • COPENS 系統中有背景執行幾個核心前處理動作:海撈資料,清除雜訊,分詞與精細詞類標記。

  • 問題是需要有工人智慧來幫忙除錯修正。

斷詞/分詞 (Chinese word segmentation)

  • 中文分詞是個什麼問題?

語料蒐集之後,華語語料庫工作者通常面臨中文文本的斷詞與詞類自動標記的問題。大部分的研究者大都仰賴中研院詞庫小組(CKIP)開發維護的,晚近隨著開放原始碼運動的盛行與方便,許多人也開始使用 ,因為可以客製化自己的辭典與調整演算法。

LOPE

詞類標記 (POS tagging)

管線後端補接語言工程

  • 句法語意剖析器 parser

  • 詞義自動標記 sense tagger

  • 情緒訊息偵測與解析 sentiment detector and analysis: what/how/why

中文斷詞系統
jieba (結巴) 套件
劉純睿的版本