前處理

自動前處理管線

  • 另一個夢是把台灣語言的前處理管線接起來。請見另一計畫 LOPEN.pipe

  • COPENS 系統中有背景執行幾個核心前處理動作:海撈資料,清除雜訊,分詞與精細詞類標記。

  • 問題是需要有工人智慧來幫忙除錯修正。

斷詞/分詞 (Chinese word segmentation)

  • 中文分詞是個什麼問題?

語料蒐集之後,華語語料庫工作者通常面臨中文文本的斷詞與詞類自動標記的問題。大部分的研究者大都仰賴中研院詞庫小組(CKIP)開發維護的中文斷詞系統,晚近隨著開放原始碼運動的盛行與方便,許多人也開始使用 jieba (結巴) 套件,因為可以客製化自己的辭典與調整演算法。

LOPE 劉純睿的版本

詞類標記 (POS tagging)

管線後端補接語言工程

  • 句法語意剖析器 parser

  • 詞義自動標記 sense tagger

  • 情緒訊息偵測與解析 sentiment detector and analysis: what/how/why

Last updated