# 前處理

## 自動前處理管線

* 另一個夢是把台灣語言的前處理管線接起來。請見另一計畫 `LOPEN.pipe`
* COPENS 系統中有背景執行幾個核心前處理動作：海撈資料，清除雜訊，分詞與精細詞類標記。
* 問題是需要有**工人智慧**來幫忙除錯修正。

## 斷詞/分詞 (Chinese word segmentation)

* 中文分詞是個什麼問題？

語料蒐集之後，華語語料庫工作者通常面臨中文文本的斷詞與詞類自動標記的問題。大部分的研究者大都仰賴中研院詞庫小組(CKIP)開發維護的[中文斷詞系統](http://ckipsvr.iis.sinica.edu.tw)，晚近隨著開放原始碼運動的盛行與方便，許多人也開始使用 [jieba (結巴) 套件](https://github.com/fxsjy/jieba)，因為可以客製化自己的辭典與調整演算法。

LOPE [劉純睿的版本](https://github.com/amigcamel/Jseg/tree/jseg3)

## 詞類標記 (POS tagging)

## 管線後端補接語言工程

* 句法語意剖析器 parser
* 詞義自動標記 sense tagger
* 情緒訊息偵測與解析 sentiment detector and analysis: what/how/why