前處理
自動前處理管線
另一個夢是把台灣語言的前處理管線接起來。請見另一計畫
LOPEN.pipe
COPENS 系統中有背景執行幾個核心前處理動作:海撈資料,清除雜訊,分詞與精細詞類標記。
問題是需要有工人智慧來幫忙除錯修正。
斷詞/分詞 (Chinese word segmentation)
中文分詞是個什麼問題?
語料蒐集之後,華語語料庫工作者通常面臨中文文本的斷詞與詞類自動標記的問題。大部分的研究者大都仰賴中研院詞庫小組(CKIP)開發維護的中文斷詞系統,晚近隨著開放原始碼運動的盛行與方便,許多人也開始使用 jieba (結巴) 套件,因為可以客製化自己的辭典與調整演算法。
LOPE 劉純睿的版本
詞類標記 (POS tagging)
管線後端補接語言工程
句法語意剖析器 parser
詞義自動標記 sense tagger
情緒訊息偵測與解析 sentiment detector and analysis: what/how/why
Last updated