前處理
Last updated
Was this helpful?
Last updated
Was this helpful?
另一個夢是把台灣語言的前處理管線接起來。請見另一計畫 LOPEN.pipe
COPENS 系統中有背景執行幾個核心前處理動作:海撈資料,清除雜訊,分詞與精細詞類標記。
問題是需要有工人智慧來幫忙除錯修正。
中文分詞是個什麼問題?
語料蒐集之後,華語語料庫工作者通常面臨中文文本的斷詞與詞類自動標記的問題。大部分的研究者大都仰賴中研院詞庫小組(CKIP)開發維護的,晚近隨著開放原始碼運動的盛行與方便,許多人也開始使用 ,因為可以客製化自己的辭典與調整演算法。
LOPE
句法語意剖析器 parser
詞義自動標記 sense tagger
情緒訊息偵測與解析 sentiment detector and analysis: what/how/why