分詞與自動標記
中文詞性 wordhood 與 詞類 parts-of-speech
有很多故事可以說。
也一直有推陳出新的分詞(斷詞)演算法。
我們認為中研院的標準最有語言學的味。就跟了。
根據兩本 CKIP 技術手冊 [詞庫小組 1993,1996]
分詞原則依據中央標準局「資訊處理用中文分詞規範」處理。
詞類標記集:採用的是由詞庫小組八萬目辭典中的178個詞類 經簡化後所得的43個標記,另外加上3個特殊標記,共46個標記。
這兩本手冊正在翻成英文的階段,預計明年由 Routledge 出版。
在語料經過斷詞和詞類標記之後,許多研究需要進行特定訊息的標記(如言談標誌 discourse marker),此時就需要輔助人工標記的系統。歷史較為悠久的是 GATE,但是隨著語料訊息的多元化,標記工具也需要能夠同時在不同語言層次切換與工作,ANNIS, GMB 與 BRAT 系統則應運而生。晚近的情緒預測分析已經成為語料庫與自然語言處理的重要研究主題之一,為了因應情緒模塊的斷裂性,我們也開發了情緒語言的線上標記系統 LOPEtator,開放各界使用。
Last updated