GATE 標記與處理平台
General Architecture for Text Engineering
簡介
始於 1995 年由英國的 Sheffield 大學開發,迄今歷經了 20 年的發展。
以 Java 語言開發的免費開源軟件。
支持多種語言編碼,支持的檔案類型包括 XML、RTF、Email、HTML、以及純文字文件。
年紀大但是跟得很好。支援知識本體 (ontologies)、機器學習,與現有的各種自然語言處理工具,如 Wordnet,Stanford Parser等等。
此外,GATE 還能使用眾包 (crowd sourcing) 來標註語料庫,完全跟上最近的思維。
設計架構
作為一個一般性的文本工程框架,希望能為文本處理提供有組織的開發環境,以及可以引入自然語言處理的管線 (pipeline) 流程處理與嵌入各種應用。以 8.1 版為例,介面上可以看到
語言資源
(Language Resources: data used for annotating)處理資源
(Processing Resources: process that annotated data)應用程式
(Applications: run processes on data)資料儲存庫
(Datastores: repositories for larger data)
中文支援
Last updated