開放語料庫:製程與分析
  • 動機
  • 導論
  • 語料處理方法論
  • 語料收集
    • 政治法律文本
  • 前處理
  • 分詞與自動標記
    • 隱喻與譬喻標記
  • 索引法與資料庫設計
  • 人工標記
    • GATE 標記與處理平台
    • 多層次標記
  • 搜尋與計量功能
    • 語料庫搜尋語言
  • 搜尋介面
  • 應用研究
    • 語言變異與變遷
    • 言談與文本分析
  • 未來可能方向
  • 附錄:Corpus Linguistics with Python
    • CQPwebInABox
    • 代表性語料庫
  • 參考書目
Powered by GitBook
On this page
  • General Architecture for Text Engineering
  • 簡介
  • 設計架構
  • 中文支援

Was this helpful?

  1. 人工標記

GATE 標記與處理平台

General Architecture for Text Engineering

簡介

  • 始於 1995 年由英國的 Sheffield 大學開發,迄今歷經了 20 年的發展。

  • 以 Java 語言開發的免費開源軟件。

  • 支持多種語言編碼,支持的檔案類型包括 XML、RTF、Email、HTML、以及純文字文件。

  • 年紀大但是跟得很好。支援知識本體 (ontologies)、機器學習,與現有的各種自然語言處理工具,如 Wordnet,Stanford Parser等等。

  • 此外,GATE 還能使用眾包 (crowd sourcing) 來標註語料庫,完全跟上最近的思維。

設計架構

作為一個一般性的文本工程框架,希望能為文本處理提供有組織的開發環境,以及可以引入自然語言處理的管線 (pipeline) 流程處理與嵌入各種應用。以 8.1 版為例,介面上可以看到

  • 語言資源(Language Resources: data used for annotating)

  • 處理資源(Processing Resources: process that annotated data)

  • 應用程式(Applications: run processes on data)

  • 資料儲存庫(Datastores: repositories for larger data)

中文支援

Previous人工標記Next多層次標記

Last updated 5 years ago

Was this helpful?