開放語料庫:製程與分析
  • 動機
  • 導論
  • 語料處理方法論
  • 語料收集
    • 政治法律文本
  • 前處理
  • 分詞與自動標記
    • 隱喻與譬喻標記
  • 索引法與資料庫設計
  • 人工標記
    • GATE 標記與處理平台
    • 多層次標記
  • 搜尋與計量功能
    • 語料庫搜尋語言
  • 搜尋介面
  • 應用研究
    • 語言變異與變遷
    • 言談與文本分析
  • 未來可能方向
  • 附錄:Corpus Linguistics with Python
    • CQPwebInABox
    • 代表性語料庫
  • 參考書目
Powered by GitBook
On this page
  • 美語
  • 英語
  • 漢語
  • 德語
  • 瑞典語

Was this helpful?

  1. 附錄:Corpus Linguistics with Python

代表性語料庫

PreviousCQPwebInABoxNext參考書目

Last updated 5 years ago

Was this helpful?

美語

  • a massive electronic collection of American English, including texts of all genres and transcripts of spoken data produced from 1990 onward. All data and annotations are fully open and unrestricted for any use.

    Available Data and Annotations

    • OANC : 15 million words of contemporary American English with automatically-produced annotations for a variety of linguistic phenomena.

    • MASC : 500,000 words of OANC data equally distributed over 19 genres of American English, with manully produced or validated annotations for several layers of linguistic phenomena.

英語

漢語

德語

瑞典語

The Open American National Corpus