corpus linguistics
語料庫 (corpus) 是語言學的資料庫, 但是和一般資料庫不同點在於語料庫通常伴有「語言訊息標記」(annotation)。可以是構詞句法 (POS)、詞意 (word sense)、義類 (semantic class)、語用言談標記 (discourse marker)、情緒等等,端視研究與應用目的而定。
在一般 text mining 的研究,則單純是文集 (text collection)。
tm
tm (Feinerer and Hornik, 2014) 支持的格式包括了 text, PDF, Microsoft Word, 以及 XML。
Last updated 5 years ago