背景

我們要如何進入文本的世界?

  • 統計

  • 語言標記

文本的計量分析工具箱

在進行標記之前,應該利用一些資源與工具做一個文本的 Exploratory Analysis,了解基本的訊息。

文本統計

  • sentence length

  • frequencies

文本社會心理

  • percentages of words representing particular psychological categories

  • ages

  • gender

  • familiarity

  • concreteness

  • imagability

文本語意

也應該利用 NLP-Machine Learning 的技術做文本自動探勘,對於文本語意性質多一點了解。

  • polysemy

  • 向量語意表徵 (LSA, Word Embeddings,..)

  • TOPIC MODELING (LDA,...)

Last updated