語言分析與資料科學
  • 本書規劃
  • PART I:基礎知識
    • 導論
    • 語言學
      • 語言的實證研究方法
    • 數學與統計
      • 統計
        • 機率與機率分佈
          • 推論統計
        • 迴歸模型
      • 線性代數
    • 自然語言處理
      • 語料庫
    • 機器學習
      • kNN
      • Probabilistic learning using Naive Bayes
      • 決策樹 Decision Trees
      • 支持向量機 Support Vector Machines
      • 迴歸分析 Regression models
      • 神經網路與深度學習 Neural Network and Deep Learning
      • 關聯規則挖掘 Association Rules
      • k-means 分群 Clusterings
      • 社會網路分析
    • 資料科學的 OSEMN 模式
  • PART II: 文本分析:資料處理、表徵與語意計算
    • 文本分析是什麼
      • 程式處理架構
    • 文本前處理
      • 文本收集
      • 文本清理
      • 自動分詞與詞類標記
      • 文本標記
    • 文本數據探索性分析
    • 文本語意與統計
      • 語意表徵
      • 文本訊息視覺化
      • 文本相似與關聯
    • 文本知識抽取
  • PART III:文本分析:模型應用與專案
    • 文本迴歸預測
    • 文本分類
      • 情緒分析
      • 垃圾訊息偵測
    • 文本自動生成
      • 自動摘要
    • 文本聚類
    • 主題模型
    • 立場、意圖與價值
    • 個人文體風格
    • 文本真實性
      • 重複文本偵測
    • 資料科學報告與部署
  • 附錄
    • R 存活指令
    • Python 存活指令
    • Git and Github 入手
    • Linux 存活指令
    • 正則表示法
    • 參考書目
Powered by GitBook
On this page
  • 自然語言處理技術重點
  • 中文語言處理平台
  • R 自然語言處理套件

Was this helpful?

  1. PART I:基礎知識

自然語言處理

Previous線性代數Next語料庫

Last updated 5 years ago

Was this helpful?

  • 目前的文本挖掘都必須是由 NLP 技術來強化。舉例:

  • NLP 的成熟與語言知識介入多深,決定了文本挖掘有趣到什麼程度。

  • 商用的系統也出現不少。

自然語言處理技術重點

  • 句法剖析 (Syntactic Parsing)/句塊抽取 (Chunking)

  • 詞義排歧 (Word Sense Disambiguation, WSD)

  • 共指消歧 (Co-reference Resolution)

  • 命名實體辨識 (Named Entity Recognition, NER)

NLP 通常結合了各項語言資源 (language resources),如語料庫、詞彙知識庫 (lexical knowledge base)、知識本體 (ontologies) 等等來提升機器對於文本訊息的理解。

中文語言處理平台

也可以利用 Gate平台,整合標記與自然語言處理模組來做。

R 自然語言處理套件

  • openNLP:Apache OpenNLP Tools Interface.

  • NLP: Basic functions for Natural Language Processing.

  • coreNLP:史丹佛大學自然語言處理工具集

  • KoNLP 韓語自然語言處理

  • tmcn 適應中文的 tm 改良,方便編碼轉換。

  • jiebaR,Rwordseg中文斷詞

devtools::install_github("statsmaths/coreNLP")
download.file("http://nlp.stanford.edu/software/stanford-corenlp-full-2015-01-29.zip")
unzip("stanford-corenlp-full-2015-01-29.zip")
library(coreNLP)
initCoreNLP("stanford-corenlp-full-2015-01-29")
catInHat = c("the sun did not shine.", "it was too wet to play.","so we sat in the house all that cold, cold, wet day.")
output = annotateString(catInHat)
getToken(output)
getDependency(output)
getSentiment(output)

卓騰語言科技

openNLP 和 coreNLP 是目前比較厲害的成果。以下用 為例

Articut
語言雲
玻森
https://cran.r-project.org/web/views/NaturalLanguageProcessing.html
coreNLP
http://github.com/statsmaths/coreNLP
http://textminingonline.com/
tm.online