語言分析與資料科學
  • 本書規劃
  • PART I:基礎知識
    • 導論
    • 語言學
      • 語言的實證研究方法
    • 數學與統計
      • 統計
        • 機率與機率分佈
          • 推論統計
        • 迴歸模型
      • 線性代數
    • 自然語言處理
      • 語料庫
    • 機器學習
      • kNN
      • Probabilistic learning using Naive Bayes
      • 決策樹 Decision Trees
      • 支持向量機 Support Vector Machines
      • 迴歸分析 Regression models
      • 神經網路與深度學習 Neural Network and Deep Learning
      • 關聯規則挖掘 Association Rules
      • k-means 分群 Clusterings
      • 社會網路分析
    • 資料科學的 OSEMN 模式
  • PART II: 文本分析:資料處理、表徵與語意計算
    • 文本分析是什麼
      • 程式處理架構
    • 文本前處理
      • 文本收集
      • 文本清理
      • 自動分詞與詞類標記
      • 文本標記
    • 文本數據探索性分析
    • 文本語意與統計
      • 語意表徵
      • 文本訊息視覺化
      • 文本相似與關聯
    • 文本知識抽取
  • PART III:文本分析:模型應用與專案
    • 文本迴歸預測
    • 文本分類
      • 情緒分析
      • 垃圾訊息偵測
    • 文本自動生成
      • 自動摘要
    • 文本聚類
    • 主題模型
    • 立場、意圖與價值
    • 個人文體風格
    • 文本真實性
      • 重複文本偵測
    • 資料科學報告與部署
  • 附錄
    • R 存活指令
    • Python 存活指令
    • Git and Github 入手
    • Linux 存活指令
    • 正則表示法
    • 參考書目
Powered by GitBook
On this page
  • 基本概念
  • 描述統計
  • 推論統計

Was this helpful?

  1. PART I:基礎知識
  2. 數學與統計

統計

統計方法是資料科學的核心,在 EDA 的階段更扮演關鍵角色。

基本概念

推薦兩本書:

  • 簡單入門 》統計學圖鑑(栗原伸一與丸山敦史著,中譯 2019, 楓葉社)

  • 程式實務角度 》Practical Statistics for Data Scientists (Bruce and Bruce, 2017. O'Reilley.)

描述統計

  • 資料的平均數(算術、幾何、調和)

  • 資料的離散

    • 分位數

    • 四分位距 (Interquartile range, IQR)

    • 離差 (deviation)

    • 變異數 (variance) 與標準差 (standard deviation)

    • 離群值 (outlier)

    • 變異係數 (coefficient of variation)

  • 變數的相關

    • 相關係數 (coefficient of correlation)

      • Pearson 積差相關係數

      • Spearman 等級相關係數

      • Kendal 等級相關係數

require(languageR)
require(GGally)

data(package="languageR")
head(ratings)

# 計算相關係數
cor(ratings$Frequency,ratings$FamilySize)

[1] 0.7075396

# 兩兩變數散佈圖
ggpairs(ratings[,c(2,3:4)])

推論統計

  • 顯著 (statistical significance)

Statistical significance is often mentioned, but its meaning is not well understood. When a result is significant, it means you are very confident that you are not making a false claim.* Significance does not measure how likely you are to be missing something real, which is determined by the much less-used statistical power.(Stuhl, 2015)

Previous數學與統計Next機率與機率分佈

Last updated 5 years ago

Was this helpful?

ratings 資料的成對圖