語言分析與資料科學
  • 本書規劃
  • PART I:基礎知識
    • 導論
    • 語言學
      • 語言的實證研究方法
    • 數學與統計
      • 統計
        • 機率與機率分佈
          • 推論統計
        • 迴歸模型
      • 線性代數
    • 自然語言處理
      • 語料庫
    • 機器學習
      • kNN
      • Probabilistic learning using Naive Bayes
      • 決策樹 Decision Trees
      • 支持向量機 Support Vector Machines
      • 迴歸分析 Regression models
      • 神經網路與深度學習 Neural Network and Deep Learning
      • 關聯規則挖掘 Association Rules
      • k-means 分群 Clusterings
      • 社會網路分析
    • 資料科學的 OSEMN 模式
  • PART II: 文本分析:資料處理、表徵與語意計算
    • 文本分析是什麼
      • 程式處理架構
    • 文本前處理
      • 文本收集
      • 文本清理
      • 自動分詞與詞類標記
      • 文本標記
    • 文本數據探索性分析
    • 文本語意與統計
      • 語意表徵
      • 文本訊息視覺化
      • 文本相似與關聯
    • 文本知識抽取
  • PART III:文本分析:模型應用與專案
    • 文本迴歸預測
    • 文本分類
      • 情緒分析
      • 垃圾訊息偵測
    • 文本自動生成
      • 自動摘要
    • 文本聚類
    • 主題模型
    • 立場、意圖與價值
    • 個人文體風格
    • 文本真實性
      • 重複文本偵測
    • 資料科學報告與部署
  • 附錄
    • R 存活指令
    • Python 存活指令
    • Git and Github 入手
    • Linux 存活指令
    • 正則表示法
    • 參考書目
Powered by GitBook
On this page
  • 常態(機率)分佈 normal distribution (a.k.a 高斯分佈 Gaussian distribution)
  • Poisson Distribution

Was this helpful?

  1. PART I:基礎知識
  2. 數學與統計
  3. 統計

機率與機率分佈

  • 事件

  • 機率

  • 隨機變數

  • 機率分佈

  • 機率密度函數:隨機變數值 xxx 和機率 P\mathcal{P}P 之間的函數關係。

常態(機率)分佈 normal distribution (a.k.a 高斯分佈 Gaussian distribution)

P(x)=1σ2πe−[(x−μ)22σ2]P(x) = \frac{1}{\sigma\sqrt{2\pi}}e^{-\left[\frac{(x - \mu)^2}{2\sigma^2} \right]}P(x)=σ2π​1​e−[2σ2(x−μ)2​]
  • σ\sigmaσ refers to the standard deviation.

  • μ\muμ refers to the mean.

  • eee is a constant, respectively, the base of the natural log system and approximately equals to 2.718.

  • π\piπ a constant with an approximate value of 227\frac{22}{7}722​ or 3.1416.

  • xxx refers to the value of the random variable.

rnorm(n=10)
 
[1] -0.48200811  1.02070719  0.09263650  0.07460888  1.75003405  
0.22843413
 [7] -0.11792523  0.39054810 -0.35487301 -1.82808605

Poisson Distribution

P(x)=μxe−μx!P(x) = \frac{\mu^{x}e^{-\mu}}{x!}P(x)=x!μxe−μ​
  • 針對計數資料 count data

  • trial 次數很多 (n 很大), 事件發生機率(P)很小時的二項分布。

Previous統計Next推論統計

Last updated 5 years ago

Was this helpful?