語言分析與資料科學
  • 本書規劃
  • PART I:基礎知識
    • 導論
    • 語言學
      • 語言的實證研究方法
    • 數學與統計
      • 統計
        • 機率與機率分佈
          • 推論統計
        • 迴歸模型
      • 線性代數
    • 自然語言處理
      • 語料庫
    • 機器學習
      • kNN
      • Probabilistic learning using Naive Bayes
      • 決策樹 Decision Trees
      • 支持向量機 Support Vector Machines
      • 迴歸分析 Regression models
      • 神經網路與深度學習 Neural Network and Deep Learning
      • 關聯規則挖掘 Association Rules
      • k-means 分群 Clusterings
      • 社會網路分析
    • 資料科學的 OSEMN 模式
  • PART II: 文本分析:資料處理、表徵與語意計算
    • 文本分析是什麼
      • 程式處理架構
    • 文本前處理
      • 文本收集
      • 文本清理
      • 自動分詞與詞類標記
      • 文本標記
    • 文本數據探索性分析
    • 文本語意與統計
      • 語意表徵
      • 文本訊息視覺化
      • 文本相似與關聯
    • 文本知識抽取
  • PART III:文本分析:模型應用與專案
    • 文本迴歸預測
    • 文本分類
      • 情緒分析
      • 垃圾訊息偵測
    • 文本自動生成
      • 自動摘要
    • 文本聚類
    • 主題模型
    • 立場、意圖與價值
    • 個人文體風格
    • 文本真實性
      • 重複文本偵測
    • 資料科學報告與部署
  • 附錄
    • R 存活指令
    • Python 存活指令
    • Git and Github 入手
    • Linux 存活指令
    • 正則表示法
    • 參考書目
Powered by GitBook
On this page
  • 文字雲 Word cloud
  • 文字雲之外的文字視覺化 Beyond the word cloud
  • 詞泡 Word bubble
  • 詞網 Word Network
  • 詞樹 word tree
  • 線上工具試玩
  • Linguistic Motion Charts
  • 論證視覺化
  • 文本的網路科學

Was this helpful?

  1. PART II: 文本分析:資料處理、表徵與語意計算
  2. 文本語意與統計

文本訊息視覺化

  • 視覺化是資料科學的一個重點。

  • 以數值訊息為主的作圖套件有很多,如 ggplot2, ggvis, rCharts, d3Network。

文字雲 Word cloud

  • 製作簡易

文字雲之外的文字視覺化 Beyond the word cloud

詞泡 Word bubble

詞網 Word Network

詞樹 word tree

線上工具試玩

  • Wordles 單純對於詞作計量計算。
    字詞的排列不代表字詞之間的相關性。更複雜一點的想法之後聚類部分會談到。

Linguistic Motion Charts

論證視覺化

文本的網路科學

This is a very important process, because it allows expression to be specific (to the particular time and space) and at the same time maintain co-isolated multiplicities (the underlying experience of the text). We call this process polysingularity because it has several possible “solutions” that co-exist simultaneously and yet only one solution is available at each point of time and space for actualization (Gabdulkhaev, 2005; Simonenko, 1965; Boikov, 2000). Polysingularity emerges when our experience meets the commonly accepted notion of linear time. Therefore it’s an expression of a certain purpose from the multitude of simultaneously existing possibilities. The question of what is real gets a totally different aspect when we think of it in terms of polysingularity.

  • 文本可以視為知覺與特定表達目的的介面。有很多的詮解可能同時存在,但一次一個。

  • 18 秒的短期記憶。

  • 將文本表示成圖形 (visual representation of text as a graph) 的直接想法,是把詞當節點,之間的關係作為節點之間的鄰近性。

  • 有無可能可以藉此看出主題結構 topical structure ? 群組情緒?

字詞的關聯網路可以某個程度揭示 歷史觀

Previous語意表徵Next文本相似與關聯

Last updated 5 years ago

Was this helpful?

treemap of words. check

文本的 是一種較為神奇的觀點,要處理將動態複雜塞進線性敘事結構的過程。很有量子語言學的味道。

open-source text to network visualization tool, where the text is scanned twice using 5- and 2-word “windows” that record co-occurrences between the words depending on their proximity to each other in these windows.

wordle
this tutorial
argüma sn
【多奇異點】(polysingularity)
InfraNodus
Big data analysis of state of the union remarks changes view of American History
馬丁路德