文本清理
可以利用指令列。
可以利用
tm
來做。接續前一節的 character vector, 利用
tm
的Corpus()
建立語料庫向量物件。檢視語料庫中的特定文件
視需要進行各種前處理
拼音文字轉小寫
移除可能有問題的符號
移除標點符號 (punctuation)、數字 (digits)、空白 (white space)
停用詞 (stop words)
可自訂詞表
選擇「停用詞」這是個大學問。
語詞詞幹化 (stemmization)
注意養成資料分析好習慣:隨時看看修改後的資料樣子。
writeLines(as.character(docs[[30]]))
語詞詞形化 (lemmatisation)
表情符號 (Emoticon)
表情符號在社群媒體的意義重大,是當代語言使用的一大特點。可參考
Last updated