# 資料科學的 OSEMN 模式

Mason & Wiggins (2010) 定義了資料科學的五個步驟: :jigsaw:&#x20;

1. **O**btaining data      抓取
2. **S**crubbing data     清理
3. **E**xploring data       探索
4. **M**odeling data       建模
5. i**N**terpreting data   詮解

簡稱 **OSEMN** model (發音 *awesome*)。

{% tabs %}
{% tab title=" O" %}
抓取資料涉及到確認資料的來源，取得的方式。

* 現成數據
* 透過 API
* 網路爬蟲

要考慮到的有

* 取樣 (sampling) 的方法
* 資料取得的法律與倫理議題
  {% endtab %}

{% tab title="S" %}
清理資料是最花時間的部分。

除了在處理結構性資料上的步驟與議題上，在處理文本資料時尚要考慮
{% endtab %}

{% tab title="E" %}

{% endtab %}

{% tab title="M" %}

{% endtab %}

{% tab title="N" %}

{% endtab %}
{% endtabs %}

<br>
