データ分析の履歴

Excelを用いたデータクレンジング

データ分析の工数の80%はデータクレンジング

自己流

  • 範囲をテーブル定義する
  • ソースは極力残し、加工後の値は別の列に追加する。
  • 置換ルールは、vlookupを用いる
  • ルールからの逸脱は#N/Aで確認できる。

体系的な学習で追加した作法

  • 遠し番号の列を追加しておく。元の順番に戻すことができる。
  • 欠損値の確認:ステータスバーでデータの個数と数値の個数の差異を確認することで、数値の欠損を確認できる。
  • 異常値の確認:ステータスバーで最大値と最小値を確認することで、異常値を発見できる。