データの読み込みから可視化

Kanazawa.R #2

伊東宏樹

2024-11-23

自己紹介

本日の内容

  • Rについて

  • データの読み込み

    • 整形・変形
  • データの可視化

  • 地理空間データ

Rとは

  • オープンソースの、統計計算とグラフィックのためのシステム

  • https://www.r-project.org/

  • 言語と環境(グラフィックなど)

  • 2万を超えるパッケージ

    • 専門的な統計的手法もだいたいある

RStudio

  • Posit社が開発している統合開発環境

(Posit: RStudio IDE)

(Posit: RStudio IDE)

データ読み込みと可視化

データサイエンスのモデル (Wickham H. et al. (2023) R for Data Science (2nd ed.), CC-BY-NC-ND 3.0)

データサイエンスのモデル (Wickham H. et al. (2023) R for Data Science (2nd ed.), CC-BY-NC-ND 3.0)

データの読み込み (Import)

パッケージ利用で各種データファイルをRに読み込むことができる

  • CSV, TSV: readrパッケージなど
  • Excel: readxlパッケージなど
  • ODS: readODSパッケージ
  • JSON: jsonliteパッケージ
  • Parquet: arrowパッケージ

など

データの整形 (Tidy)・変形 (Transform)

  • tidyr, dplyrパッケージなど(tidyverseメタパッケージに含まれている)

  • 整然データにする

    • 1つの変数が1つの列
    • 1つの観測が1つの行
    • 1つのタイプの観測ユニットが1つのテーブル
    • 1つの値が1つのセル
  • 整然データを、利用目的に応じて変形する

可視化 (Visualize)

グラフ作成のパッケージ

  • デフォルトのgraphicsパッケージ (base graphics)
  • ggplot2パッケージ
  • plotlyパッケージ
  • tidyplotsパッケージ

など

地理空間データ

  • 最近では、sfパッケージを使うことが多い1

実演

実演画面をご覧ください

おわりに

わからないことは

参考文献