第1回:ガイダンス、データサイエンスとR入門

https://data-science-chiba.github.io/day1/

ガイダンス

ニッタ ジョエル

  • 研究テーマその1:シダ植物の進化と生態学

  • 研究テーマその2:データサイエンス用ソフトの開発

  • https://www.joelnitta.com

Image of Joel Nitta in field

スケジュール

  1. ガイダンス、データサイエンスとR入門
  2. プロジェクトの整理とデータの読み込み
  3. データの整理(1)
  4. データの整理(2)
  5. データの可視化
  6. 再現可能な文書の書き方
  7. レポートの発表、再現可能なデータ解析のベストプラクティス

オンデマンド:生成AIの基本

内容はニーズに合わせる

Moodle

https://moodle.gs.chiba-u.jp/moodle/course/view.php?id=44391

全てのリーディング、宿題などが載っています

オフィスアワー

予約制(までメールにて連絡ください)。対面・非対面での相談、ご希望とご都合に合わせて対応いたします。

教科書

  • R for Data Science (2nd edition)

リーディング

毎週のリーディングを講義の前に読んでください。

リーディング

課題と評価

  • 宿題(40%)
    • Moodleで実施または提出
    • 締切まで何度でも再提出可
    • 締切:次回の授業開始前まで
  • オンデマンド回のクイズ(10%)
    • Moodleで実施
    • 提出は1回限り
    • 締切:4月30日 23:59

課題と評価

  • レポート(50%)
    • Rを使って自分が選んだデータセットで作成
    • 授業中に発表あり
    • 締切:5月27日 12:50

課題と評価

  • 遅れた提出・クイズの再実施は認めません

オンデマンド回:生成AIの基本

データサイエンスとは?

データサイエンスとは?

  • データから洞察(インサイト)を得ること

データサイエンスとは?

  • 他の特徴
    • 大量のデータを扱う(「ビッグデータ」
      • 統計学を使う
    • プログラミングを使う(python、R、など)
    • 様々な用がある(学術研究、治療、産業、など)

データ解析の循環

https://r4ds.hadley.nz/diagrams/data-science/base.png

  • Import: データを入力する
  • Tidy and Transform: データを整える
  • Visualize: データを可視化する
  • Model: モデルを構築する(予測する)
  • Communicate: 結果を伝える

再現性とは?

再現性とは?

  • 他の人(将来の自分を含めて)があなたの解析を
    再度行って、同じ結果を得ることができること

  • データサイエンスにおいて、とても重要。再現性がなければ、「サイエンス」にならない!

再現可能にするには・・

  • コードが必要
    • 自分が何をやったのか、記録が残る
    • 将来、同じ解析ができる
  • コードとして残らない方法はよろしくない(エクセル、SPSSなど)

本授業では、Rを使う

  • 無料
  • データ解析の機能が豊富
  • 多様なニーズに応えるパッケージ
  • コミュニティー

RとRStudioについて

  • Rとは「R Project for Statistical Computing」という組織が提供しているオープンソースプログラミング言語

RとRStudioについて

  • Rのコードを書く・実行する最適なソフト(無料)
  • RStudioなしでもRは一応使えるけど、不便
  • この授業ではRStudioを介してRを使う。

Rのインストール

https://cloud.r-project.org/から自分のOSに合ったファイルをダウンロードして、インストール

RStudioのインストール

https://posit.co/download/rstudio-desktop/から自分のOSに合ったファイルをダウンロードして、インストール

RStudioについて

  • 主に四つのパネルがある
    • Source(コードを書く)
    • Environment(今のRのセッションに入っているオブジェクトが表示される)
    • R Console(Rに直接コマンドをする)
    • Files and Plots(ファイルと図)

Rを計算機として使う

  • RStudioのコンソール(左下のパネル)にカーソルを置いて、簡単な計算をしてみましょう:
2 * 20
[1] 40

おめでとうございます!Rプログラミングができました!

オブジェクト(変数)について

  • 次に、Rの中のデータを変数(Rでは、「オブジェクト Object」と呼ぶ)として保存しよう:
age <- 2 * 20

オブジェクト(変数)について

これだけでは何も返ってこない。

変数の内容を確認するには、コンソールにその変数の名前を打てば良い:

age
[1] 40

関数とは

何かの値(インプット)を受けて、処理して、計算結果(アウトプット)を返すもの

関数とは

関数の書き方:

  • 関数名(引数)

例えば

round(3.1415, digits = 1)
[1] 3.1

関数とは

関数の使い方を確認したい時は?関数名と打って、ヘルプファイルを参照すれば良い

?round

パッケージとは

  • Rパッケージとは、Rが出来ることを大幅に増やす「追加」のソフト(関数のまとまり)
    • 現在、2万近くのパッケージがある!

パッケージのインストール

Rパッケージのインストールを行うには、install.packages()を使う:

install.packages("ggplot2")

一回インストールしたら、次回からはしなくて良いので、これはコードとして保存しない

パッケージのロード

  • パッケージをインストールしたら、使える状態するにはロードすることが必要
    • インストールは一回でいい
    • ロードは毎回必要

library()関数でロードする:

library(ggplot2)

tidyverse

  • tidyverseはデータサイエンス用パッケージの集まりのパッケージ
    • ggplot2(可視化)
    • dplyr(データの整理)
    • stringr(文字データを扱う)
    • など

これからよく使うので、インストールしましょう。一気に出来るから、楽。

install.packages("tidyverse")

install.packages()library()の違い

  • install.packages()は一回だけで良い(パソコンにパッケージをダウンロードする)

  • library()はRを使う毎にしないといけない(パッケージを今回のRのセッションで使えるようにする)