この記事のポイント
最初に押さえたいライブラリーが分かる
各ライブラリーの使用用途が分かる
最初に習得したい基本ライブラリー
- Numpy
- pandas
- scikit-learn
- Matplotlib
AIやデータサイエンスといえば必ず使う機会があるライブラリーになります。
これ以外にも勿論データサイエンスで使われるライブラリーはありますが、初期の学習段階から触ってみることをお勧めしたいライブラリーです。
お勧めした理由は、以下になります。
・よく使われるライブラリーなので、困った時のお助け情報がたくさんある。
・基本のライブラリーですが、現場でもよく使うライブラリーなので実用的である。
Numpy
公式サイト:https://numpy.org/ja/
AIを学習する時は、機械学習やディープラーニングをスクラッチ実装することが可能です。
あらゆる場面でお世話になるライブラリーなので、是非使っていきたいライブラリーです。
行列計算や配列計算で使うライブラリーなので、複数のデータを効率よく処理することが出来ます。
pandas
公式サイト:https://pandas.pydata.org/
データ分析で使うライブラリー。
csvやエクセルなどのデータセットをデータフレームという形で、データの置換やグルーピングなどデータベースライクに扱うことが可能です。
また最大最小、平均、最頻値、中央値、四分位数といった統計を扱う時にも使用されます。
pandas単体でもグラフを作成することは可能ですが、後述するMatplotlibといったビジュアライズ専用ライブラリーとセットで使うことが多いです。
scikit-learn
公式サイト:https://scikit-learn.org/stable/
線型回帰やロジスティック回帰をはじめとする機械学習モデルを使うことが可能です。
またモデルの学習前後に必要なデータセットの分割、クロスバリデーション、モデルの評価指標などでも使用します。
代表的なデータセットであるアヤメの分類といった機械学習用データセットも揃っており、色々試すことも手軽に出来ます。
Matplotlib
公式サイト:https://matplotlib.org/
散布図、棒グラフ、箱ヒゲ図といった統計グラフを作成をするためのデータビジュアライズを行うためのライブラリーです。
簡単にグラフを図示できる一方で、綺麗なグラフや分かりやすいグラフを作成する場合には少し慣れが必要です。。。