初心者のためのDjango入門
■第16話:Pandasの使い方と基本的概念
(最終更新日:2023.06.14)
(絵が小さい場合はスマホを横に)
「Pandasを用いてデータを自在に操ろう!」
PandasはPythonプログラミング言語で使用されるデータ分析ライブラリで、
データ操作と分析を容易にするための高レベルのデータ構造と操作ツールを提供する。
Pythonが科学計算の世界で広く使われるようになった主要な要因の一つであり、
データ分析とモデリングにおける必須のツールである。
1.Pandasの特徴と利点
Pandasは主にSeriesとDataFrameという二つのデータ構造を提供する。
これらは大量のデータを効率的に扱い、様々な操作(スライシング、インデクシングなど)を可能にする。
また、Pandasは不完全なデータであっても容易に操作することができる。
データ操作として、データのクリーニング、変換、集約などの一般的なデータ操作を簡単に行うことができる。
さらに、統計的なデータ分析をサポートしており、平均、中央値、標準偏差などの統計量を簡単に計算できる。
本セクションでは、Pandasの概要を知るとともに、インストール方法、データ構造について学ぶ。
2.Pandasのインストール方法
PandasはPythonライブラリなので、当然Pythonがインストールされている必要がある。
バージョンは3.7以上が推奨である。インストールにはNumPy時と同様にpipを用いる。
venvという仮想環境上でインストールするのは、NumPyの時にも説明したので、
そちらを参照してほしい。
仮想環境構築後「pip install pandas」とコマンド入力してインストールする。
ここで、Pythonのバージョンが最新だったりすると、pandasの方が対応してない場合がある。
そんな時は、Pythonのバージョンを下げてインストールしなおしてみよう。
インストールが成功したかは、「import pandas as pd」と書いて、エラーが出なければよい。
これで、pandasを使う準備ができた。
3.Pandasの基本的なデータ構造
本項では、Pandasの主要なデータ構造であるSeriesとDataFrameについて説明する。
まず、Seriesについて説明する。
これは一次元配列を扱うのもので、同じデータ型の値(整数、文字列、浮動小数点数など)を格納する。
Seriesはインデックスによってラベル付けされ、これによりデータへのアクセスと操作が容易になる。
下記に、Seriesの作成例を示す。Seriesを用いることで一次元にラベル化されたデータが作成された。
Seriesの作成(上:コード、下:出力結果)
次に、DataFrameについて説明する。 DataFrameはPandasの二次元配列で、異なる種類のデータ(数値、文字列、ブール値など)を格納できる。 DataFrameは行と列のインデックスによってラベル付けされ、これによりデータへのアクセスと操作が容易になる。 下記にDataFrameの作成例を示す。行のラベルにアルファベット、列のラベルに数値としたExcelのようなデータができた。 データ形式(日付データ)の指定、データ型(float32など)の指定、配列による挿入、データ補間(最大4データに合わせて複製されている)ことが分かると思う。 これが、pandasの特徴でもある。
DataFrameの作成(上:コード、下:出力結果)
4.まとめ
今回、Pandasのインストールと代表的なデータ形式であるSeriesとDataFrameについて説明した。
様々なデータの型を混在させたり、データ補間させられることが分かったと思う。
NumPyとは違って、データにラベリングして操作できるのが大きな魅力だ。
次回からは、これらのデータ形式を利用したPandasの機能、魅力について紹介したいと思う。
▼参考図書、サイト
Pandas Seriesを徹底解説! AI-interのPython3入門
pandas.DataFrameの構造とその作成方法 note.nkmk.me