pythonのpandasの使い方/データフレーム作成

pythonのpandas

pandasとは

Pythonのpandasは、データ解析を支援する機能を提供するPythonのライブラリであり、効率的な二次元データ操作のためのDataFrameという形式の議論を使って、csvファイルやExcelのデータを整理することができます。

Pandasは、Series、DataFrame、Panelといった「ラベルを持った配列」を利用してデータの加工・集計・分析処理を行うことができます。

pandasのインストール

pandasは一般によく使われていますが、組み込みモジュールではないためインストールが必要です。

Pythonのパッケージ管理ツール「pip」を使ってインストールする方法が一般的です。ターミナルやコマンドプロンプトなどを開き、以下のコマンドを実行してください。

$ pip install pandas

pandasの使い方

pandasは、データを「表計算ソフトを操作する要領で」処理することができます。

import pandas as pd

# データ読み込み
df = pd.read_csv('sample.csv')

# データフレームの作成
pd.DataFrame(df)

# データフレームの内容を表示
print(df_dataframe)

pandasを使うと、CSVファイルなどのデータを読み込んで、データフレーム(表形式のデータ構造)を作成することができます。上記のサンプルコードでは、まずpandasをインポートして、read_csv関数を使ってsample.csvファイルを読み込みます。次に、DataFrame関数を使ってdfをデータフレームに変換します。

データフレームを作成することで、表計算ソフトを操作する要領で、データを効率的に処理したり、統計量を算出したり、可視化したりすることができます。

csvの場合、1行目がデータ名を表すヘッダとして扱われます。

| id | name | age |
| :--: | :----: | :---: |
| 1 | John | 20 |
| 2 | Mary | 22 |
| 3 | Mike | 25 |

pandasとnumpyの違い

Pandas と NumPy の主な違いは、得意なデータ操作が異なるという点です。

Pandas は表形式のデータの操作に適しており、NumPy の上に構築されているのに対し、NumPy はさまざまな数値計算の実行に適していることです。

500K 行以上を処理する場合、Pandas のパフォーマンスが向上します。一方、NumPy は 50K 行以下を処理する場合により優れたパフォーマンスを発揮します。