pythonのpandas
pandasとは
Pythonのpandasは、データ解析を支援する機能を提供するPythonのライブラリであり、効率的な二次元データ操作のためのDataFrameという形式の議論を使って、csvファイルやExcelのデータを整理することができます。
Pandasは、Series、DataFrame、Panelといった「ラベルを持った配列」を利用してデータの加工・集計・分析処理を行うことができます。
pandasのインストール
pandasは一般によく使われていますが、組み込みモジュールではないためインストールが必要です。
Pythonのパッケージ管理ツール「pip」を使ってインストールする方法が一般的です。ターミナルやコマンドプロンプトなどを開き、以下のコマンドを実行してください。
$ pip install pandas
pandasの使い方
pandasは、データを「表計算ソフトを操作する要領で」処理することができます。
import pandas as pd # データ読み込み df = pd.read_csv('sample.csv') # データフレームの作成 pd.DataFrame(df) # データフレームの内容を表示 print(df_dataframe)
pandasを使うと、CSVファイルなどのデータを読み込んで、データフレーム(表形式のデータ構造)を作成することができます。上記のサンプルコードでは、まずpandasをインポートして、read_csv関数を使ってsample.csvファイルを読み込みます。次に、DataFrame関数を使ってdfをデータフレームに変換します。
データフレームを作成することで、表計算ソフトを操作する要領で、データを効率的に処理したり、統計量を算出したり、可視化したりすることができます。
csvの場合、1行目がデータ名を表すヘッダとして扱われます。
| id | name | age | | :--: | :----: | :---: | | 1 | John | 20 | | 2 | Mary | 22 | | 3 | Mike | 25 |
pandasとnumpyの違い
Pandas と NumPy の主な違いは、得意なデータ操作が異なるという点です。
Pandas は表形式のデータの操作に適しており、NumPy の上に構築されているのに対し、NumPy はさまざまな数値計算の実行に適していることです。
500K 行以上を処理する場合、Pandas のパフォーマンスが向上します。一方、NumPy は 50K 行以下を処理する場合により優れたパフォーマンスを発揮します。