English | 简体中文 | 繁體中文 | Русский язык | Français | Español | Português | Deutsch | 日本語 | 한국어 | Italiano | بالعربية
このチュートリアルは、pandasの基本的な知識とさまざまな機能を学びたい人々向けに作成されています。データクリーンアップや分析を行う職業の人々にとって特に役立ちます。このチュートリアルを完了すると、中程度の専門知識レベルを持ち、さらに高度な専門知識を取得することができます。
pandasを学ぶ前に、コンピュータプログラミングの基本用語に基本的な理解が必要です。どのプログラミング言語にも基本的な理解があると有益です。pandasライブラリはNumPyの多くの機能を使用しています。NumPyに関するチュートリアルを読むことをお勧めします。その後、このチュートリアルに進みます。
Pandasは以下のデータタイプの処理に適しています:
SQLやExcelのテーブルに似た、異なる列を持つテーブルデータ; NumPy配列の要素は同じデータタイプを持たなければならず、そのためメモリ内のサイズが同じです。 順序付きおよび無秩序(非固定周波数)の時間序列データ; 行と列のタグを持つ行列データ、包括的または非包括的なデータを含みます; 任意の他の形式の観測、統計データセット、データをPandasデータ構造に転入する際には事前にタグを付けなくても構いません。
Pandasの主要データ構造はSeries(一次元データ)とDataFrame(二次元データ)で、これらのデータ構造は金融、統計、社会科学、工学などの多くの分野の典型例を処理できます。Rユーザーにとって、DataFrameはR言語のdata.frameよりも豊富な機能を提供します。PandasはNumPyに基づいて開発されており、他のサードパーティーの科学計算サポートライブラリと完璧に統合できます。Pandasは万能のスイスアーミーナイフのようなもので、以下にその部分の利点を挙げます:
浮動小数点数と非浮動小数点数のデータ内の欠損データを処理し、NaNで表現します; サイズ可変:DataFrameなどの多次元オブジェクトの列を挿入または削除します; 自動的な明示的なデータアライメント:明示的にオブジェクトをタググループと一致させ、タグを無視することもできます。Series、DataFrameの計算では自動的にデータと一致させます; 強力で柔軟なグループ(group by)機能:分割-適用-データセットを組み合わせ、集計、データ変換を行います; Python と NumPy データ構造内の不規則、異なるインデックスのデータを簡単に DataFrame オブジェクトに変換します; インテリジェントタグに基づいて、大規模データセットのスライス、スタイルインデックス、サブセット分解などの操作を行います; 直感的に統合(merge)、**結合(join)**データセット; 柔軟にリシャッピング(reshape)、**ピボット(pivot)**データセット; 軸が構造化タグをサポートします:1つのスケールが複数のタグをサポートします; 成熟した IO ツール:テキストファイル(CSVなど、区切り文字をサポートするファイル)、Excelファイル、データベースなどからのデータを読み取るための非常に高速なHDF5 フォーマットの保存 / データの読み込み; 時系列:日付範囲の生成、頻度変換、移動平均統計、移動平均線形回帰、日付のシフトなど、時系列機能をサポートしています。
これらの機能は、他のプログラミング言語や研究環境の痛点を解決するために主に作成されています。データ処理は、データの整理とクリーンアップ、データ分析とモデリング、データのビジュアライゼーションとテーブル作成の数段に分けられます。Pandasはデータ処理のための理想的なツールです。
Pandasは高速です。Pandasの多くの基本的なアルゴリズムはCythonで最適化されていますが、汎用性を維持するために、必ずしも性能を犠牲にする必要があります。特定の機能に集中すると、Pandasよりも高速な専用ツールを開発することも可能です。 Pandasはstatsmodelsの依存関係であり、Pythonの統計計算エコシステムの重要な部分です。 Pandasは金融分野などで広く使用されています。
$ pip install pandas $ python -i >>> pandaspd >>> df = pd.() >>> print(df) Empty DataFrame Columns: [] Index: []