English | 简体中文 | 繁體中文 | Русский язык | Français | Español | Português | Deutsch | 日本語 | 한국어 | Italiano | بالعربية

Pandas データ構造

Pandasには一般的に3つのデータ構造があります。

DataFrameは広く使用されており、最も重要なデータ構造の1つです。パネルはあまり使用されません。 DataFrame Panel

これらのデータ構造はNumpyの配列の上に構築されていますので、それらの実行速度は非常に速いです。

Python、Numpy、Pandasの比較

Python

list:Pythonの標準データ型、主に一次元を使用し、機能が単純で効率が低い Dict:Pythonの標準データ型、多次元のキー/バリュー対、効率が低い

Numpy

ndarray:Numpyの基本データ型、単一のデータ型 データ構造に注目します。/演算/次元(データ間の関係)

Pandas

Series:1次元、インデックスを持つものに似ています。1次元ndarray DataFrame:2次元、テーブル型データ型、行/列インデックスを持つものに似ています。2次元ndarrayはデータとインデックスの関係(データの実際のアプリケーション)に注目します。

実用性、機能の強さ、操作の可操作性を比較すると:list < ndarray < Series/DataFrame

データの整理と分析作業では、ndarray配列は必要な補完として使用され、大部分のデータはPandasデータ型を使用するようにします。

これらのデータ構造を最も良い方法で考えるのは、高次元データ構造が低次元データ構造のコンテナであることです。例えば、DataFrameはSeriesのコンテナであり、PanelはDataFrameのコンテナです。

データ構造 次元説明
DataFrameは広く使用されており、最も重要なデータ構造の1つです。パネルはあまり使用されません。1一次元データのシークエンスを保存するために使用されます。
Data Frames2DataFrameはより複雑なデータ構造であり、多次元データの保存に使用されます。
Panel3一般的な3Dタグ、サイズが可変の配列。

二次元配列の作成と処理は煩雑な作業であり、関数を記述する際にはユーザーがデータセットの方向を考慮する必要がありますが、Pandasデータ構造を使用することでユーザーの労力を減らすことができます。
に対して考慮するよりも重要です。1例えば、テーブルデータ(DataFrame)に対して、意味的に索引(行)と列を考慮する方が、軸0と軸

上記の通り、さらに役立ちます。

変異

すべてのPandasデータ構造は値が可変です(変更できます)。Series以外は、サイズが可変です。シリーズはサイズが固定です。 -注

DataFrameは広く使用されており、最も重要なデータ構造の1つです。パネルはあまり使用されません。

Series10Seriesは均一データを持つ1次元配列構造です。例えば、以下のシリーズは整数23Seriesは均一データを持つ1次元配列構造です。例えば、以下のシリーズは整数56、

10235617526173902672

Series10Seriesは均一データを持つ1次元配列構造です。例えば、以下のシリーズは整数23Seriesは均一データを持つ1次元配列構造です。例えば、以下のシリーズは整数56、

重要なポイント

同じデータ... サイズが固定 データの可変値

Data Frames

DataFrameは異構データを持つ2次元配列です。例えば、

NameAgeGenderRating
Steve32Male3.45
Lia28Female4.6
Vin45Male3.9
Katie38Female2.78

上表は、組織の販売チームのデータとその全体のパフォーマンスレベルを示しています。データは行と列で表現されており、各列は属性、各行は人を表しています。

列のデータ型
ColumnType
Name String
Age Integer
Gender String
Rating Float
重要なポイント

異構データ サイズが固定 データは可変

Panel

Panelは異構データを持つ3次元データ構造です。パネルはグラフィカルに表現するのが難しいですが、パネルはDataFrameのコンテナとして説明できます。

重要なポイント

異構データ サイズは可変 データは可変