English | 简体中文 | 繁體中文 | Русский язык | Français | Español | Português | Deutsch | 日本語 | 한국어 | Italiano | بالعربية
Pandasには一般的に3つのデータ構造があります。
DataFrameは広く使用されており、最も重要なデータ構造の1つです。パネルはあまり使用されません。 DataFrame Panel
これらのデータ構造はNumpyの配列の上に構築されていますので、それらの実行速度は非常に速いです。
list:Pythonの標準データ型、主に一次元を使用し、機能が単純で効率が低い Dict:Pythonの標準データ型、多次元のキー/バリュー対、効率が低い
ndarray:Numpyの基本データ型、単一のデータ型 データ構造に注目します。/演算/次元(データ間の関係)
Series:1次元、インデックスを持つものに似ています。1次元ndarray DataFrame:2次元、テーブル型データ型、行/列インデックスを持つものに似ています。2次元ndarrayはデータとインデックスの関係(データの実際のアプリケーション)に注目します。
実用性、機能の強さ、操作の可操作性を比較すると:list < ndarray < Series/DataFrame
データの整理と分析作業では、ndarray配列は必要な補完として使用され、大部分のデータはPandasデータ型を使用するようにします。
これらのデータ構造を最も良い方法で考えるのは、高次元データ構造が低次元データ構造のコンテナであることです。例えば、DataFrameはSeriesのコンテナであり、PanelはDataFrameのコンテナです。
データ構造 | 次元 | 説明 |
DataFrameは広く使用されており、最も重要なデータ構造の1つです。パネルはあまり使用されません。 | 1 | 一次元データのシークエンスを保存するために使用されます。 |
Data Frames | 2 | DataFrameはより複雑なデータ構造であり、多次元データの保存に使用されます。 |
Panel | 3 | 一般的な3Dタグ、サイズが可変の配列。 |
二次元配列の作成と処理は煩雑な作業であり、関数を記述する際にはユーザーがデータセットの方向を考慮する必要がありますが、Pandasデータ構造を使用することでユーザーの労力を減らすことができます。
に対して考慮するよりも重要です。1例えば、テーブルデータ(DataFrame)に対して、意味的に索引(行)と列を考慮する方が、軸0と軸
変異
すべてのPandasデータ構造は値が可変です(変更できます)。Series以外は、サイズが可変です。シリーズはサイズが固定です。 -注
Series10Seriesは均一データを持つ1次元配列構造です。例えば、以下のシリーズは整数23Seriesは均一データを持つ1次元配列構造です。例えば、以下のシリーズは整数56、
10 | 23 | 56 | 17 | 52 | 61 | 73 | 90 | 26 | 72 |
Series10Seriesは均一データを持つ1次元配列構造です。例えば、以下のシリーズは整数23Seriesは均一データを持つ1次元配列構造です。例えば、以下のシリーズは整数56、
同じデータ... サイズが固定 データの可変値
DataFrameは異構データを持つ2次元配列です。例えば、
Name | Age | Gender | Rating |
Steve | 32 | Male | 3.45 |
Lia | 28 | Female | 4.6 |
Vin | 45 | Male | 3.9 |
Katie | 38 | Female | 2.78 |
上表は、組織の販売チームのデータとその全体のパフォーマンスレベルを示しています。データは行と列で表現されており、各列は属性、各行は人を表しています。
Column | Type |
Name | String |
Age | Integer |
Gender | String |
Rating | Float |
異構データ サイズが固定 データは可変
Panelは異構データを持つ3次元データ構造です。パネルはグラフィカルに表現するのが難しいですが、パネルはDataFrameのコンテナとして説明できます。
異構データ サイズは可変 データは可変