17パンダインタビューの質問と回答を読む必要があります[新入生と経験者向け]

公開: 2020-07-29

Pandasは、BSDライセンスのオープンソースPythonライブラリであり、高性能で使いやすいデータ構造とデータ分析ツールを提供します。 Python with Pandasは、経済学、金融、統計、分析など、さまざまな分野で使用されています。この記事では、Pythonの学習者が知っておく必要のあるパンダの面接の重要な質問とNumPyの面接の質問をいくつかリストしました。 Pythonについて詳しく知りたい場合は、データサイエンスプログラムをご覧ください。

パンダインタビューの質問と回答

質問1-Pythonパンダを定義します。

パンダとは、Python用に明示的に記述されたソフトウェアライブラリを指し、データの分析と操作に使用されます。 Pandasは、WesMcKinneyによって作成されたオープンソースのクロスプラットフォームライブラリです。 2008年にリリースされ、数値データと時系列データを操作するためのデータ構造と操作を提供しました。パンダは、pipまたはAnacondaディストリビューションを使用してインストールできます。パンダを使用すると、表形式のデータに対して機械学習操作を非常に簡単に実行できます。

質問2–パンダのさまざまなタイプのデータ構造は何ですか？

Pandaライブラリは、DataFramesとSeriesの2つの主要なタイプのデータ構造をサポートします。これらのデータ構造は両方とも、NumPyの上に構築されています。 Seriesは1次元で最も単純なデータ構造ですが、DataFrameは2次元です。「パネル」と呼ばれるもう1つの軸ラベルは、3次元データ構造であり、major_axisやminor_axisなどの項目が含まれています。

ソース

質問3–パンダでシリーズを説明します。

Seriesは、任意のタイプ（文字列、浮動小数点数、整数、Pythonオブジェクトなど）のデータ値を保持できる1次元配列です。これは、パンダで最も単純なタイプのデータ構造です。ここでは、データの軸ラベルはインデックスと呼ばれます。

質問4–パンダでデータフレームを定義します。

DataFrameは、データが行と列を含む表形式で整列された2次元配列です。この構造を使用すると、行と列に対して算術演算を実行できます。

質問5–パンダで空のデータフレームを作成するにはどうすればよいですか？

パンダで空のDataFrameを作成するには、次のように入力します

パンダをpdとしてインポートします

ab = pd.DataFrame（）

質問6–パンダライブラリの最も重要な機能は何ですか？

パンダのライブラリの重要な機能は次のとおりです。

データアライメント
マージして参加する
メモリー効率
時系列
形を変える

読む： Apache PySparkのデータフレーム：包括的なチュートリアル

質問7–パンダでのインデックスの再作成についてどのように説明しますか？

インデックスを再作成するということは、特定の軸に沿った特定のラベルのセットに一致するようにデータを変更することを意味します。

インデックスを使用すると、次のようなさまざまな操作を実行できます。

ラベルのデータが存在しないラベルの場所に欠落値（NA）マーカーを挿入します。
新しいラベルのセットと一致するように、既存のデータのセットを並べ替えます。

質問8–パンダでDataFrameを作成するさまざまな方法は何ですか？ 例を挙げて説明します。

DataFrameは、ListsまたはDictofnd配列を使用して作成できます。

例1-リストを使用してデータフレームを作成する

パンダをpdとしてインポートします

＃文字列のリスト

Strlist = ['Pandas'、'NumPy']

＃リストでDataFrameコンストラクターを呼び出す

list = pd.DataFrame（Strlist）

print（list）

例2–配列のdictを使用してDataFrameを作成する

パンダをpdとしてインポートします

list = {'ID'：[1001、1002、1003]、'Department'：['Science'、'Commerce'、'Arts'、]}

list = pd.DataFrame（list）

印刷（リスト）

チェックアウト：データサイエンスインタビューの質問

質問9–パンダのカテゴリデータを説明しますか？

カテゴリデータとは、繰り返し可能なリアルタイムデータを指します。たとえば、国、性別、コードなどのカテゴリのデータ値は常に繰り返されます。パンダのカテゴリ値も、限られた数の可能な値のみを取ることができます。

このようなデータに対して数値演算を実行することはできません。パンダのカテゴリデータのすべての値は、カテゴリまたはnp.nanのいずれかにあります。

このデータ型は、次の場合に役立ちます。

文字列変数に含まれる値がわずかしかない場合は、それをカテゴリ変数に変換すると、メモリを節約できます。

この列はカテゴリ変数として扱われる必要があるため、他のPythonライブラリへのシグナルとして役立ちます。

辞書式順序は、論理順序のように正しくソートするためにカテゴリ順序に変換できます。

質問10–パンダのディクトを使用してシリーズを作成します。

パンダをpdとしてインポートします

numpyをnpとしてインポートします

ser = {'a'：1、'b'：2、'c'：3}

ans = pd.Series（ser）

印刷（ans）

質問11–パンダでシリーズのコピーを作成するにはどうすればよいですか？

パンダでシリーズのコピーを作成するには、次の構文を使用します。

pandas.Series.copy

Series.copy（deep = True）

* deepの値がfalseに設定されている場合、データもインデックスもコピーされません。

質問12– Pandasのデータフレームにインデックス、行、または列をどのように追加しますか？

DataFrameに行を追加するには、.loc（）、. iloc（）、および.ix（）を使用できます。 .loc（）はラベルベース、.iloc（）は整数ベース、.ix（）はブースラベルおよび整数ベースです。 DataFrameに列を追加するには、再び.loc（）または.iloc（）を使用できます。

質問13– Pandasデータフレームのインデックスまたは列の名前を変更するためにどのような方法を使用しますか？

.renameメソッドを使用して、DataFrameの列またはインデックス値の名前を変更できます

質問14–パンダでデータフレームを反復処理するにはどうすればよいですか？

パンダでDataFrameを反復処理するには、forループをiterows（）呼び出しと組み合わせて使用できます。

質問15– Pandas Numpy Arrayとは何ですか？

数値Python（NumPy）は、多次元および一次元配列要素の数値計算と処理を実行するためのPythonの組み込みパッケージとして定義されています。

NumPy配列は、他のPython配列と比較して高速に計算されます。

質問16–データフレームをExcelファイルに変換するにはどうすればよいですか？

単一のオブジェクトをExcelファイルに変換するには、ターゲットファイルの名前を指定するだけです。ただし、複数のシートを変換するには、ターゲットファイル名とともにExcelWriterオブジェクトを作成し、エクスポートするシートを指定する必要があります。

質問17–パンダのGroupby機能とは何ですか？

Pandasでは、groupby（）関数を使用すると、プログラマーは実際のセットでデータを使用してデータを再配置できます。この関数の主なタスクは、データをさまざまなグループに分割することです。

また読む： PythonAIと機械学習のオープンソースプロジェクトトップ15

結論

上記のPandasインタビューの質問とNumPyインタビューの質問が、今後のインタビューセッションの準備に役立つことを願っています。 Python言語を習得するのに役立つコースを探している場合は、upGradが最適なプラットフォームになります。

データサイエンスについて知りたい場合は、IIIT-B＆upGradのデータサイエンスのエグゼクティブPGプログラムをチェックしてください。これは、働く専門家向けに作成され、10以上のケーススタディとプロジェクト、実践的なハンズオンワークショップ、業界の専門家とのメンターシップを提供します。1業界のメンターとの1対1、400時間以上の学習、トップ企業との仕事の支援。

パンダライブラリはどの目的で使用されますか？

パンダの使用の背後にある主な理由は、データ分析のためです。 Pandasを使用すると、ユーザーはMicrosoft Excel、SQL、JSON、およびコンマ区切りの値などのさまざまな形式からデータをインポートできます。 Pandasは、ユーザーが選択、再形成、マージ、データクリーニングなどのさまざまなデータ操作操作を実行できるため、データ分析に非常に役立つと考えられています。それ以外に、パンダはさまざまなデータラングリング機能も提供します。

簡単に言えば、パンダはデータを含むさまざまな時間のかかる反復的なタスクを簡単に実行できると言えます。パンダで簡単にできるタスクは次のとおりです。

1.統計のマージと結合
2.分析データ
3.正規化データ
4.データの入力
5.データのクレンジング
6.検査データのロードと保存
7.データの視覚化

これらは、パンダで簡単にできるデータ操作タスクのほんの一部です。データサイエンティストは、パンダをデータ分析と操作に利用できる最高のツールであると投票しています。

Python Pandasが提供する重要な機能にはどのようなものがありますか？

PythonでPandasライブラリの真の力を活用するには、ユーザーに提供されている重要な機能のいくつかを調べる必要があります。データ分析に関して言えば、Pandasは、ユーザーにとって物事を簡単にするための多くの機能を備えた最も強力なツールであると考えられています。

Pandasライブラリの使用を開始する前に知っておく必要のある重要な機能のいくつかは次のとおりです。

1.データ処理
2.データの整列と索引付け
3.データクリーニング
4.欠落データの処理
5.データを読み書きするためのさまざまな入力および出力ツール
6.複数のファイル形式をサポートします
7.異なるデータセットをマージして結合します
8.パフォーマンスの最適化
9.データの視覚化
10.要件に従ってデータをグループ化する
11.利用可能なデータに対してさまざまな数学演算を実行する
12.必要なデータのみを使用するために、無関係なデータをマスクします
13.データセット内のさまざまな繰り返しから一意のデータを取り出す

PythonでPandasライブラリをインポートする理由は何ですか？

Pandasは、さまざまなデータ分析、データサイエンス、機械学習タスクを実行するために最も広く使用されているオープンソースのPythonライブラリです。 Pandasは、データラングリングで最も人気のあるパッケージであり、Pythonエコシステム内の他のさまざまなデータサイエンスモジュールと非常にうまく機能します。 Pandasライブラリは、すべてのデータサイエンスおよびデータ分析の専門家のデータに関して、何よりも優先されます。