Rプログラミングにおけるデータの視覚化:初心者が学ぶためのトップの視覚化

公開: 2020-01-22

データ分析に携わる人は誰でも、間違いなくデータの視覚化について聞いたことがあるし、扱ったことさえあります。 初心者の場合は、ここでデータの視覚化についてすべて学びます。 データの視覚化はデータ分析の重要な部分であり、グラフ、チャート、バー、またはその他の形式でのデータの視覚的表現を指します。 基本的に、データの視覚化の目的は、データと画像の関係を表現または描写することです。

ビッグデータの台頭により、データサイエンティストとデータアナリストは、理解を容易にするために視覚的表現を介して得られた洞察を簡素化することが義務付けられています。 データサイエンティストとアナリストが大量の複雑で膨大なデータセットを扱うようになったため、データの視覚化はこれまで以上に重要になっています。 データの視覚化は、手元にあるデータの視覚的または画像的な要約を提供します。これにより、データサイエンスとビッグデータの専門家は、データ内の隠れたパターンと傾向を簡単に識別できます。

データビジュアライゼーションのおかげで、データサイエンスとビッグデータの分野の専門家は、スプレッドシートの何千もの行と列を広範囲に閲覧する必要がありません。ビジュアライゼーションを参照して、関連するすべての情報がデータセット内のどこにあるかを理解できます。

Tableau、QlikView、d3.jsなどのスタンドアロンで気の利いたデータ視覚化ツールが多数ありますが、今日はRプログラミング言語でのデータ視覚化について説明します。 Rは、ほとんどすべてのデータ視覚化のニーズをカバーする多くの組み込み関数とライブラリが付属しているため、データ視覚化のための優れたツールです。

この投稿では、世界中のデータサイエンティストとアナリストが使用する8つのRデータ視覚化ツールについて説明します。

目次

トップ8のデータ視覚化ツール

1.棒グラフ

誰もが学校や大学で教えられた棒グラフに精通しています。 棒グラフを使用したRデータの視覚化では、概念と目的は同じです。2つ以上の変数間の比較を示すことです。 棒グラフは、さまざまなグループの累積合計の比較を示しています。 Rで棒グラフを作成するための標準構文は次のとおりです。

barplot(H、xlab、ylab、main、names.arg、col)

独自の目的に役立つさまざまな種類の棒グラフがあります。 水平棒グラフと垂直棒グラフが標準形式ですが、Rはグラフに水平棒と垂直棒の両方を作成できます。 さらに、Rは、各カテゴリにさまざまな変数を導入できる積み上げ棒グラフも提供します。 Rでは、barplot()を使用して棒グラフを作成します。

2.ヒストグラム

ヒストグラムは、Rの正確な数値または数値で最適に機能します。この表現は、データをビンに分割(分割)し、これらのビンの度数分布を示します。 ビンを微調整して、視覚化パターンにどのような影響があるかを確認できます。 Rを使用してヒストグラムを作成するための標準構文は次のとおりです。

hist(v、main、xlab、xlim、ylim、breaks、col、border)

ヒストグラムは、変数の確率推定値、つまりプロジェクトが完了するまでの期間を提供します。 ヒストグラムの各バーは、その範囲に存在する値の数の高さを表します。 R言語は、ヒストグラムを作成するためにhist()関数を使用します。

ソース

3.箱ひげ図

箱ひげ図は、最小値、25パーセンタイル、中央値、75パーセンタイル、および最大値を含む5つの統計的に有意な数値を示しています。 箱ひげ図は棒グラフと多くの類似点を共有していますが、箱ひげ図は、カテゴリデータのみに焦点を当てるのではなく、カテゴリ変数データと連続変数データの視覚化を提供します。 Rで箱ひげ図を作成するための標準構文は次のとおりです。

boxplot(x、data、notch、varwidth、names、main)

Rは、boxplot()関数を使用して箱ひげ図を作成します。 この関数は、任意の数の数値ベクトルを取り込んで、各ベクトルの箱ひげ図を描くことができます。 箱ひげ図は、データの広がりを視覚化し、それに基づいて推論を導き出すのに最適です。

世界のトップ大学からデータサイエンスコース学びましょうエグゼクティブPGプログラム、高度な証明書プログラム、または修士プログラムを取得して、キャリアを早急に進めましょう。

4.散布図

散布図は、デカルト平面内の多数の点を示しています。各点は2つの変数の値を表しています。 横軸に1つの変数を選択し、縦軸に2番目の変数を選択できます。 散布図の機能は、2つの連続変数を経時的に追跡することです。 Rでは、plot()関数を使用して散布図を作成します。 Rで散布図を作成するための標準構文は次のとおりです。

plot(x、y、main、xlab、ylab、xlim、ylim、axes)

散布図は、視覚化で誤った情報を避けたい場合に最適ですこれらは、単純なデータ検査に最適です。

5.コレログラム

コレログラムまたは相関行列は、データセット内の数値変数の各ペア間の関係を分析します。 完全なデータセットの概要を簡単に説明します。 コレログラムは、さまざまな時点でのデータセット間の相関量を強調することもできます。

Rでは、GGallyパッケージはコレログラムの作成に最適です。 古典的なコレログラム(散布図、相関係数、および変数分布を含む)を作成するには、ggpairs()関数を使用できます。 コレログラムを作成するためのもう1つの優れたパッケージは、コレログラムパッケージです。 このパッケージでは、表現の上部、下部、および対角線部分に表示するもの(散布図、円グラフ、テキスト、楕円など)を選択できます。 次のようにコレログラムパッケージを使用してコレログラムを作成するには:

corrgram(x、order =、panel =、lower.panel =、upper.panel =、text.panel =、diag.panel =)

ソース

6.ヒートマップ

ヒートマップは、マトリックスに含まれる個々の値が異なる色で表されるデータのグラフィック表現です。 ヒートマップを使用すると、2次元を軸として探索的データ分析を実行でき、色の強度は3次元を表します。 Rでは、heatmap()関数を使用してヒートマップを作成します。 ヒートマップを作成する前に、次のコードを使用してデータセットをマトリックス形式に変換する必要があります。

>ヒートマップ(as.matrix(mtcars))

Rでインタラクティブなヒートマップを作成するには、次の3つのオプションがあります。

  • plotly – plotlyを使用すると、ggplot2で作成されたヒートマップをインタラクティブなヒートマップに変換できます。
  • d3heatmap –このパッケージは、ベースRのheatmap()関数と同じ構文を使用して、インタラクティブなヒートマップを作成します。
  • heatmaply –これはすべてのRパッケージの中で最もカスタマイズ可能です。 これにより、さまざまな種類のカスタマイズオプションを選択できます。

7.六角形のビニング

六角形のビニングは、nが大きいデータセットの構造を視覚化するのに最適な2変量ヒストグラムの一種です。 ここでの基本的な概念は次のとおりです。

  • 六角形の規則的なグリッドは、セット[range(x)、range(y)]の上のXY平面に点在します。
  • 各六角形に含まれるポイントの数がカウントされ、データ構造内に格納されます。
  • カウントが0より大きい六角形は、カラーランプを使用するか、カウントに比例して六角形の半径を変化させることによってプロットされます。

読む:さまざまなタイプのデータサイエンティスト

ここで機能するアルゴリズムは、n≥106のデータセットの構造を表示するのに高速かつ効果的です。Rでは、hexbinパッケージには、六角形のビンを作成、操作、およびプロットするためのさまざまな関数が含まれています。 このパッケージは、基本的な六角形のビニングの概念を他の多くの関数と統合して、2変量平滑化を実行し、おおよその2変量中央値を見つけ、同じスケールで2セットのビンの違いを調べます。

8.モザイクプロット

Rプログラミングでは、分割表または双方向度数分布表からのデータを視覚化するときに、モザイクプロットが役立ちます。 これは、2つ以上のカテゴリ変数間の関係を表す双方向分割表のグラフィック表現です。 Rモザイクプロットは、高さが比例値を表す長方形を作成します。 Rでモザイクプロットを作成するための標準的な構文は次のとおりです。

mosaicplot(x、color = NULL、main =“ Title”)

基本的に、モザイクプロットは、同じ長さのレコードのリスト内のカテゴリ値の共起の条件付き確率を要約するスパインプロットの多次元拡張です2つ以上の質的変数からのデータを視覚化するのに役立ちます。

読む:データサイエンスと分析の給与

まとめ

業界のすべてのセクターがデータ主導のビジネスとマーケティングを促進するためにビッグデータに依存し続けているため、データの視覚化の重要性も同時に高まります。 チャートやグラフなどの視覚化手法は、従来のスプレッドシートや古風なレポートよりもはるかに効率的なデータ視覚化ツールであるため、Rデータ視覚化ツールはデータサイエンスやビッグデータ界で着実に人気を集めています。

データサイエンスについて知りたい場合は、データサイエンスのPGディプロマをチェックしてください。これは、働く専門家向けに作成され、10以上のケーススタディとプロジェクト、実践的なハンズオンワークショップ、業界の専門家とのメンターシップ、1対1の業界のメンター、400時間以上の学習とトップ企業との仕事の支援。

RとPythonのどちらを学ぶべきですか?

PythonとRはどちらも、習得が非常に簡単であると見なされています。 Pythonは、ソフトウェア開発を念頭に置いて作成されました。 JavaまたはC++の専門知識がある場合、PythonはRよりも簡単に利用できる可能性があります。一方、統計のバックグラウンドがある場合は、Rが少し簡単になる可能性があります。 Pythonのわかりやすい構文により、習得が容易になります。 Rは最初は学習曲線が高くなりますが、練習を続けるとかなり簡単になります。

Tableauはデータの視覚化に最適なツールですか?

Tableauは、使いやすさと非常に強力な2つの理由から、市場で最も人気のあるデータ視覚化ツールの1つです。 このプログラムは、数百のソースからデータをインポートし、チャートやマップなど、数十の視覚化スタイルを生成できます。

RとRStudioの違いは何ですか?

Rは統計計算用のプログラミング言語であり、RStudioはRを活用する統計プログラミング環境です。Rでプログラムを作成し、他のソフトウェアを使用せずに実行できます。 ただし、RStudioを効果的に機能させるには、Rと組み合わせて使用​​する必要があります。