4種類のデータ:名目、順序、離散、連続
公開: 2020-12-01目次
序章
データサイエンスとは、生データまたは構造化データを実験することです。 データは、ビジネスを正しい方向に導き、少なくとも現在のキャンペーンの戦略を立てたり、新製品の発売を簡単に整理したり、さまざまな実験を試したりするのに役立つ実用的な洞察を提供するための燃料です。
これらすべてに共通の駆動コンポーネントが1つあり、これがデータです。 大量のデータを生み出すデジタル時代に突入しています。 たとえば、Flipkartのような会社は、毎日2TBを超えるデータを生成しています。
このデータが私たちの生活の中で非常に重要である場合、エラーなしでこれを適切に保存して処理することが重要になります。 データセットを処理する場合、データのカテゴリは、特定のセットで適切な結果を得るのにどの前処理戦略が機能するか、または最良の結果を得るためにどのタイプの統計分析を適用するかを決定するために重要な役割を果たします。 一般的に使用されるデータのカテゴリのいくつかを詳しく見ていきましょう。
定性的データ型
定性的またはカテゴリー的データは、離散クラスの有限集合を使用して、検討中のオブジェクトを記述します。 つまり、このタイプのデータは、数値を使用して簡単にカウントまたは測定できないため、カテゴリに分類されます。 人の性別(男性、女性、またはその他)は、このデータ型の良い例です。
これらは通常、オーディオ、画像、またはテキストメディアから抽出されます。 もう1つの例は、現在の評価、電話の色、電話のカテゴリなどに関する情報を提供するスマートフォンブランドの場合です。 このすべての情報は、定性的データとして分類できます。 この下には2つのサブカテゴリがあります。
名目
これらは、自然な順序を持たない値のセットです。 いくつかの例でこれを理解しましょう。 スマートフォンの色は、ある色を他の色と比較できないため、名目上のデータ型と見なすことができます。
「赤」が「青」より大きいと述べることはできません。 人の性別は、男性、女性、その他を区別できないもう1つの性別です。 ミッドレンジ、予算セグメント、プレミアムスマートフォンのいずれの携帯電話カテゴリも、名目上のデータタイプです。
読む:データサイエンスのキャリア
序数
これらのタイプの値は、値のクラスを維持しながら自然な順序になっています。 衣料品ブランドのサイズを考えると、名札で小<中<大の順に簡単に並べ替えることができます。 テストで候補者をマークする際の評価システムは、A+がBグレードよりも確実に優れている順序データ型と見なすこともできます。
これらのカテゴリは、どのエンコーディング戦略をどのタイプのデータに適用できるかを決定するのに役立ちます。 機械学習モデルはこれらの値を直接処理できず、モデルは本質的に数学的なものであるため、数値タイプに変換する必要があるため、定性的データのデータエンコーディングは重要です。
カテゴリ間の比較がない名目データ型の場合は、数が少ないことを考慮したバイナリコーディングと同様のワンホットエンコーディングを適用でき、通常のデータタイプの場合は、整数形式のラベルエンコーディングを適用できます。エンコーディング。
定量的データ型
このデータ型は物事を定量化しようとし、本質的に数えられるようにする数値を考慮することによって行います。 スマートフォンの価格、提供される割引、製品の評価数、スマートフォンのプロセッサの頻度、またはその特定の電話のRAMなど、これらすべてが定量的データタイプのカテゴリに分類されます。
重要なことは、機能が取ることができる値は無限にある可能性があるということです。 たとえば、スマートフォンの価格はxの金額から任意の値まで変化する可能性があり、小数値に基づいてさらに分類することができます。 それらを明確に説明する2つのサブカテゴリは次のとおりです。
離散
該当する数値は整数または整数であり、このカテゴリに分類されます。 電話のスピーカーの数、カメラ、プロセッサのコアの数、これらすべてをサポートするシムの数は、ディスクリートデータタイプの例の一部です。

連続
小数は連続値と見なされます。 これらは、プロセッサの動作周波数、Androidバージョンの電話、wifi周波数、コアの温度などの形をとることができます。
必読:インドのデータサイエンティスト給与
OrdinalタイプとDiscreteタイプは重複できますか?
これに注意を払えば、序数クラスに番号を付けることができます。それから、それは離散型または序数と呼ばれるべきですか? 真実はそれがまだ普通であるということです。 これは、番号付けを行っても、クラス間の実際の距離が伝わらないためです。
たとえば、テストの評価システムについて考えてみます。 それぞれのグレードはA、B、C、D、Eであり、最初から番号を付けると、1、2、3、4、5になります。 数値の違いによると、EグレードとDグレードの間の距離は、DグレードとCグレードの間の距離と同じです。これは、CグレードがEグレードと比較してまだ許容できることを誰もが知っているため、あまり正確ではありませんが、中間違いはそれらを等しいと宣言します。
同じ手法を、ユーザーエクスペリエンスが非常に悪いから非常に良いまでのスケールで記録される調査フォームに適用することもできます。 さまざまなクラス間の違いは明確ではないため、直接定量化することはできません。
さまざまなテスト
データのすべての主要な分類について説明しました。 これは重要です。これで、さまざまなカテゴリで実行されるテストに優先順位を付けることができるようになりました。 ここで、定量的データにはヒストグラムまたは頻度プロットをプロットし、定性的データには円グラフと棒グラフをプロットするのが理にかなっています。
1つの従属変数と2つ以上の独立変数の関係を分析する回帰分析は、定量的データに対してのみ可能です。 ANOVAテスト(分散分析)テストは、1つの測定変数と2つの名義変数を使用する双方向ANOVAテストを適用できますが、質的変数にのみ適用できます。
このようにして、定性的データにChi-squareテストを適用して、カテゴリ変数間の関係を発見できます。
結論
この記事では、生成するデータによってテーブルが逆さまになる方法、さまざまなカテゴリのデータが必要に応じてどのように配置されるかについて説明しました。 また、順序データ型が個別のデータ型とどのように重複するかについても調べました。
どのタイプのプロットがどのカテゴリのデータに適しているかについて、特定のデータタイプに適用できるさまざまなタイプのテストや、すべてのタイプのデータを使用するその他のテストとともに説明しました。
ペースの速い技術の進歩の最前線に立つためにデータサイエンスを学ぶことに興味がある場合は、upGrad&IIIT-Bのデータサイエンスの高度な認定を確認してください。
データサイエンスが重要なのはなぜですか?
データサイエンスの重要性は、プログラミング、数学、統計の分野の専門知識を結集して、新しい洞察を生み出し、大量のデータを理解できるという事実にあります。 企業にとって、データサイエンスは、データの収集、保存、並べ替え、評価について説明しているため、データ主導の意思決定を行うための重要なリソースです。 経験豊富なコンピューターの専門家が頻繁に使用します。 データサイエンスが不可欠である理由を自問するとき、データの価値は高まり続けているため、答えは残ります。 データサイエンスは、デジタルデータが組織をどのように変化させ、より多くの情報に基づいた重要な選択を行えるようにするかを示すため、大きな需要があります。
データサイエンスの範囲は何ですか?
最近のデータサイエンスは、ほぼどこにでもあります。 これには、Amazonでの購入などのオンライン取引、Facebook / Instagramなどのソーシャルメディアフィード、Netflixの推奨事項、さらにはスマートフォンが提供する指や顔の認識機能も含まれます。 データサイエンスは、人工知能、モノのインターネット(IoT)、ディープラーニングなど、数多くの最先端の技術的アイデアを網羅しています。 データサイエンスの効果は、その進歩と技術の進歩により劇的に拡大し、その範囲が拡大しています。 データサイエンスを学ぶことで、多くのオプションから仕事のプロファイルを選択でき、これらの仕事のほとんどは十分にお金を払っています。 これらのジョブプロファイルには、データアナリスト、データサイエンティスト、データエンジニア、機械学習サイエンティストおよびエンジニア、ビジネスインテリジェンス開発者、データアーキテクト、統計学者などが含まれます。
名目データは順序データとどのように異なりますか?
名目データには、2つ以上のカテゴリを含む名前または特性が含まれ、カテゴリには固有の順序はありません。 つまり、これらのタイプのデータには、自然なランキングや順序はありません。 順序データ型は名目上のデータ型に似ていますが、2つの違いは、データの明らかな順序です。 全体として、順序データにはある程度の順序がありますが、名目データにはありません。 リッカート尺度、ブリストルスツール尺度、および0から10の間で評価されたその他の尺度など、すべてのランキングデータは、順序データを使用して表すことができます。