數據科學的熱門猜測問題和信息方法 [2022]

已發表: 2021-01-06

什麼是猜測？

猜測是一種理論和評價的方法論；它可以幫助您以更高的準確度有效地工作。鞏固結果是對數據的研究。它也是業務分析師或數據科學和數據架構師或數據技術人員的重要組成部分。

含義：這是關於了解您要解決的問題，以及這樣做的目的是什麼，為什麼要解決它。
定義：它是關於特定對像以及流程流程的輸入和輸出。一句話，解釋。
猜測：這是關於想法和結論的——你在你的問題中創建一個特定的對象。
估計：它是關於給定問題的數字的估計。
提出一個想法：通過研發來實施這個想法。

當一個猜測問題可以詢問市場規模時，它就被稱為“市場規模”問題。

以下是關於猜測的基本問題：

一個典型的星期一在紐約有多少人穿藍色衣服？
一架飛機能裝多少個網球？

如何接近猜測？

解決猜測問題的過程非常易於管理：

查看可能影響最終數量的可行參數並估計其數量。
退後一步想想。
澄清你的想法。
說出你的想法。
簡單的數學方法-

當要猜測的數字是某種比率時，通常使用這種方法。任務是獲得分子和分母，然後我們就完成了！

1.人均方法——

當要猜測的數字可以被認為是地理內個人、家庭或人口級別的消費項目時，使用此方法。

2.供需方式——

這種方法需要考慮項目的供應或需求（或兩者）方面的估計數字。

一般來說，您可以通過以下兩種方式之一提出猜測：

自上而下的方法
自下而上的方法

在自上而下，您從可能的最大宇宙開始，您的猜測是其中的一部分。

頂部有最廣泛的基礎。然後，您繼續對這個宇宙應用一組條件或過濾器（無論您想如何放置），將宇宙中的數字減少到適合您猜測的數字。

自上而下估計過程的關鍵在於：

它準確地識別了起始宇宙。
它準確地識別出適用於您的猜測問題的許多相關條件/過濾器和細分。
分段：通常，您必須首先將 Universe 分段為桶，並對每個分段應用不同的過濾器。

數據科學猜測問題的提示：

練習演示：我們必須練習向觀眾演示您已完成的特定解決方案。
練習分析：分析在對給定問題進行思考過程中起著至關重要的作用。
練習數字：玩數字或創建自定義邏輯始終很重要。

在解決數據科學的猜測問題時，您需要了解以下幾點：

您正在向不在您腦海中的人描述這一點。解決方案不適合你。
同時，切記不要把每個方面都變成一個全新的猜測本身！很容易被你的智力和分析能力所左右。
專注於問題。你聽說過分析癱瘓嗎？

數據科學猜測問題的目的是什麼？

了解你了解情況的能力。
了解您連接事物的能力範圍，以得出答案。
了解您優先考慮和忽略不同參數的能力。
了解您在信息不足的情況下的工作情況。

以下是數據科學的一些猜測性問題-

問題：1在 UCI Iris 數據集上使用 k-means 算法創建一個實驗：

在本實驗中，使用數據集中的所有特徵進行 k-means 聚類，然後將聚類結果與所有樣本的真實類標籤進行比較。

使用 Multiclass Logistic Regression 模塊執行多類分類並將其性能與 k-means 聚類的性能進行比較。

問題：2用一個非常簡單的格式，解釋一下 Precision & Recall？

問題：3如果給你一個數據集，你如何決定給用戶使用哪種 ML 算法？

問題：4誤報太多會更好嗎？還是假陰性太多？

問題：5什麼是模型精度和模型性能？你可以應用什麼場景？

問題：6你如何確保你沒有過度擬合模型？舉例說明。

問題：7當你運行一個二分類樹算法時是相當容易的。在二元算法中，樹如何決定在根節點及其後續子節點處拆分哪個變量？

問題：8 NumPy 和 SciPy 是如何描述的？

問題：9編寫一個基本的機器學習程序來檢查使用任何分類器導入任何數據集的數據集的準確性？

問題：10創建一個回歸算法，根據不同的變量預測汽車的價格。

問題：11開發一個模型，該模型使用不同的網絡特徵來檢測哪些網絡活動是使用二進制分類的入侵/攻擊的一部分。

問題：12如何根據維基百科的描述進行分組（聚類）以找到相似的組織。

問題：13您如何預測誰將在下個月續訂？

你需要什麼數據來解決這個問題？
你會做什麼樣的分析？
需要什麼樣的預測模型算法？

問題：14你如何將暱稱（Alen、Bob、Alex、Tim 等）映射到真實姓名？

問題：15使用帶有 R 或 python 腳本的二進制分類器創建關於預定客運航班是否延誤的預測。

問題：16使用線性回歸預測汽車價格，並通過刪除標準化損失列來準備和清理數據。

由於它有許多缺失值，請創建一個實驗和模型。

問題：17 有多少種方法可以將 14 個人分成 4 組，每組 5 人？

問：18標準正態曲線下面積是？

大於 1
等於 1
小於 1

問題：19創建一個回歸算法，根據不同的變量預測汽車的價格。

問題：20您的經理在您訓練期間要求建立一個包含 10000 棵樹的隨機森林模型，您得到的訓練誤差為 0.00。但是，在測試中，驗證錯誤是 34.23。你會根據什麼假設出了什麼問題？如果模型沒有經過完美訓練，您將如何檢查它？

問題：21在亞馬遜上看到的“購買此商品的人也購買了……”的推薦是基於哪種算法？

問題：22哪些算法與您看到的“今日新聞和觀點”推薦相關聯？

閱讀：數據科學面試問題

結論

我們希望這篇文章能幫助您理解數據科學的猜測問題以及如何克服這些問題。你會在 upGrad 找到更多像這樣有用的文章；我們提供廣泛的課程、MBA、數據科學、機器學習等。我們提供行業最佳個人的指導！

如果您有興趣學習數據科學並選擇該領域的職業，請查看 IIIT-B 和 upGrad 的數據科學執行 PG 計劃，該計劃專為在職專業人士創建，提供 10 多個案例研究和項目、實用的實踐研討會，與行業專家的指導，與行業導師的一對一，與頂級公司的 400 多個小時的學習和工作協助。

解決猜測問題的理想步驟是什麼？

在回答一個猜測性的問題之前，明智的做法是記住一些要點以提出更好的想法。這些要點如下 - 在開始回答之前，您應該清除您對問題的所有疑問。您可以向面試官提出盡可能多的相關問題，但盡量避免導致任何數字計算的問題。這可能會對面試官產生不良影響。建議堅持是或否的問題，以避免任何不好的印象。不要試圖一次解決所有問題，而是將其分解為較小的子問題，然後嘗試解決每個較小的問題。請記住，不要將您的問題分成超過 6 個步驟。即使通過冗長的計算，這種方法也將幫助您得出答案。

什麼是猜測？

猜測就是理解問題並找到解決問題的正確方法。它是一種理論和評價的方法論方法。在此類問題中，最重要的是您如何解釋解決方案。
客客氣氣感覺像是一項艱鉅的任務，尤其是當您第一次看到提出的問題時。從大型企業集團的市場規模到收入和人口，計算其中一些數量甚至接近球場實際上是不可能的。

解決猜測問題的不同方法是什麼？

簡單數學方法 - 這種方法主要用於估計的數字是某種比率的情況。人均方法 - 當要猜測的數字可以被認為是地理內個人、家庭或人口級別的消費項目時，使用這種方法。供需方法 - 這種方法需要您從供應方或需求方考慮數字。