数据科学的热门猜测问题和信息方法 [2022]

已发表: 2021-01-06

什么是猜测？

猜测是一种理论和评价的方法论；它可以帮助您以更高的准确度有效地工作。巩固结果是对数据的研究。它也是业务分析师或数据科学和数据架构师或数据技术人员的重要组成部分。

含义：这是关于了解您要解决的问题，以及这样做的目的是什么，为什么要解决它。
定义：它是关于特定对象以及流程流程的输入和输出。一句话，解释。
猜测：这是关于想法和结论的——你在你的问题中创建一个特定的对象。
估计：它是关于给定问题的数字的估计。
提出一个想法：通过研发来实施这个想法。

当一个猜测问题可以询问市场规模时，它就被称为“市场规模”问题。

以下是关于猜测的基本问题：

一个典型的星期一在纽约有多少人穿蓝色衣服？
一架飞机能装多少个网球？

如何接近猜测？

解决猜测问题的过程非常易于管理：

查看可能影响最终数量的可行参数并估计其数量。
退后一步想想。
澄清你的想法。
说出你的想法。
简单的数学方法-

当要猜测的数字是某种比率时，通常使用这种方法。任务是获得分子和分母，然后我们就完成了！

1.人均方法——

当要猜测的数字可以被认为是地理内个人、家庭或人口级别的消费项目时，使用此方法。

2.供需方式——

这种方法需要考虑项目的供应或需求（或两者）方面的估计数字。

一般来说，您可以通过以下两种方式之一提出猜测：

自上而下的方法
自下而上的方法

在自上而下，您从可能的最大宇宙开始，您的猜测是其中的一部分。

顶部有最广泛的基础。然后，您继续对这个宇宙应用一组条件或过滤器（无论您想如何放置），将宇宙中的数字减少到适合您猜测的数字。

自上而下估计过程的关键在于：

它准确地识别了起始宇宙。
它准确地识别出适用于您的猜测问题的许多相关条件/过滤器和细分。
分段：通常，您必须首先将 Universe 分段为桶，并对每个分段应用不同的过滤器。

数据科学猜测问题的提示：

练习演示：我们必须练习向观众演示您已完成的特定解决方案。
练习分析：分析在对给定问题进行思考过程中起着至关重要的作用。
练习数字：玩数字或创建自定义逻辑始终很重要。

在解决数据科学的猜测问题时，您需要了解以下几点：

您正在向不在您脑海中的人描述这一点。解决方案不适合你。
同时，切记不要把每个方面都变成一个全新的猜测本身！很容易被你的智力和分析能力所左右。
专注于问题。你听说过分析瘫痪吗？

数据科学猜测问题的目的是什么？

了解你了解情况的能力。
了解您连接事物的能力范围，以得出答案。
了解您优先考虑和忽略不同参数的能力。
了解您在信息不足的情况下的工作情况。

以下是数据科学的一些猜测性问题-

问题：1在 UCI Iris 数据集上使用 k-means 算法创建一个实验：

在本实验中，使用数据集中的所有特征进行 k-means 聚类，然后将聚类结果与所有样本的真实类标签进行比较。

使用 Multiclass Logistic Regression 模块执行多类分类并将其性能与 k-means 聚类的性能进行比较。

问题：2用一个非常简单的格式，解释一下 Precision & Recall？

问题：3如果给你一个数据集，你如何决定给用户使用哪种 ML 算法？

问题：4误报太多会更好吗？还是假阴性太多？

问题：5什么是模型精度和模型性能？你可以应用什么场景？

问题：6你如何确保你没有过度拟合模型？举例说明。

问题：7当你运行一个二分类树算法时是相当容易的。在二元算法中，树如何决定在根节点及其后续子节点处拆分哪个变量？

问题：8 NumPy 和 SciPy 是如何描述的？

问题：9编写一个基本的机器学习程序来检查使用任何分类器导入任何数据集的数据集的准确性？

问题：10创建一个回归算法，根据不同的变量预测汽车的价格。

问题：11开发一个模型，该模型使用不同的网络特征来检测哪些网络活动是使用二进制分类的入侵/攻击的一部分。

问题：12如何根据维基百科的描述进行分组（聚类）以找到相似的组织。

问题：13您如何预测谁将在下个月续订？

你需要什么数据来解决这个问题？
你会做什么样的分析？
需要什么样的预测模型算法？

问题：14你如何将昵称（Alen、Bob、Alex、Tim 等）映射到真实姓名？

问题：15使用带有 R 或 python 脚本的二进制分类器创建关于预定客运航班是否延误的预测。

问题：16使用线性回归预测汽车价格，并通过删除标准化损失列来准备和清理数据。

由于它有许多缺失值，请创建一个实验和模型。

问题：17有多少种方法可以将 14 个人分成 4 组，每组 5 人？

问：18标准正态曲线下面积是？

大于 1
等于 1
小于 1

问题：19创建一个回归算法，根据不同的变量预测汽车的价格。

问题：20您的经理在您训练期间要求建立一个包含 10000 棵树的随机森林模型，您得到的训练误差为 0.00。但是，在测试中，验证错误是 34.23。你会根据什么假设出了什么问题？如果模型没有经过完美训练，您将如何检查它？

问题：21在亚马逊上看到的“购买此商品的人也购买了……”的推荐是基于哪种算法？

问题：22哪些算法与您看到的“今日新闻和观点”推荐相关联？

阅读：数据科学面试问题

结论

我们希望这篇文章能帮助您理解数据科学的猜测问题以及如何克服这些问题。你会在 upGrad 找到更多像这样有用的文章；我们提供广泛的课程、MBA、数据科学、机器学习等。我们提供行业最佳个人的指导！

如果您有兴趣学习数据科学并选择该领域的职业，请查看 IIIT-B 和 upGrad 的数据科学执行 PG 计划，该计划专为在职专业人士创建，提供 10 多个案例研究和项目、实用的实践研讨会，与行业专家的指导，与行业导师的一对一，与顶级公司的 400 多个小时的学习和工作协助。

解决猜测问题的理想步骤是什么？

在回答一个猜测性的问题之前，明智的做法是记住一些要点以提出更好的想法。这些要点如下 - 在开始回答之前，您应该清除您对问题的所有疑问。您可以向面试官提出尽可能多的相关问题，但尽量避免导致任何数字计算的问题。这可能会对面试官产生不良影响。建议坚持是或否的问题，以避免任何不好的印象。不要试图一次解决所有问题，而是将其分解为较小的子问题，然后尝试解决每个较小的问题。请记住，不要将您的问题分成超过 6 个步骤。即使通过冗长的计算，这种方法也将帮助您得出答案。

什么是猜测？

猜测就是理解问题并找到解决问题的正确方法。它是一种理论和评价的方法论方法。在此类问题中，最重要的是您如何解释解决方案。
客客气气感觉像是一项艰巨的任务，尤其是当您第一次看到提出的问题时。从大型企业集团的市场规模到收入和人口，计算其中一些数量甚至接近球场实际上是不可能的。

解决猜测问题的不同方法是什么？

简单数学方法 - 这种方法主要用于估计的数字是某种比率的情况。人均方法 - 当要猜测的数字可以被认为是地理内个人、家庭或人口级别的消费项目时，使用这种方法。供需方法 - 这种方法需要您从供应方或需求方考虑数字。