必须阅读 26 个数据分析师面试问题和答案:2022 年终极指南
已发表: 2021-01-07参加数据分析师面试并想知道您将经历的所有问题和讨论是什么? 在参加数据分析面试之前,最好先了解一下数据分析师面试问题的类型,这样你就可以在心理上为他们准备好答案。
在本文中,我们将着眼于一些最重要的数据分析师面试问题和答案。 数据科学和数据分析目前都是该行业蓬勃发展的领域。 自然地,这些领域的职业正在飞速发展。 在数据科学领域建立职业生涯的最佳部分是它提供了多种职业选择供您选择!
世界各地的组织都在利用大数据来提高他们的整体生产力和效率,这不可避免地意味着对数据分析师、数据工程师和数据科学家等专业数据专业人员的需求也呈指数级增长。 然而,要包揽这些工作,只有基本的资格是不够的。 在您身边拥有数据科学认证将增加您的个人资料的权重。
你需要弄清楚最棘手的部分——面试。 不用担心,我们创建了这个数据分析师面试问题和答案指南,以了解问题背后的深度和真实意图。
目录
顶级数据分析师面试问答
1.成为数据分析师的关键要求是什么?
这个数据分析师面试问题测试您对成为数据科学家所需技能的了解。
要成为数据分析师,您需要:
- 精通编程语言(XML、Javascript 或 ETL 框架)、数据库(SQL、SQLite、Db2 等),并且对报告包(业务对象)有广泛的了解。
- 能够有效地分析、组织、收集和传播大数据。
- 您必须在数据库设计、数据挖掘和分割技术等领域拥有丰富的技术知识。
- 对用于分析海量数据集(例如 SAS、Excel 和 SPSS 等)的统计软件包有充分的了解。
2. 数据分析师的重要职责是什么?
这是最常见的数据分析师面试问题。 你必须清楚你的工作需要什么。
需要数据分析师来执行
以下任务:
- 从多个来源收集和解释数据并分析结果。
- 过滤和“清理”从多个来源收集的数据。
- 为数据分析的各个方面提供支持。
- 分析复杂的数据集并识别其中的隐藏模式。
- 保持数据库安全。
3. “数据清洗”是什么意思? 练习这个的最佳方法是什么?
如果您正在从事数据分析师的工作,这是最常见的数据分析师面试问题之一。
数据清洗主要是指从数据中检测和消除错误和不一致以提高数据质量的过程。
清理数据的最佳方法是:
- 根据各自的属性分离数据。
- 将大块数据分解成小数据集,然后清理它们。
- 分析每个数据列的统计信息。
- 创建一组实用程序函数或脚本来处理常见的清洁任务。
- 跟踪所有数据清理操作,以便在需要时从数据集中轻松添加或删除。
4. 列出用于数据分析的最佳工具。
关于最常用工具的问题是您在任何数据分析面试问题中最常见的问题。
最有用的数据分析工具是:
- 画面
- 谷歌融合表
- 谷歌搜索运算符
- 刀
- 快速矿工
- 求解器
- OpenRefine
- 节点XL
- io
结帐:印度的数据分析师薪水
5. 数据剖析和数据挖掘有什么区别?
数据剖析侧重于分析数据的各个属性,从而提供有关数据属性的有价值信息,例如数据类型、频率、长度,以及它们的离散值和值范围。 相反,数据挖掘旨在识别异常记录、分析数据集群和序列发现等。
6.什么是KNN插补法?
KNN 插补方法试图使用最接近缺失属性值的那些属性值来插补缺失属性的值。 使用距离函数确定两个属性值之间的相似性。
7. 数据分析师应该如何处理丢失或可疑的数据?
在这种情况下,数据分析师需要:
- 使用删除方法、单一插补方法和基于模型的方法等数据分析策略来检测缺失数据。
- 准备一份验证报告,其中包含有关可疑或缺失数据的所有信息。
- 仔细检查可疑数据以评估其有效性。
- 用正确的验证码替换所有无效数据(如果有)。
8. 说出数据分析师使用的不同数据验证方法。
有很多方法可以验证数据集。 数据分析师最常用的一些数据验证方法包括:
- 字段级验证——在这种方法中,数据验证在用户输入数据时在每个字段中完成。 它有助于在您进行时纠正错误。
- 表单级别验证- 在此方法中,数据在用户完成表单并提交后进行验证。 它一次检查整个数据输入表单,验证其中的所有字段,并突出显示错误(如果有),以便用户可以更正它。
- 数据保存验证——这种数据验证技术用于保存实际文件或数据库记录的过程中。 通常,它是在必须验证多个数据输入表单时完成的。
- 搜索条件验证——此验证技术用于为用户提供准确且相关的匹配项,以匹配他们搜索的关键字或短语。 这种验证方法的主要目的是确保用户的搜索查询能够返回最相关的结果。
9. 定义异常值
如果没有这个问题,数据分析师面试问答指南将无法完成。 异常值是数据分析师常用的术语,指的是与样本中的设定模式似乎相去甚远且背离的值。 有两种异常值——单变量和多变量。
用于检测异常值的两种方法是:
- 箱线图法——根据这种方法,如果值高于或低于 1.5*IQR(四分位距),使其高于上四分位数 (Q3) 或低于下四分位数 (Q1),则该值是异常值.
- 标准差法——该方法表明,如果一个值高于或低于平均值±(3*标准差),则为异常值。 探索性数据分析及其对您业务的重要性
10. 什么是“集群”? 命名聚类算法的属性。
聚类是一种将数据分类为簇和组的方法。 聚类算法具有以下属性:

- 分层或扁平
- 硬和软
- 迭代
- 析取的
11.什么是K-mean算法?
K-mean 是一种划分技术,其中对象被分为 K 个组。 在该算法中,簇是球形的,数据点围绕该簇对齐,并且簇的方差彼此相似。
12. 定义“协同过滤”。
协同过滤是一种基于用户行为数据创建推荐系统的算法。 例如,在线购物网站通常会根据您的浏览历史和以前的购买记录在“为您推荐”下编制一份商品清单。 该算法的关键组成部分包括用户、对象和他们的兴趣。
13. 说出对数据分析师非常有益的统计方法?
数据分析师最常用的统计方法是:
- 贝叶斯方法
- 马尔科夫过程
- 单纯形算法
- 插补
- 空间和集群过程
- 排名统计、百分位数、异常值检测
- 数学优化
14. 什么是 N-gram?
n-gram 是给定文本或语音中 n 个项目的连接序列。 准确地说,N-gram 是一种概率语言模型,用于预测特定序列中的下一项,如 (n-1)。
15. 什么是哈希表冲突? 如何预防?
这是重要的数据分析师面试问题之一。 当两个单独的键散列到一个共同的值时,就会发生散列表冲突。 这意味着两个不同的数据不能存储在同一个槽中。
可以通过以下方式避免哈希冲突:
- 分离链接——在这种方法中,数据结构用于存储多个项目散列到一个公共槽。
- 开放式寻址——此方法寻找空槽并将项目存储在第一个可用的空槽中。
16. 定义“时间序列分析”。
系列分析通常可以在两个域中执行——时域和频域。
时间序列分析是通过使用指数平滑、对数线性回归方法等技术分析过去收集的数据来完成过程输出预测的方法。
17. 你应该如何处理多源问题?
要解决多源问题,您需要:
- 识别相似的数据记录并将它们组合成一个记录,该记录将包含所有有用的属性,减去冗余。
- 通过模式重构促进模式集成。
18. 提及数据分析项目的步骤。
数据分析项目的核心步骤包括:
- 数据分析项目的首要要求是深入了解业务需求。
- 第二步是确定最适合业务需求的最相关数据源,并从可靠且经过验证的来源获取数据。
- 第三步涉及探索数据集、清理数据并组织数据以更好地理解手头的数据。
- 第四步,数据分析师必须验证数据。
- 第五步涉及实施和跟踪数据集。
- 最后一步是创建一个最可能的结果列表并进行迭代,直到完成所需的结果。
19. 数据分析师在进行数据分析时会遇到哪些问题?
您需要了解的关键数据分析师面试问题。 数据分析师在执行数据分析时可能会遇到以下问题:
- 存在重复条目和拼写错误。 这些错误会影响数据质量。
- 从不可靠的来源获得的低质量数据。 在这种情况下,数据分析师将不得不花费大量时间来清理数据。
- 从多个来源提取的数据在表示上可能会有所不同。 一旦收集到的数据在被清理和组织后被合并,数据表示的变化可能会导致分析过程的延迟。
- 数据不完整是数据分析过程中的另一大挑战。 这将不可避免地导致错误或错误的结果。
20. 好的数据模型有什么特点?
为了使数据模型被认为是好的和开发的,它必须描述以下特征:
- 它应该具有可预测的性能,以便可以准确地或至少接近准确地估计结果。
- 它应该能够适应和响应变化,以便它能够满足不断增长的业务需求。
- 它应该能够与数据的变化成比例地缩放。
- 它应该是可消耗的,可以让客户/客户获得有形和有利可图的结果。
21. 区分方差和协方差。
方差和协方差都是统计术语。 方差描述了两个数字(数量)相对于平均值的距离。 因此,您只会知道这两个量之间关系的大小(数据围绕均值分布的程度)。 相反,协方差描述了两个随机变量将如何一起变化。 因此,协方差给出了两个量如何相对于彼此变化的方向和大小。
22. 解释“正态分布”。
流行的数据分析师面试问题之一。 正态分布,更好地称为贝尔曲线或高斯曲线,是指描述和测量变量值如何分布的概率函数,即它们的均值和标准偏差如何不同。 在曲线中,分布是对称的。 虽然大多数观察结果都集中在中心峰值附近,但这些值的概率会远离平均值,在两个方向上均等地逐渐减小。
23. 解释单变量、双变量和多变量分析。
单变量分析是指一种描述性统计技术,适用于包含单个变量的数据集。 单变量分析考虑值的范围以及值的集中趋势。
双变量分析同时分析两个变量以探索它们之间的经验关系的可能性。 它试图确定两个变量之间是否存在关联以及关联的强度,或者变量之间是否存在差异以及这些差异的重要性。
多变量分析是双变量分析的扩展。 基于多元统计的原理,多元分析同时观察和分析多个变量(两个或多个自变量),以预测个体受试者的因变量的值。
24. 解释 R-Squared 和 Adjusted R-Squared 的区别。
R-Squared 技术是对因变量变化比例的统计测量,如自变量所解释的那样。 Adjusted R-Squared 本质上是 R-squared 的修改版本,针对模型中预测变量的数量进行了调整。 它提供了由对因变量有直接影响的特定自变量解释的变异百分比。
25、版本控制有什么好处?
版本控制的主要优点是——
- 它允许您比较文件、识别差异并无缝整合更改。
- 它通过识别哪个版本属于哪个类别(开发、测试、QA 和生产)来帮助跟踪应用程序构建。
- 它保留了项目文件的完整历史记录,如果中央服务器出现故障,它会派上用场。
- 它非常适合安全地存储和维护代码文件的多个版本和变体。
- 它允许您查看对不同文件的内容所做的更改。
26. 数据分析师如何在 Excel 表格中突出显示包含负值的单元格?
我们的数据分析师面试问答指南中的最后一个问题。 数据分析师可以使用条件格式来突出显示 Excel 工作表中具有负值的单元格。 以下是条件格式化的步骤:
- 首先,选择具有负值的单元格。
- 现在,转到主页选项卡并选择条件格式选项。
- 然后,转到突出显示单元格规则并选择小于选项。
- 在最后一步中,您必须转到“小于”选项的对话框并输入“0”作为值。
结论
至此,我们的数据分析师面试问题和答案指南列表到此结束。 尽管这些数据分析师面试问题是从大量可能的问题中挑选出来的,但如果您是一名有抱负的数据分析师,这些是您最有可能面临的问题。 这些问题为任何数据分析师面试奠定了基础,知道这些问题的答案肯定会让你走得很远!
如果您对学习深入的数据分析、让数据科学走在快节奏技术进步的前沿感到好奇,请查看 upGrad 和 IIIT-B 的数据科学执行 PG 计划。
数据分析行业的人才趋势是什么?
随着数据科学的逐渐发展,某些领域也出现了显着增长。 这些领域是: 随着数据科学和数据分析行业的显着增长,数据工程师的职位空缺越来越多,这反过来又增加了对更多 IT 专业人员的需求。 随着技术的进步,数据科学家的角色也在逐渐演变。 分析任务正在变得自动化,这使数据科学家处于不利地位。 自动化可能会承担数据科学家目前花费 70-80% 时间的数据准备任务。
解释聚类分析及其特点。
我们定义一个对象而不标记它的过程称为聚类分析。 它使用数据挖掘将各种相似的对象分组到一个集群中,就像在判别分析中一样。 它的应用包括模式识别、信息分析、图像分析、机器学习、计算机图形学和其他各种领域。 聚类分析是一项使用其他几种算法进行的任务,这些算法在许多方面彼此不同,从而创建了一个聚类。 以下是聚类分析的一些特征: 聚类分析具有高度可扩展性。 它可以处理一组不同的属性。 它表现出高维度,可解释性。 它在许多领域都很有用,包括机器学习和信息收集。
什么是异常值以及如何处理它们?
异常值是指数据中的异常或细微差异。 它可能在数据收集期间发生。 有 4 种方法可以检测数据集中的异常值。 这些方法如下: Boxplot 是一种检测异常值的方法,我们通过它们的四分位数分离数据。 散点图以笛卡尔平面上标记的点集合的形式显示 2 个变量的数据。 一个变量的值代表水平轴(x-ais),另一个变量的值代表垂直轴(y 轴)。 在计算 Z 分数时,我们会寻找远离中心的点并将它们视为异常值。