数据科学面试问答 - 15 个最常见的问题
已发表: 2019-07-08工作面试总是很棘手。 要想顺利通过面试,不仅要有深厚的学科知识,还要有自信和沉稳的心态。 如果您正在为数据科学做准备,这一点尤其正确——它会让您的所有能力都受到考验!
在数据科学面试中,您将不得不面对从基本数据科学问题到统计、数据分析、机器学习和深度学习等不同主题的大量问题。 但这还不是全部——您的软技能(沟通、团队合作等)也将受到考验。
为了简化您的准备过程,我们整理了 15 个最常见的数据科学面试问题列表。 我们将从基础开始,然后转到更高级的主题和问题。
所以,事不宜迟,让我们开始吧!
- 什么是数据科学? 监督和无监督机器学习有何不同?
简而言之,数据科学是对数据的研究。 它涉及从不同来源收集数据,对其进行存储、清理和组织,并对其进行分析以从中发现有意义的信息。 数据科学结合了数学、统计计算机科学、机器学习、数据可视化、聚类分析和数据建模。 它旨在从原始数据(结构化和非结构化)中获得有价值的见解,并利用这些见解对业务和 IT 战略产生积极影响。 这些想法可以帮助企业优化流程、提高生产力和收入、简化营销策略、提高客户满意度等等。
监督机器学习和无监督机器学习在以下方面彼此不同:
- 在有监督的 ML 中,输入数据被标记。 在无监督机器学习中,输入数据仍未标记。
- 监督机器学习使用训练数据集,无监督机器学习使用输入数据集。
- 监督机器学习用于预测目的,而无监督机器学习用于分析目的。
- 有监督的 ML 支持分类和回归。 然而,无监督机器学习可以实现分类、密度估计和降维。
- Python 或 R – 哪个更适合文本分析?
在文本分析方面,Python 似乎是最合适的选择。 这是因为它带有 Pandas 库,其中包括用户友好的数据结构和高性能数据分析工具。 此外,Python 对于各种文本分析任务来说都是高效且快速的。 至于 R,它最适合机器学习应用程序。
- Python 支持哪些数据类型?
Python 有一系列内置数据类型,包括:
- 布尔值
- 数字(整数、长整数、浮点数、复数)
- 序列(列表、字符串、字节、元组)
- 套
- 映射(字典)
- 文件对象
- 有哪些不同的分类算法?
关键的分类算法是线性分类器(逻辑回归、朴素贝叶斯分类器)、决策树、增强树、随机森林、SVM、核估计、神经网络和最近邻。
- 什么是正态分布?
通常,数据以各种方式分布,要么偏左要么偏右,或者在少数情况下,它可能会变得混乱。 但是,可能存在数据围绕中心值分布而没有任何向左或向右偏差的情况,从而获得钟形曲线形式的正态分布。
资源
该曲线以对称的钟形曲线的形式描绘了随机变量的分布。
- A/B 测试的重要性是什么?
A/B 测试是对涉及两个变量 A 和 B 的随机实验的统计假设测试。A/B 测试有助于识别对网页所做的任何更改或更改,以最大化感兴趣的结果。 这是为企业确定最佳在线促销和营销策略的绝佳方法。
- 什么是选择偏差?
选择偏差是当研究人员决定要研究的样本时发生的“主动”错误。 在这种情况下,样本数据被收集并准备用于数据建模,但它具有不能真正代表模型将考虑的未来案例群体的特征。 当样本数据的一个子集被系统地选择并包含/排除在数据分析之外时,就会发生选择偏差。 存在三种不同类型的选择偏差:
- 抽样偏差:当数据集的非随机样本导致数据集中的某些成员不太可能包含在研究中,从而导致样本有偏差时发生的系统误差。
- 时间间隔:当数据分析试验在极值处提前终止时发生。 但是,具有最大方差的变量更有可能获得极值(即使所有变量都具有相似的均值)。
- 减员:由于减员折扣或在完成前终止的试验期间参与者流失而发生。
- 什么是线性回归? 线性回归需要哪些假设?
线性回归是一种用于预测分析的统计工具。 在此方法中,变量(例如 Y)的得分是根据另一个变量(例如 X)的得分来预测的。 这里,Y 是标准变量,而 X 是预测变量。
在线性回归中,有四个基本假设:
- 因变量和回归变量之间存在线性关系。 因此,创建的数据模型将与数据同步。
- 数据的残差是相互独立的并且是分布的。
- 解释变量之间存在最小的多重共线性。
- 存在“同方差性”,这意味着回归线周围的方差对于预测变量的所有值都是相同的。
- 什么是交叉验证?
交叉验证是一种用于模型验证的过程。 这里的目的是在训练阶段使用验证数据集来测试模型,以限制过度拟合等问题,当然,还要确定模型将如何推广到独立数据集。

交叉验证 (CV) 是一种模型验证技术,用于测试机器学习模型的有效性。 它也是一种在数据有限的情况下用于评估模型的重采样方法。 在交叉验证方法中,保留一部分数据用于测试和验证,并用于确定统计分析的结果将如何推广到独立数据集。
- 什么是二项式概率公式?
二项式概率分布考虑了独立事件的 N 次试验中每个可能的成功次数的概率,每个试验都具有 π (pi) 的发生概率。 二项式概率分布的公式是:
- 单变量、双变量和多变量分析有什么区别?
单变量分析是指描述性统计分析技术,可以根据在特定时间点所涉及的变量数量进行区分(例如,描述产品在特定地区的销售情况的饼图)。 与此相反,双变量分析旨在一次了解和确定两个变量之间的差异,就像在散点图中一样(例如,销售量和支出之间的关系)。
多变量分析涉及对两个以上变量的研究,以了解变量对响应/结果的影响。
- 什么是人工神经网络?
通俗地说,人工神经网络(ANN)是指仿照人脑设计的计算系统。 就像人脑一样,人工神经网络由许多简单的处理元素组成,称为人工神经元,其功能受到动物神经元的启发。 人工神经网络可以从经验中学习,并且可以适应不断变化的输入,这样网络就可以产生最好的结果,而无需重新设计输出标准。
- 什么是递归神经网络 (RNN)?
循环神经网络 (RNN) 是一种人工神经网络,其中节点连接导致沿时间序列的有向图,从而表现出时间动态行为。 要了解 RNN,您必须首先了解前馈网络的工作原理。 前馈网络以直线方式传递信息(不接触同一节点两次),而递归神经网络通过类似循环的过程循环信息。 与前馈神经网络相反,RNN 可以使用其内部存储器来处理输入序列。 因此,RNN 最适合未分段或连接的任务,例如手写识别和语音识别。
前 17 名数据分析师面试问题和答案
- 什么是反向传播?
反向传播是指用于训练多层神经网络的监督学习算法。 通过反向传播,误差可以从网络的一端转移到网络内的所有权重,从而允许有效地计算梯度。 它使用梯度下降技术在权重空间中寻找误差函数的最小值。 最小化误差函数的权重被认为是学习问题的解决方案。
- 反向传播涉及以下步骤:
- 训练数据的前向传播。
- 使用输出和目标计算导数。
- 反向传播以计算误差的导数。
- 使用先前计算的导数作为输出。
- 计算更新的权重值并更新权重。
- 解释梯度下降。
要了解梯度下降,您必须首先了解梯度是什么。 梯度是衡量特定函数的输出相对于输入的微小变化而变化的量度。 它测量所有权重的变化以响应误差的变化。 因此,换句话说,梯度是函数的斜率。
梯度下降是一种优化算法,可帮助找到函数 (f) 的参数值(系数),该函数 (f) 使成本函数 (cost) 最小化。 它最适合无法解析计算参数的情况。
结论
在结束语中,您必须知道没有单一或最好的方式来准备面试。 这完全取决于你的知识基础、你的信心和方法,以及一点运气。 虽然这些只是少数数据科学问题,但我们确实希望这能让您大致了解在数据科学面试中可能会被问到的问题类型。 也就是说,做好充分的准备,祝你一切顺利!
学习世界顶尖大学的数据科学课程。 获得行政 PG 课程、高级证书课程或硕士课程,以加快您的职业生涯。
在数据科学面试中,有几轮?
可能需要一到两轮编程面试,但这完全取决于你申请的公司。 一些公司使面试过程持续多达六轮。 您可以通过研究最常见的问题,列出最常见和最棘手的问题,然后在面试前分析这些问题来准备每个问题的回答。
数据科学面试官寻找的品质是什么?
要在数据科学面试中取得好成绩,您需要了解很多关于算术、统计学、编程语言、商业智能基础知识,当然还有机器学习技术。 你肯定会被要求展示你的数据能力如何与公司的选择和战略相关联。 在当今市场上,几乎所有数据科学工作都需要进行编码面试。 数据科学家的角色包括在许多公司发布生产代码,例如数据管道和机器学习模型。 对于这种性质的项目,还需要很强的编程能力,所以面试中也可以期待一些 SQL 和 Python 问题。
我可以通过 LinkedIn 获得数据科学家的工作吗?
如今,人们不应忽视 LinkedIn 的力量。 LinkedIn 基本上是您的数字简历。 公司和招聘人员一直在 LinkedIn 上寻找合适的候选人,因此建立令人印象深刻的 LinkedIn 个人资料、继续寻找工作并在 LinkedIn 上申请职位空缺对您来说非常重要。 将相关技能添加到您的个人资料中,并继续添加您的所有专业成就。 这样,您从 LinkedIn 获得一份值得的数据科学工作的机会就很高。