使用回归分析进行房地产估值 - 教程

已发表: 2022-03-11

执行摘要

回归分析为房地产估值提供了更科学的方法

传统上，评估财产有三种方法：可比销售额、收入和成本。
回归模型提供了一种更灵活、更客观的替代方案。这也是一个过程，一旦模型被制作出来，就会变得自主，让房地产企业家专注于他们的核心竞争力。
可以使用许多变量构建模型，这些变量会测试对房产价值的影响，例如平方英尺和卧室数量。
回归不是灵丹妙药。总是存在变量包含自相关和/或多重共线性的危险，或者变量之间的相关性是虚假的。

示例：为宾夕法尼亚州阿勒格尼县建立回归估值模型

可以通过电子方式访问大量房地产信息以输入模型。政府机构、专业数据提供商和多重上市服务是三个这样的来源。
初始数据转储需要进行一些清理以确保没有不规则的信息集。例如，在我们的样本中，作为礼物转让的房屋被移除，以免扭曲公平市场价值的结果。
使用来自 10% 数据的随机样本，SPSS 返回以下五个变量作为对房地产价值的最预测性：
- 基于施工质量的等级排名 1-19（1=非常差，19=优秀）
- 成品生活区
- 空调（是/否）
- 批量
- 身体状况或维修状态等级 1-8 级
测试结果至关重要，Durbin-Watson 检验用于自相关，Breusch-Pagan 检验用于异方差性。在我们的模型中，存在轻微的异方差趋势，这表明某些变量的可变性在整个值范围内是不相等的。

基于回归的房地产分析对您的业务有用吗？

除了评估房产外，房地产中的回归分析在其他领域可能特别有益：
- 测试过去交易的回报表现
- 定价和租金的定价分析
- 住宅买家和租户的人口统计和心理分析
- 确定直销目标
- 营销活动的投资回报率分析
此外，在评估候选人以建立回归模型时，要警惕那些从一开始就承诺世界的人。建立一个稳健的回归模型是一个迭代过程，因此请关注那些天生好奇并能当场思考的人（即可以用思考过程回答脑筋急转弯）。

在房地产领域，估值过程往往会被视为一种高调的吸拇指练习。房地产经纪人会过来，踢众所周知的轮胎，然后用很少的“定量”洞察力产生一个估计值。考虑到对于许多人来说，房子将是一生中最大的金融投资，拥有房产所带来的情感依恋可能会加剧这一过程。

然而，有一种方法可以解决这种疯狂。好吧，准确地说是三个。

财产如何估价？

可比销售方法在住宅房地产中最为常见，并使用类似物业的近期销售来确定标的物业的价值。 “comps”的销售价格根据它们与标的财产之间的差异进行调整。例如，如果可比物业有一个额外的浴室，则从其观察到的销售价格中减去浴室的估计价值。

商业地产被认为更加异质，因此可比销售方法的使用频率较低。收益法基于资产的内在价值等于其所有贴现现金流的总和这一概念，更常用于两种方法：

与年金的现值类似，直接资本化方法使用财产的净营业收入 (NOI) 除以“上限率”来确定价值。上限利率包含隐含的折现率和净营业收入的未来增长率。
现金流量折现法提供了未来现金流量在一定时期内的现值，其终值是使用终端上限利率估计的。

最后一种技术是成本法，它根据获得相同土地和建造标的财产复制品的成本来估算价值。然后根据标的财产的过时状态对项目成本进行折旧。与可比销售法的调整类似，目标是与标的财产紧密匹配。与其他两种方法相比，成本方法的使用频率较低。

由于用于估值的输入的选择，所有传统的房地产估值方法都是主观的。例如，上限利率的选择对房产估值有重大影响：在对 NOI 为 100 万美元的房产进行估值时，上限利率增加 4%（从 6% 到 10%）将降低40% 的财产（下图）。

在房地产估值中使用回归模型的好处

使用回归模型进行房地产估值有很多好处。零售业已将其用于选址，但房地产业在很大程度上忽略了其潜在优势。回归分析特别适用于分析大量数据。对全国每个地方的房地产市场都有深入的了解几乎是不可能的，但回归模型可以帮助缩小搜索范围。

1. 灵活性

使用回归建模的最大好处是其固有的灵活性——它们可以独立于其他模型或与其他模型协同工作。

最直接的方法是使用现有的销售数据来预测主题属性的价值，作为模型的输出。有许多来自地方、州和联邦机构的免费数据来源，可以通过私人数据提供者进行补充。

另一种选择是使用回归模型来更准确地预测其他传统估值方法的输入。例如，在分析混合用途商业项目时，开发商可以建立一个模型来预测零售空间每平方英尺的销售额，并建立另一个模型来预测住宅部分的租金。然后，这两者都可以用作收入法估值的输入。

2. 客观的方法

使用健全的统计原则可以产生更客观的估值方法。这是避免确认偏见的最佳方法之一，当人们寻找能够证实他们先前观点的信息或拒绝与之相矛盾的新信息时，就会出现这种情况。当我为零售商建立模型来预测新店销售时，他们常常惊讶地发现许多零售商受益于靠近竞争对手。事实上，与通常是他们最大竞争对手的沃尔玛的托管是我的模型中最常用的变量之一。依赖现有的偏见可能会导致错失机会，甚至更糟糕的是，将灾难隐藏在拐角处。

统计估值的一些客观优势如下：

统计分析允许您确定模型中各个因素的统计显着性（可靠性）。
虽然情景分析或敏感性分析可以让您大致了解在更传统的方法中对输入的更改，但它更像是做出多个预测，而不是让您更好地了解原始预测的准确性。另一方面，在构建回归模型时，您将知道基于一定置信水平的结果范围。

回归模型的独特之处在于它们具有内置的准确性检查。在总体样本上构建模型后，您可以使用样本外数据上的模型来检测可能的抽样偏差。

3. 坚持你的核心竞争力

传统的估值方法都存在很大的选择偏差风险。在选择可比较的属性时，很容易陷入选择最佳结果并假设它们最像您的项目的陷阱。还强调预测变量，例如收入方法中的回报率。消除对这一预测的需求可能对许多房地产投资者具有吸引力，这就是为什么基于回归的估值是一种有用的方法。

回归分析的潜在问题

引用不同百分比的统计数据的笑话数量本身就是一个笑话。我们几乎每天都被媒体头条轰炸，报道一项新研究的结果，其中许多似乎与去年发表的一项研究相矛盾。在一个充满声音的世界里，没有时间讨论研究人员采用的方法的严谨性。

回归分析的类型很多，但最常见的是线性回归。有一些关于线性回归的假设不应被违反以认为模型有效。违反这些假设会扭曲统计测试，以计算输入和整体模型的预测能力。

线性回归假设

输入（自变量）和输出（因变量）之间应该存在线性关系。例如，我们可以假设家中加热的平方英尺与其总价值之间存在线性关系。然而，由于收益递减，我们可以发现这种关系是非线性的，需要对原始数据进行转换。

自变量不应该是随机的。简而言之，模型中每个自变量的观测值是固定的，并假设它们的测量没有误差。例如，如果我们使用单元数来模拟一栋公寓楼的价值，那么无论我们如何构建模型，样本数据中的所有建筑物都将具有不会改变的固定单元数。

模型的“残差”（即模型的预测结果与实际观察结果之间的差异）总和为 0，或者更简单地说：我们将使用的模型将代表最佳拟合线。

该模型应该对每个自变量的所有观察结果都是准确的。如果我们根据房屋的平方英尺来预测房屋的价值，如果该模型在预测 1,500 平方英尺以下房屋的价值时非常准确，我们将不希望使用该模型，但对于超过 3,000 平方英尺的房屋，则存在大量误差平方英尺。这被称为异方差。

在研究房地产行业时，线性回归最常见的问题之一是观测值之间残差的相关性。您可以将其视为没有模式的白噪声。但是，如果残差有规律，那么我们很可能需要进行调整。这个问题很难概念化，但房地产行业主要关注两个领域。

1. 自相关

基于长期观察建立模型不适合预测当前值。假设我们建立了一个模型来使用平均房价作为自变量来预测酒店物业的价值。这个变量的预测能力可能会产生误导，因为房价会随着时间的推移而持续上涨。用统计术语来说，观察到的平均房价之间存在自相关，随着时间的推移呈现出积极的趋势（即通货膨胀），这在模型中没有考虑到。住宅房地产中最广泛使用的传统可比销售方法通过仅使用最新数据消除了这个问题。由于商业交易的数量要少得多，这种时间限制通常会使可比销售方法无效。然而，有一些使用线性回归的技术可以克服自相关的问题。

集群效应也是房地产估值建模的一项重大挑战。这可以被认为是空间自相关。考虑这个问题的最简单方法是想象构建一个模型来预测高速公路两侧两个社区（A 和 B）的房屋价值。总体而言，该模型在预测值方面可能工作得很好，但是当我们检查残差时，我们注意到存在一种模式。 A区的房子一般被高估10%左右，B区的房子被低估了10%左右。为了改进我们的模型，我们需要考虑这种集群效应或为每个邻域建立一个模型。

2.多重共线性

理想情况下，模型中的变量不会相互关联。这个已知的问题称为多重共线性。使用平方英尺和停车位数量作为评估区域购物中心的模型的输入可能会证明多重共线性。这是直观的，因为规划代码通常需要基于商业空间的平方英尺的一定数量的停车位。在此示例中，删除其中一个变量将对调整后的模型进行更准确的评估，而不会显着降低其预测能力。

其他注意事项

使用观察到的数据是任何经验方法的核心，但重要的是要记住过去的结果并不总能预测未来。房地产等非流动资产特别容易受到商业周期变化的影响。某些变量的预测能力可能会根据当前的经济状况发生变化。这个问题不是线性回归所独有的，在传统方法中也存在。

相关不等于因果。模型构建的目的是找到可以做出有效预测的有用变量。你必须警惕虚假的相关性。您可能会惊讶地发现，缅因州的离婚率与人均人造黄油消费量之间存在极强的相关性。但是，如果您试图预测未来的人造黄油销售量，那么使用缅因州的离婚数据将毫无意义。

通过回归进行房地产估值的真实示例

现在让我们实际应用这些知识，并从头到尾构建一个线性模型。对于我们的示例，我们将尝试建立一个房地产估值模型来预测宾夕法尼亚州阿勒格尼县单户独立住宅的价值。阿勒格尼县的选择是任意的，所展示的校长适用于任何地点。我们将使用 Excel 和 SPSS，这是一种常用的统计软件。

查找数据

找到高质量的数据是建立准确模型的第一步，也许是最重要的一步。尽管我们都听说过“垃圾进，垃圾出”这句话，但重要的是要记住没有完美的数据集。只要我们可以轻松地假设样本数据代表整个人口，这很好。房地产数据的三个主要来源：

第一个也是最好的数据来源来自政府机构。这些数据中的大部分要么是免费的，要么成本相对较低。许多公司会向您收取您可以轻松免费获得的数据的费用，因此在购买数据之前，请务必快速浏览一下互联网。网络搜索通常会通过搜索您要查找的县或市以及“税务评估员”、“税务评估”、“房地产记录”或“契约搜索”等词来产生结果。地理信息系统 (GIS) 部门是许多社区中最容易被忽视的部分之一。他们通常拥有从其他各种当地机构汇总的大量数据。作为一名房地产开发商，我经常依靠他们的帮助来找到我用来构建模型的高质量数据，以帮助定位新的开发物业。经济发展组织也可以成为很好的数据来源。
营利性供应商是另一种选择。当您要跨多个区域查找数据时，它们特别有用。在为他们的数据支付大笔资金之前，请务必做好功课。不要只依赖他们的样本数据集，因为它可能会在完整性方面产生误导。如果您对他们有哪些可用数据有疑问，请直接与代表联系或询问退款保证。
最后，本地多重上市服务 (MLS) 是一种宝贵的资源。大多数房产都是通过作为 MLS 成员的房地产经纪人销售的。通常，MLS 的成员需要将其所有列表放入本地系统。不幸的是，加入 MLS 通常有很多限制，而且数据访问的成本可能相当高。确保您在使用他们的数据时不违反服务条款并承担潜在责任也很重要。

我们将专门使用来自宾夕法尼亚州西部地区数据中心和美国人口普查局的免费数据作为示例。 Alleghany 房地产销售数据将为我们的观察提供一个基础文件，其中销售价格作为我们的因变量（Y 变量）。我们还将使用每个人口普查区的步行分数和税收评估信息来测试变量。

在构建房地产模型时，一个非常有用的变量是每个地址的纬度和经度。您可以通过地理编码器获取此数据，该地理编码器使用街道地址来分配纬度和经度。美国人口普查局地理编码器还将确定每个地点的人口普查区域，该区域通常用于汇总人口统计和心理信息。

分析、转换和创建新变量。

现在我们已经选择了数据源，我们需要检查数据的质量。检查数据质量的最简单方法是为几个关键变量运行频率表。如果有大量丢失或损坏的条目，我们将需要进一步检查数据。下表显示，216,498 条记录中只有 1 条在销售文件中缺少邮政编码，并且没有错误的邮政编码，如 99999 或 1X#45。这可能表明这是一个高质量的数据集。

数据字典在可用时是一种极好的资源。它将描述每个变量正在测量的内容，以及变量的可能选项。我们的数据包含对该县进行的每笔销售的分析。这是关键信息，尤其是在处理原始契约记录时。所有房地产交易都必须记录在案，才能依法强制执行，但并非所有转让都反映了房产的真实公平市场价值。例如，两个家庭成员之间的销售可能会以低于市场价格的价格作为一种礼物形式，或者是为了避免支付更高的交易成本，如契约印章。对我们来说幸运的是，当地政府明确标记了他们认为不能代表当前市场价值的转让，因此我们只会使用反映“有效销售”的记录。这些销售额仅占交易总数的 18% 左右，说明在开始使用数据进行分析之前了解数据的重要性。根据我的经验，在分析契约记录时，这个比率很常见。如果我们建立一个包含“无效销售”的模型，我们的最终结果很可能会被扭曲。

接下来，我们会将评估数据和步行分数附加到销售文件中。这为我们提供了一个用于模型的表。此时，我们需要对变量进行分析，看看它们是否适合线性回归。下表显示了各种类型的变量。

我们的文件包含几个标称值，例如街区或邮政编码，它们对数据进行分类，没有顺序感。标称值不适用于没有变换的线性回归。还有几个序数变量对建筑质量、财产的当前状况等进行分级。只有当我们可以合理地假设每个等级间隔均匀时，才适合使用序数数据。例如，我们的数据有一个包含 19 个不同分类（A+、A、A- 等）的等级变量，因此我们可以安全地假设这些等级可能是均匀分布的。

在我们可以在模型中使用它们之前，还需要转换几个变量。一个可以转换为虚拟变量进行测试的标称值是加热和冷却变量。我们将为所有没有空调的属性和有空调的属性设置变量为 0 为 1。此外，字母等级需要转换为数字（例如，0=最差，1=更好，2=最好）才能看到如果与价格成线性关系。

最后，我们需要确定是否适合使用所有观察结果。我们想要预测单户独立屋的价值，因此我们可以从数据中剔除所有商业地产、公寓和联排别墅。我们还希望避免自相关的潜在问题，因此我们仅使用 2017 年的销售数据来限制这种情况发生的可能性。在我们消除了所有无关的记录之后，我们就有了要测试的最终数据集。

样本和变量选择

选择正确的样本量可能很棘手。在学术材料中，建议的最小数字范围很广，经验法则也多种多样。对于我们的研究，总体人口相当大，因此我们不必担心样本数量是否足够。相反，我们冒着样本如此之大以至于几乎每个变量在模型中都具有统计意义的风险。最终，随机选择了大约 10% 的记录进行建模。

如果没有统计软件，变量选择可能是该过程中最困难的部分之一。然而，SPSS 允许我们从我们认为适合线性回归的变量组合中快速构建许多模型。 SPSS 将根据我们的统计显着性阈值自动过滤掉变量，并仅返回最佳模型。

建立模型并审查结果

从我们的样本数据中，SPSS 产生了五个模型。最具预测性的模型包括以下 5 个变量。

基于施工质量的等级排名 1-19（1=非常差，19=优秀）
成品生活区
空调（是/否）
批量
身体状况或维修状态等级 1-8 级（1=不适合居住，8=优秀）

让我们看一下 SPSS 的结果。我们最初的主要关注点是 R 平方值，它告诉我们回归预测因变量（价格）的方差百分比。最好的可能值是 1，我们模型的结果很有希望。衡量模型精度的估计标准误差看起来相当高，为 73,091 美元。但是，如果我们将其与模型中销售价格的标准差（160,429 美元）进行比较，错误似乎是合理的。

Model 5 具有可接受的标准误差并通过了 Durbin-Watson 测试

SPSS 具有使用 Durbin-Watson 测试来测试自相关的内置功能。理想情况下，该值将是 0 到 4 范围内的 2.0，但 1.652 的值不应引起警报。

接下来，我们测试模型的结果以确定是否有任何异方差的证据。 SPSS 没有内置功能，但使用 Ahmad Daryanto 编写的这个宏，我们可以使用 Breusch-Pagan 和 Koenker 测试。这些检验表明，我们的模型中存在异方差性，因为下图中的显着性水平 (Sig) 低于 0.005。我们的模型违反了线性回归的经典假设之一。很可能需要转换模型中的变量之一以消除问题。但是，在我们这样做之前，最好先看看异方差性对我们自变量的预测能力的影响。通过使用 Andrew F. Hayes 开发的宏，我们可以查看自变量的调整后标准误和显着性水平。

模型中存在异方差，但进一步的测试表明它不影响自变量

进一步的测试表明，在考虑了模型中的异方差性之后，自变量仍然具有统计显着性，因此我们现在不必改变它。

测试和优化模型

作为最终测试，我们将使用我们的模型对不属于原始样本的所有销售记录进行评分。这将帮助我们了解模型如何在更大的数据集上执行。该测试的结果表明，估计的 R 平方值和标准误差在大数据集上没有显着变化，这可能表明我们的模型将按预期执行。

将模型应用于完整数据集显示与样本的一致性，观察到相似的 R 平方和标准误差值

如果我们想在现实生活中使用我们的示例模型，我们可能会进一步分割数据以获得更精确的几个模型，或者寻找额外的数据来提高这个单一模型的精度。这些步骤也可能会消除我们在模型中看到的异方差性。基于我们试图使用单一模型来预测一个人口超过 100 万的县的房屋价值这一事实，我们无法在短短几个小时内构建出“完美”的模型也就不足为奇了.

结论

我们的目标是建立一个模型来预测单户独立屋的价值。我们的分析表明，我们以合理的精度实现了这一目标，但我们的模型有意义吗？

如果我们要描述我们的模型，我们会说房子的价值取决于地块的大小、房子的平方英尺、建筑的质量、目前的维修状态，以及它是否有空调。这似乎很合理。事实上，如果我们将我们的模型与传统的估值方法进行比较，我们会发现它与成本法非常相似，后者增加了获取土地和建造新建筑物的成本，并针对当前的过时状态进行了调整。然而，用回归短语来说，这种相似性可能是一种虚假的相关性。

由于在确定旧物业折旧的适当方法方面存在问题，通常仅建议使用成本法来评估新物业。使用我们的模型，我们创建了一个适用于任何年龄的房产的类似策略，事实上，我们已经将年龄作为一个独立变量进行了测试，并得出结论，它对房产价值没有统计学上的显着影响！

为您的业务使用回归分析

希望到现在为止，您对回归分析的基础知识有了更好的理解。下一个问题是：它可以帮助您的业务吗？如果您对这些问题中的任何一个回答是肯定的，那么您可能会从使用回归分析作为工具中受益。

您想要更科学的方法来确定价值、进行预测或分析特定市场吗？
您是否正在寻找更好的方法来识别大面积、区域甚至全国的潜在房地产投资？
您的目标是为您的商业房地产项目吸引大型零售商、餐馆或酒店公司吗？
您是否认为通过将新数据点整合到流程中可以潜在地改善您的决策过程？
您是否担心为买家和投资者在营销方面的投资回报？

上面的示例模型简单地展示了在房地产中使用回归建模的价值。收集数据和构建模型所花费的 2-3 小时远未发挥其全部潜力。在实践中，除了房地产估值之外，房地产行业的回归分析还有多种用途，包括：

定价和租金的定价分析
住宅买家和租户的人口统计和心理分析。
确定直销目标
营销活动的投资回报率分析

地理空间建模使用回归分析的原理与房地产中最重要的三件事：位置、位置、位置。作为住宅开发商工作了八年，我可以证明地理空间建模的力量。使用 ArcGIS，我能够整合销售数据、地块地图和激光雷达数据，以找到最适合在北卡罗来纳州山区开发的房产。

根据我的经验，房地产的大部分资金是通过收购而不是开发项目获得的。能够识别其他人错过的机会可能是房地产行业的巨大竞争优势。地理空间分析是大公司多年来一直在利用的东西，但小公司经常忽略。

如何为您的企业确定合适的分析合作伙伴

很少有人会将统计数据列为他们最喜欢的科目。事实上，作为一个整体，即使是基本的概率，人们也很不擅长理解。如果您对此意见持怀疑态度，请前往拉斯维加斯或澳门。不幸的是，当您在流程中寻求有关实施回归分析的建议时，这可能会使您难以确定信任谁。以下是评估潜在候选人时需要注意的一些关键事项

虽然人们不善于判断概率，但直觉实际上更善于发现谎言。 你应该对任何声称能够建立一个模型来回答你所有问题的人持怀疑态度！不要相信结果的保证。希望本文能够说明回归分析是基于经验观察和可靠科学的事实。某些事情总是比其他事情更容易预测。当一个值得信赖的顾问无法找到您正在寻找的答案时，他们会开诚布公，并且他们不会花费您的预算试图找到不存在的答案。

寻找斯波克先生而不是柯克船长。 合理的研究可能是一种出色的营销工具，但人们常常为性感的营销材料买单，带有一丝伪研究的味道，而且没有逻辑来支持它。有些人天生更善于分析，但出色的分析技能来自实践。理想情况下，您雇用的任何人为您的业务分析数据都将具有为各种问题寻找解决方案的经验。关注范围狭窄的人可能更容易受到群体思维的影响，尤其是当他们的经历与你的经历密切相关时。

Put potential candidates on the spot with questions that help demonstrate their reasoning abilities. This is not the time to rely on behavioral questions alone. Ideal candidates will have the ability to strategically use known information to reasonably estimate the answer to complex problems. Ask logical reasoning questions, like “How many tennis balls could you fit in the Empire State Building?”

Finally, you should look for someone with whom you can communicate. All of the information in the world won't help if you can't put it to good use. If someone uses so much jargon in an introductory conversation that your eyes start to glaze over, then they probably aren't the right fit for your company.