Évaluation immobilière à l'aide de l'analyse de régression - Un tutoriel

Publié: 2022-03-11

Résumé

L'analyse de régression offre une approche plus scientifique pour l'évaluation immobilière
  • Traditionnellement, il existe trois approches pour évaluer la propriété : les ventes comparables, les revenus et les coûts.
  • Les modèles de régression offrent une alternative plus flexible et objective. C'est aussi un processus qui, une fois qu'un modèle est créé, devient autonome, permettant aux entrepreneurs immobiliers de se concentrer sur leurs compétences de base.
  • Un modèle peut être construit avec de nombreuses variables qui sont testées pour leur impact sur la valeur d'une propriété, telles que la superficie en pieds carrés et le nombre de chambres.
  • Les régressions ne sont pas une solution miracle. Il y a toujours le danger que les variables contiennent une autocorrélation et/ou une multicolinéarité, ou que la corrélation entre les variables soit fausse.
Exemple : création d'un modèle d'évaluation par régression pour le comté d'Allegheny, en Pennsylvanie
  • Il existe une pléthore d'informations immobilières qui peuvent être consultées par voie électronique pour être entrées dans des modèles. Les agences gouvernementales, les fournisseurs de données professionnels et les services inter-agences sont trois de ces sources.
  • Les vidages de données initiaux nécessitent un certain nettoyage pour s'assurer qu'il n'y a pas d'ensembles d'informations irréguliers. Par exemple, dans notre échantillon, les maisons qui ont été transférées en cadeau ont été supprimées, afin de ne pas fausser les résultats de la juste valeur marchande.
  • À l'aide d'un échantillon aléatoire de 10 % des données, SPSS a renvoyé les cinq variables suivantes comme étant les plus prédictives de la valeur de l'immobilier :
    • Note basée sur la qualité de la construction classée de 1 à 19 (1 = très médiocre et 19 = excellent)
    • Espace de vie fini
    • Climatisation (Oui/Non)
    • La taille du lot
    • Note pour la condition physique ou l'état de réparation classé 1-8
  • Le test des résultats est essentiel, avec le test de Durbin-Watson utilisé pour l'autocorrélation et le test de Breusch-Pagan pour l'hétéroscédasticité. Dans notre modèle, il y avait de légères tendances hétéroscédastiques, ce qui indique que la variabilité de certaines variables était inégale sur toute la plage de valeurs.
L'analyse immobilière basée sur la régression peut-elle être utile pour votre entreprise ?
  • Outre l'évaluation des propriétés, l'analyse de régression dans l'immobilier peut être particulièrement bénéfique dans d'autres domaines :
    • Les tests renvoient les performances des transactions passées
    • Analyse des prix pour les prix catalogue et les tarifs de location
    • Analyse démographique et psychographique des acheteurs et locataires résidentiels
    • Identification des cibles pour le marketing direct
    • Analyse du ROI des campagnes marketing
  • De plus, lors de l'évaluation des candidats pour construire des modèles de régression, méfiez-vous de ceux qui promettent le monde dès le premier jour. Construire un modèle de régression robuste est un processus itératif, alors concentrez-vous plutôt sur ceux qui sont naturellement curieux et peuvent réfléchir sur place (c'est-à-dire peuvent répondre à des casse-tête avec un processus de réflexion).

Trop souvent dans l'immobilier, le processus d'évaluation peut apparaître comme un exercice intello de succion du pouce. L'agent immobilier viendra, bottera les pneus proverbiaux, puis produira une valeur estimée avec très peu d'informations «quantitatives». Peut-être que le processus est exacerbé par l'attachement émotionnel qu'apporte la possession d'une propriété étant donné que pour beaucoup, une maison sera le plus gros investissement financier réalisé dans une vie.

Pourtant, il y a une méthode à cette folie. Eh bien, trois pour être précis.

Comment la propriété est-elle évaluée?

L'approche des ventes comparables est la plus courante dans l'immobilier résidentiel et utilise les ventes récentes de propriétés similaires pour déterminer la valeur d'une propriété en question. Le prix de vente des « comps » est ajusté en fonction des différences entre eux et la propriété en question. Par exemple, si une propriété comparable dispose d'une salle de bain supplémentaire, la valeur estimée de la salle de bain est soustraite de son prix de vente observé.

L'immobilier d'entreprise étant considéré comme plus hétérogène, l'approche de vente comparable est moins utilisée. L'approche par le revenu, basée sur le concept selon lequel la valeur intrinsèque d'un actif est équivalente à la somme de tous ses flux de trésorerie actualisés, est plus couramment appliquée à travers deux méthodes :

  1. Semblable à la valeur actuelle d'une rente, la méthode de capitalisation directe utilise le revenu net d'exploitation (NOI) d'une propriété divisé par le « taux plafond » pour établir une valeur. Le taux plafond contient un taux d'actualisation implicite et un taux de croissance futur du bénéfice d'exploitation net.
  2. La méthode des flux de trésorerie actualisés fournit la valeur actualisée des flux de trésorerie futurs sur une période de temps définie, avec une valeur terminale estimée à partir d'un taux de capitalisation terminal.

La dernière technique est l'approche du coût, qui estime la valeur en fonction du coût d'acquisition d'un terrain identique et de la construction d'une réplique de la propriété en question. Ensuite, le coût du projet est amorti en fonction de l'état actuel d'obsolescence de la propriété en question. Semblable aux ajustements dans l'approche des ventes comparables, l'objectif est de correspondre étroitement à la propriété en question. L'approche du coût est moins fréquemment utilisée que les deux autres approches.

Toutes les méthodes d'évaluation immobilière traditionnelles sont subjectives, en raison de la sélection des données utilisées pour l'évaluation. Par exemple, le choix du taux de capitalisation a un impact significatif sur l'évaluation d'une propriété : lors de l'évaluation d'une propriété avec un NOI de 1 M $, une augmentation de 4 % du taux de capitalisation (de 6 % à 10 %) diminuera la valeur de la propriété de 40 % (graphique ci-dessous).

le taux de capitalisation a un impact disproportionné sur la valorisation immobilière

Avantages de l'utilisation de modèles de régression dans l'évaluation immobilière

L'utilisation de modèles de régression pour l'évaluation immobilière présente de nombreux avantages. L'industrie de la vente au détail a adopté son utilisation pour la sélection de sites, mais l'industrie immobilière, pour la plupart, a négligé ses avantages potentiels. L'analyse de régression est particulièrement adaptée à l'analyse de grandes quantités de données. Il serait pratiquement impossible d'avoir une bonne connaissance de chaque marché immobilier local du pays, mais la modélisation de régression peut aider à affiner la recherche.

1. Flexibilité

Le plus grand avantage de l'utilisation de la modélisation de régression est sa flexibilité inhérente - ils peuvent fonctionner indépendamment des autres modèles ou de concert avec eux.

L'approche la plus directe consiste à utiliser les données de vente existantes pour prédire la valeur d'une propriété en question, en tant que résultat du modèle. Il existe de nombreuses sources de données gratuites provenant d'agences locales, étatiques et fédérales qui peuvent être complétées par des fournisseurs de données privés.

Une autre option consiste à utiliser des modèles de régression pour prédire avec plus de précision les entrées d'autres méthodes d'évaluation traditionnelles. Par exemple, lors de l'analyse d'un projet commercial à usage mixte, un promoteur peut créer un modèle pour prédire les ventes au pied carré de l'espace de vente au détail et un autre modèle pour prédire les taux de location de la composante résidentielle. Ces deux éléments pourraient ensuite être utilisés comme données d'entrée dans une approche fondée sur le revenu pour l'évaluation.

2. Approche objective

L'utilisation de principes statistiques solides donne une approche plus objective de l'évaluation. C'est l'un des meilleurs moyens d'éviter le biais de confirmation, qui se produit lorsque les gens recherchent des informations qui confirment leur opinion préexistante ou rejettent de nouvelles informations qui la contredisent. Lorsque j'ai construit des modèles pour les détaillants afin de prédire les ventes de nouveaux magasins, ils ont souvent été surpris d'apprendre que de nombreux détaillants bénéficient de la proximité d'un concurrent. En fait, la colocation avec Walmart, qui était souvent leur plus grand concurrent, était l'une des variables les plus couramment utilisées dans mes modèles. S'appuyer sur les préjugés existants peut entraîner des opportunités manquées, ou pire encore, cacher des catastrophes au coin de la rue.

Certains des avantages objectifs de l'évaluation statistique sont les suivants :

  1. L'analyse statistique vous permet de déterminer la signification statistique (fiabilité) de facteurs individuels dans le modèle.
  2. Bien que l'analyse de scénarios ou de sensibilité puisse vous donner une idée générale des modifications apportées aux entrées dans des méthodes plus traditionnelles, elle s'apparente davantage à faire plusieurs prédictions plutôt qu'à vous donner une meilleure idée de la précision de la prédiction d'origine. D'autre part, lors de la construction d'un modèle de régression, vous saurez quelle sera la plage de résultats en fonction d'un certain niveau de confiance.

Les modèles de régression sont uniques dans le fait qu'ils ont une vérification intégrée de l'exactitude. Après avoir créé un modèle sur un échantillon de la population totale, vous pouvez utiliser le modèle sur des données hors échantillon pour détecter d'éventuels biais d'échantillonnage.

3. S'en tenir à votre compétence de base

Les méthodes de valorisation traditionnelles comportent toutes un risque important de biais de sélection. Lorsque vous choisissez des propriétés comparables, il est très facile de tomber dans le piège de sélectionner les meilleurs résultats et de supposer qu'ils ressemblent le plus à votre projet. L'accent est également mis sur la prévision de variables telles que le taux de rendement dans l'approche fondée sur le revenu. L'élimination du besoin de cette prédiction pourrait être attrayante pour de nombreux investisseurs immobiliers, c'est pourquoi l'évaluation basée sur la régression est une approche utile.

Problèmes potentiels avec l'analyse de régression

La quantité de blagues citant les pourcentages variables de statistiques qui sont inventées est en effet une blague en soi. Nous sommes bombardés presque chaque jour de gros titres des médias sur les résultats d'une nouvelle étude de recherche, dont beaucoup semblent contredire une étude publiée l'année dernière. Dans un monde de petites phrases, pas le temps de discuter de la rigueur des méthodes employées par les chercheurs.

Il existe de nombreux types d'analyses de régression, mais la plus courante est la régression linéaire. Certaines hypothèses concernant les régressions linéaires ne doivent pas être violées pour considérer le modèle comme valide. La violation de ces hypothèses fausse les tests statistiques calculant le pouvoir prédictif des entrées et du modèle global.

Hypothèses de régression linéaire

Il devrait y avoir une relation linéaire entre les entrées (variables indépendantes) et la sortie (variable dépendante). Par exemple, nous pourrions supposer qu'il existe une relation linéaire entre les pieds carrés chauffés d'une maison et sa valeur globale. Cependant, en raison des rendements décroissants, nous pourrions découvrir que la relation est non linéaire, nécessitant une transformation des données brutes.

exemple de régression de relation linéaire et non linéaire

Les variables indépendantes ne doivent pas être aléatoires. En termes simples, les observations pour chaque variable indépendante du modèle sont fixes et supposées ne comporter aucune erreur dans leur mesure. Par exemple, si nous utilisons le nombre d'unités pour modéliser la valeur d'un immeuble d'appartements, tous les bâtiments de nos données d'échantillon auront un nombre fixe d'unités qui ne changera pas, quelle que soit la façon dont nous construisons le modèle.

Les « résidus » du modèle (c'est-à-dire la différence entre le résultat prédit du modèle et les observations réelles) totaliseront 0, ou en termes plus simples : le modèle que nous utiliserons représentera la ligne de meilleur ajustement.

Le modèle doit être précis pour toutes les observations pour chaque variable indépendante. Si nous prédisions la valeur d'une maison en fonction de sa superficie en pieds carrés, nous ne voudrions pas utiliser le modèle s'il était extrêmement précis pour prédire les valeurs des maisons de moins de 1 500 pieds carrés, mais il y avait une grande quantité d'erreurs pour les maisons de plus de 3 000 pieds carrés. pieds carrés. C'est ce qu'on appelle l'hétéroscédasticité.

exemple d'hétéroscédasticité et d'homoscédasticité

L'un des problèmes les plus courants de la régression linéaire dans le secteur de l'immobilier est la corrélation des erreurs résiduelles entre les observations. Vous pouvez considérer cela comme un bruit blanc sans motif. Cependant, s'il y a une tendance dans les résidus, nous devons très probablement faire un ajustement. Ce problème est difficile à conceptualiser, mais il existe deux principaux domaines dans lesquels il s'agit d'une préoccupation dans le secteur de l'immobilier.

1. Autocorrélation

Construire un modèle basé sur des observations sur une longue période de temps serait inapproprié pour prédire les valeurs actuelles. Supposons que nous construisions un modèle pour prédire la valeur d'une propriété hôtelière en utilisant le prix moyen de la chambre comme variable indépendante. Le pouvoir prédictif de cette variable pourrait être trompeur car les tarifs des chambres ont augmenté de manière constante au fil du temps. En termes statistiques, il existe une autocorrélation entre les tarifs moyens observés des chambres montrant une tendance positive au fil du temps (c'est-à-dire l'inflation) qui ne serait pas prise en compte dans le modèle. L'approche traditionnelle des ventes comparables la plus largement utilisée dans l'immobilier résidentiel élimine ce problème en n'utilisant que les données les plus récentes. Les transactions commerciales étant beaucoup moins nombreuses, cette contrainte temporelle rend souvent inefficace l'approche des ventes comparables. Cependant, il existe des techniques utilisant la régression linéaire qui permettent de s'affranchir des problèmes d'autocorrélation.

L'effet de grappe est également un défi important dans la modélisation de la valorisation immobilière. Cela peut être considéré comme une autocorrélation spatiale. La façon la plus simple de penser à ce problème est d'imaginer la construction d'un modèle pour prédire la valeur des maisons dans deux quartiers (A et B) de chaque côté d'une autoroute. Dans l'ensemble, le modèle peut bien fonctionner pour prédire les valeurs, mais lorsque nous examinons les erreurs résiduelles, nous remarquons qu'il existe une tendance. Les maisons du quartier A sont généralement surévaluées d'environ 10 % et les maisons du quartier B sont sous-évaluées d'environ 10 %. Pour améliorer notre modèle, nous devons tenir compte de cet effet de grappe ou construire un modèle pour chaque quartier.

2. Multicolinéarité

Idéalement, les variables d'un modèle ne seront pas corrélées les unes aux autres. Ce problème connu est appelé multicolinéarité. L'utilisation à la fois des pieds carrés et du nombre de places de stationnement comme données d'entrée dans un modèle évaluant les centres commerciaux régionaux démontrerait probablement la multicolinéarité. Ceci est intuitif car les codes d'urbanisme exigent souvent un certain nombre de places de stationnement en fonction de la superficie en pieds carrés d'un espace commercial. Dans cet exemple, la suppression d'une des variables donnerait une évaluation plus précise du modèle ajusté sans réduire significativement son pouvoir prédictif.

autres considérations

L'utilisation de données observées est au cœur de toute approche empirique, mais il est important de se rappeler que les résultats passés ne prédisent pas toujours l'avenir. Les actifs illiquides comme l'immobilier sont particulièrement vulnérables aux variations du cycle économique. Le pouvoir prédictif de certaines variables est susceptible de changer en fonction des conditions économiques actuelles. Ce problème n'est pas propre à la régression linéaire et se retrouve également avec les approches traditionnelles.

La corrélation n'est pas égale à la causalité. Le but de la construction de modèles est de trouver des variables utiles qui feront des prédictions valides. Vous devez vous méfier des corrélations fallacieuses. Vous serez peut-être surpris d'apprendre qu'il existe une corrélation extrêmement forte entre le taux de divorce dans le Maine et la consommation de margarine par habitant. Cependant, l'utilisation des données sur les divorces du Maine n'aurait aucun sens si vous essayiez de prédire les futures ventes de margarine.

Un exemple concret d'évaluation immobilière par régression

Appliquons maintenant ces connaissances de manière pratique et construisons un modèle linéaire du début à la fin. Pour notre exemple, nous tenterons de construire un modèle d'évaluation immobilière qui prédit la valeur des maisons individuelles unifamiliales dans le comté d'Alleghany, en Pennsylvanie. Le choix du comté d'Alleghany est arbitraire et les directeurs démontrés fonctionneront pour n'importe quel endroit. Nous utiliserons Excel et SPSS, qui est un logiciel statistique couramment utilisé.

Trouver des données

Trouver des données de qualité est la première étape dans la construction d'un modèle précis et peut-être la plus importante. Bien que nous ayons tous entendu l'expression « ordures à l'intérieur, ordures à la sortie », il est important de se rappeler qu'il n'existe pas d'ensemble de données parfait. C'est bien tant que nous pouvons confortablement supposer que les données de l'échantillon sont représentatives de l'ensemble de la population. Il existe trois principales sources de données immobilières :

  1. La première et souvent la meilleure source de données provient des agences gouvernementales. La plupart de ces données sont soit gratuites, soit relativement peu coûteuses. De nombreuses entreprises vous factureront des données que vous pourriez facilement obtenir gratuitement, alors jetez toujours un coup d'œil rapide sur Internet avant d'acheter des données. Une recherche sur le Web donne souvent des résultats en recherchant le comté ou la ville que vous recherchez et des mots tels que «évaluateur fiscal», «évaluations fiscales», «dossiers immobiliers» ou «recherche d'acte». Les départements des systèmes d'information géographique (SIG) sont l'une des parties les plus négligées de nombreuses communautés. Ils disposent souvent d'une grande partie des données agrégées provenant de diverses autres agences locales. En tant que promoteur immobilier, j'ai souvent compté sur leur aide pour trouver des données de haute qualité que j'ai utilisées pour construire des modèles pour aider à localiser de nouvelles propriétés à développer. Les organismes de développement économique peuvent aussi être une excellente source de données.
  2. Les fournisseurs à but lucratif sont une autre option. Ils sont particulièrement utiles lorsque vous recherchez des données dans plusieurs domaines. Assurez-vous de faire vos devoirs avant de payer de grosses sommes d'argent pour leurs données. Ne vous fiez pas uniquement à leurs exemples d'ensembles de données, car cela pourrait être trompeur en termes d'exhaustivité. Si vous avez des doutes sur les données dont ils disposent, contactez directement un représentant ou renseignez-vous sur une garantie de remboursement.
  3. Enfin, les services d'inscriptions multiples (MLS) locaux sont une ressource inestimable. La plupart des propriétés sont commercialisées par l'intermédiaire d'un agent immobilier membre d'un MLS. Généralement, les membres d'un MLS sont tenus de mettre toutes leurs listes dans le système local. Malheureusement, il existe souvent de nombreuses restrictions pour rejoindre un MLS, et le coût de l'accès aux données peut être assez élevé. Il est également important de vous assurer que vous ne violez pas les conditions d'utilisation lors de l'utilisation de leurs données et que vous vous exposez à une responsabilité potentielle.

Nous utiliserons exclusivement des données gratuites pour notre exemple, provenant du Western Pennsylvania Regional Data Center et du US Census Bureau. Les données Alleghany Real Estate Sales nous donneront un fichier de base pour nos observations avec le prix de vente comme variable dépendante (variable Y). Nous testerons également des variables en utilisant le score de marche pour chaque secteur de recensement et les informations d'évaluation fiscale.

Une variable très utile à avoir lors de la construction de modèles immobiliers est la latitude et la longitude de chaque adresse. Vous pouvez obtenir ces données via un géocodeur qui utilise une adresse postale pour attribuer une latitude et une longitude. Le géocodeur du US Census Bureau identifiera également le secteur de recensement pour chaque emplacement qui est couramment utilisé pour agréger les informations démographiques et psychographiques.

Analyser, transformer et créer de nouvelles variables.

Maintenant que nous avons sélectionné nos sources de données, nous devons examiner la qualité des données. Le moyen le plus simple de vérifier la qualité des données consiste à exécuter un tableau de fréquence pour quelques variables clés. S'il y a un nombre important d'entrées manquantes ou corrompues, nous devrons examiner les données plus en détail. Le tableau ci-dessous montre que seul 1 enregistrement sur 216 498 a un code postal manquant dans le fichier des ventes, et il n'y a pas de codes postaux erronés comme 99999 ou 1X#45. Cela indique probablement qu'il s'agit d'un ensemble de données de haute qualité.

tableau des erreurs

Un dictionnaire de données est une excellente ressource lorsqu'il est disponible. Il donnera une description de ce que chaque variable mesure et des options possibles pour la variable. Nos données contiennent une analyse de chaque vente effectuée dans le comté. Il s'agit d'informations clés, en particulier lorsque vous travaillez avec des enregistrements d'actes bruts. Toutes les transactions immobilières doivent être enregistrées pour être exécutoires par la loi, mais tous les transferts ne reflètent pas la véritable juste valeur marchande d'une propriété. Par exemple, une vente entre deux membres de la famille pourrait se faire à un prix inférieur au prix du marché sous forme de cadeau ou pour éviter de payer des frais de transaction plus élevés comme les timbres d'acte. Heureusement pour nous, le gouvernement local marque clairement les transferts qu'il estime ne pas être représentatifs des valeurs marchandes actuelles, nous n'utiliserons donc que les enregistrements reflétant une «vente valide». Ces ventes ne représentent qu'environ 18 % du nombre total de transactions, ce qui montre à quel point il est important de comprendre vos données avant de commencer à les utiliser à des fins d'analyse. D'après mon expérience, ce ratio est assez courant lors de l'analyse des actes. Il est fort probable que si nous construisions un modèle incluant les « ventes invalides », nos résultats finaux seraient faussés.

Ensuite, nous ajouterons nos données d'évaluation et nos scores de marche au dossier de vente. Cela nous donne une seule table à utiliser pour notre modèle. À ce stade, nous devons analyser les variables pour voir si elles sont appropriées pour la régression linéaire. Vous trouverez ci-dessous un tableau montrant différents types de variables.

test variable pour les régressions

Notre fichier contient plusieurs valeurs nominales comme le quartier ou le code postal, qui catégorisent les données sans aucun sens de l'ordre. Les valeurs nominales sont inappropriées pour la régression linéaire sans transformation. Il existe également plusieurs variables ordinales qui évaluent la qualité de la construction, l'état actuel de la propriété, etc. L'utilisation de données ordinales n'est appropriée que lorsque nous pouvons raisonnablement supposer que chaque rang est régulièrement espacé. Par exemple, nos données ont une variable de note avec 19 classifications différentes (A+, A, A-, etc.), nous pouvons donc supposer en toute sécurité que ces notes sont probablement espacées de manière égale.

Il y a aussi plusieurs variables qui doivent être transformées avant de pouvoir les utiliser dans le modèle. Une valeur nominale qui peut être transformée en une variable fictive pour les tests est la variable de chauffage et de refroidissement. Nous allons définir la variable sur 0 pour toutes les propriétés sans climatisation et celles avec climatisation sur 1. De plus, les notes alphabétiques doivent être converties en nombres (par exemple, 0=pire, 1=mieux, 2=meilleur) afin de voir s'il existe une relation linéaire avec le prix.

Enfin, nous devons déterminer s'il est approprié d'utiliser toutes les observations. Nous voulons prédire les valeurs des maisons individuelles unifamiliales, afin de pouvoir éliminer toutes les propriétés commerciales, les condos et les maisons en rangée des données. Nous voulons également éviter les problèmes potentiels d'autocorrélation, nous n'utilisons donc que les données des ventes en 2017 pour limiter la probabilité que cela se produise. Après avoir éliminé tous les enregistrements superflus, nous avons notre ensemble de données final à tester.

Sélection d'échantillons et de variables

La sélection de la bonne taille d'échantillon peut être délicate. Parmi les documents académiques, il existe un large éventail de nombres minimaux suggérés et diverses règles empiriques. Pour notre étude, la population globale est assez importante, nous n'avons donc pas à nous soucier d'en avoir assez pour un échantillon. Au lieu de cela, nous courons le risque d'avoir un échantillon si grand que presque chaque variable aura une signification statistique dans le modèle. En fin de compte, environ 10 % des enregistrements ont été sélectionnés au hasard pour la modélisation.

La sélection de variables peut être l'une des parties les plus difficiles du processus sans logiciel statistique. Cependant, SPSS nous permet de construire rapidement de nombreux modèles à partir d'une combinaison de variables que nous avons jugées appropriées pour une régression linéaire. SPSS filtrera automatiquement les variables en fonction de nos seuils de signification statistique et ne renverra que les meilleurs modèles.

Construire le modèle et examiner les résultats

À partir de nos données d'échantillon, SPSS a produit cinq modèles. Le modèle le plus prédictif comprenait les 5 variables suivantes.

  1. Note basée sur la qualité de la construction classée de 1 à 19 (1 = très médiocre et 19 = excellent)
  2. Espace de vie fini
  3. Climatisation (Oui/Non)
  4. La taille du lot
  5. Note pour la condition physique ou l'état de réparation classé de 1 à 8 (1 = inhabitable et 8 = excellent)

Regardons les résultats de SPSS. Notre objectif principal sera initialement la valeur R au carré qui nous indique quel pourcentage de variance de la variable dépendante (prix) est prédit par la régression. La meilleure valeur possible serait 1, et le résultat de notre modèle est assez prometteur. L'erreur type de l'estimation qui mesure la précision du modèle semble être assez élevée à 73 091 $. Cependant, si nous comparons cela à l'écart type du prix de vente dans le modèle (160 429 $), l'erreur semble raisonnable.

Sortie de régression 1

Le modèle 5 avait une erreur standard acceptable et réussit le test de Durbin-Watson

SPSS a une fonctionnalité intégrée pour tester l'autocorrélation à l'aide du test de Durbin-Watson. Idéalement, la valeur serait de 2,0 sur une échelle de 0 à 4, mais une valeur de 1,652 ne devrait pas alarmer.

Ensuite, nous testons les résultats du modèle pour déterminer s'il existe des preuves d'hétéroscédasticité. Il n'y a pas de fonctionnalité intégrée pour SPSS, mais en utilisant cette macro écrite par Ahmad Daryanto, nous pouvons utiliser les tests Breusch-Pagan et Koenker. Ces tests montrent qu'il y a de l'hétéroscédasticité présente dans notre modèle puisque le niveau de signification (Sig) dans le graphique ci-dessous est inférieur à 0,005. Notre modèle a violé l'une des hypothèses classiques de la régression linéaire. Très probablement, l'une des variables du modèle doit être transformée afin d'éliminer le problème. Cependant, avant de faire cela, c'est une bonne idée de voir quels sont les effets de l'hétéroscédasticité sur le pouvoir prédictif de nos variables indépendantes. Grâce à l'utilisation d'une macro développée par Andrew F. Hayes, nous pouvons examiner les erreurs types ajustées et les niveaux de signification pour nos variables indépendantes.

Sortie de régression 2

L'hétéroscédasticité est présente dans le modèle, mais d'autres tests montrent qu'elle n'affecte pas les variables indépendantes

Des tests supplémentaires révèlent que les variables indépendantes restent statistiquement significatives, après prise en compte de l'hétéroscédasticité dans le modèle, nous n'avons donc pas nécessairement à le modifier pour l'instant.

Tester et affiner le modèle

En guise de test final, nous évaluerons tous les enregistrements de ventes qui ne faisaient pas partie de l'échantillon d'origine avec notre modèle. Cela nous aidera à voir comment le modèle fonctionne sur un ensemble de données plus large. Les résultats de ce test montrent que la valeur R au carré et l'erreur standard de l'estimation n'ont pas changé de manière significative sur le grand ensemble de données, ce qui indique probablement que notre modèle fonctionnera comme prévu.

Sortie de régression 3

L'application du modèle à l'ensemble de données complet montre la cohérence avec l'échantillon, avec des valeurs de R au carré et d'erreur standard similaires observées

Si nous voulions utiliser notre exemple de modèle dans la vie réelle, nous segmenterions probablement davantage les données pour avoir plusieurs modèles plus précis ou chercherions des données supplémentaires pour améliorer la précision de ce modèle unique. Ces étapes supprimeraient également probablement l'hétéroscédasticité que nous avons vue dans le modèle. Étant donné que nous essayions d'utiliser un modèle unique pour prédire la valeur des maisons dans un comté de plus d'un million d'habitants, il n'est pas surprenant que nous n'ayons pas été en mesure de construire le modèle "parfait" en seulement quelques heures. .

conclusion

Notre objectif était de construire un modèle qui prédit la valeur des maisons individuelles unifamiliales. Notre analyse montre que nous avons atteint cet objectif avec une précision raisonnable, mais notre modèle a-t-il un sens ?

Si nous devions décrire notre modèle, nous dirions que la valeur d'une maison dépend de la taille du terrain, de la superficie en pieds carrés de la maison, de la qualité de la construction, de l'état actuel des réparations et du fait qu'elle a ou non climatisation. Cela semble très raisonnable. En effet, si l'on compare notre modèle aux méthodes d'évaluation traditionnelles, on s'aperçoit qu'il est très proche de l'approche par les coûts, qui ajoute le coût d'acquisition d'un terrain et de construction d'un nouveau bâtiment ajusté à l'état actuel d'obsolescence. Cependant, cette similitude pourrait être, pour utiliser une expression de régression, une fausse corrélation.

En règle générale, l'approche du coût n'est recommandée que pour évaluer les propriétés les plus récentes, en raison des problèmes liés à la détermination de la méthode appropriée d'amortissement des propriétés plus anciennes. Avec notre modèle, nous avons créé une stratégie similaire qui est utile pour les propriétés de tout âge. En fait, nous avons testé l'âge en tant que variable indépendante et conclu qu'il n'a pas d'impact statistiquement significatif sur la valeur des propriétés !

Utilisation de l'analyse de régression pour votre entreprise

J'espère que vous avez maintenant une meilleure compréhension des bases de l'analyse de régression. La question suivante est : cela peut-il aider votre entreprise ? Si vous répondez oui à l'une de ces questions, vous pourriez probablement bénéficier de l'utilisation de l'analyse de régression comme outil.

  1. Souhaitez-vous une approche plus scientifique pour déterminer la valeur, faire des projections ou analyser un marché particulier ?
  2. Êtes-vous à la recherche de meilleures façons d'identifier les investissements immobiliers potentiels dans de vastes zones, régions ou même à l'échelle nationale ?
  3. Votre objectif est-il d'attirer de grands détaillants, des restaurants ou des entreprises hôtelières pour votre projet immobilier commercial ?
  4. Pensez-vous que vous pourriez potentiellement améliorer votre processus de prise de décision en incorporant de nouveaux points de données dans le processus ?
  5. Êtes-vous préoccupé par le retour sur investissement de votre marketing auprès des acheteurs et des investisseurs ?

L'exemple de modèle ci-dessus est une démonstration simple de la valeur de l'utilisation de la modélisation de régression dans l'immobilier. Les 2-3 heures qu'il a fallu pour collecter les données et construire le modèle sont loin de montrer tout son potentiel. En pratique, il existe une grande variété d'utilisations de l'analyse de régression dans le secteur immobilier au-delà de l'évaluation des propriétés, notamment :

  1. Analyse des prix pour les prix catalogue et les tarifs de location
  2. Analyse démographique et psychographique des acheteurs et des locataires résidentiels.
  3. Identification des cibles pour le marketing direct
  4. Analyse du ROI des campagnes marketing

La modélisation géospatiale utilise les principes de l'analyse de régression associés aux trois éléments les plus importants de l'immobilier : l'emplacement, l'emplacement, l'emplacement. Travaillant comme promoteur résidentiel pendant huit ans, je peux attester de la puissance de la modélisation géospatiale. À l'aide d'ArcGIS, j'ai pu incorporer des données de vente, des cartes de parcelles et des données lidar pour trouver des propriétés idéales pour le développement dans les montagnes de la Caroline du Nord.

D'après mon expérience, la plupart de l'argent dans l'immobilier est réalisé dans l'acquisition et non dans le développement d'un projet. Être capable d'identifier les opportunités que les autres manquent peut être un énorme avantage concurrentiel dans l'immobilier. L'analyse géospatiale est quelque chose dont les grandes entreprises profitent depuis de nombreuses années, mais les petites entreprises l'ignorent souvent.

Comment identifier le bon partenaire d'analyse pour votre entreprise

Très peu de gens considéreraient les statistiques comme leur sujet de prédilection. En fait, dans l'ensemble, les gens sont très mauvais pour comprendre même les probabilités de base. Si vous doutez de cette opinion, faites un voyage à Las Vegas ou à Macao. Malheureusement, cela peut rendre difficile de déterminer à qui faire confiance lorsque vous recherchez des conseils sur la mise en œuvre de l'analyse de régression dans votre processus. Voici quelques éléments clés à rechercher lors de l'évaluation des candidats potentiels

Alors que les gens sont mauvais pour juger des probabilités, l'intuition est en fait plutôt bonne pour détecter les mensonges. Vous devriez être très sceptique vis-à-vis de quiconque prétend être capable de construire un modèle qui répondra à toutes vos questions ! Ne vous fiez pas à une garantie de résultats. Espérons que cet article a illustré le fait que l'analyse de régression est basée sur l'observation empirique et une science solide. Il sera toujours vrai que certaines choses sont plus faciles à prévoir que d'autres. Un conseiller de confiance sera ouvert et honnête lorsqu'il ne trouvera pas les réponses que vous cherchez, et il ne parcourra pas votre budget en essayant d'en trouver une qui n'y est pas.

Cherchez M. Spock au lieu du Capitaine Kirk. Une recherche solide peut être un excellent outil de marketing, mais trop souvent, les gens paient pour du matériel marketing sexy avec une bouffée de pseudo-recherche et aucune logique pour le soutenir. Certaines personnes sont naturellement plus analytiques, mais de grandes compétences analytiques viennent de la pratique. Idéalement, toute personne que vous embaucherez pour analyser les données de votre entreprise aura de l'expérience dans la recherche de solutions à une grande variété de problèmes. Une personne ayant une vision étroite peut être plus sensible à la pensée de groupe, en particulier lorsque ses expériences reflètent étroitement les vôtres.

Put potential candidates on the spot with questions that help demonstrate their reasoning abilities. This is not the time to rely on behavioral questions alone. Ideal candidates will have the ability to strategically use known information to reasonably estimate the answer to complex problems. Ask logical reasoning questions, like “How many tennis balls could you fit in the Empire State Building?”

Finally, you should look for someone with whom you can communicate. All of the information in the world won't help if you can't put it to good use. If someone uses so much jargon in an introductory conversation that your eyes start to glaze over, then they probably aren't the right fit for your company.