Wycena nieruchomości za pomocą analizy regresji – samouczek
Opublikowany: 2022-03-11Podsumowanie wykonawcze
Analiza regresji oferuje bardziej naukowe podejście do wyceny nieruchomości
- Tradycyjnie istnieją trzy podejścia do wyceny nieruchomości: porównywalna sprzedaż, dochód i koszt.
- Modele regresji zapewniają alternatywę, która jest bardziej elastyczna i obiektywna. Jest to również proces, który po stworzeniu modelu staje się autonomiczny, pozwalając przedsiębiorcom na rynku nieruchomości skoncentrować się na swoich podstawowych kompetencjach.
- Model można zbudować z wieloma zmiennymi, które są testowane pod kątem wpływu na wartość nieruchomości, takich jak powierzchnia i liczba sypialni.
- Regresje nie są magicznym pociskiem. Zawsze istnieje niebezpieczeństwo, że zmienne zawierają autokorelację i/lub współliniowość lub że korelacja między zmiennymi jest fałszywa.
Przykład: budowanie modelu wyceny regresji dla hrabstwa Allegheny w Pensylwanii
- Istnieje mnóstwo informacji o nieruchomościach, które można uzyskać elektronicznie, aby wprowadzić je do modeli. Trzy takie źródła to agencje rządowe, profesjonalni dostawcy danych i usługi wielu aukcji.
- Początkowe zrzuty danych wymagają pewnego czyszczenia, aby upewnić się, że nie ma nieregularnych zestawów informacji. Na przykład w naszej próbie domy, które zostały przekazane jako prezenty, zostały usunięte, aby nie zniekształcić wyników dotyczących godziwej wartości rynkowej.
- Korzystając z losowej próby z 10% danych, SPSS zwrócił następujące pięć zmiennych jako najbardziej predykcyjne dla wartości nieruchomości:
- Ocena na podstawie jakości konstrukcji od 1 do 19 (1=bardzo słaba i 19=doskonała)
- Wykończona powierzchnia mieszkalna
- Klimatyzacja (Tak/Nie)
- Wielkość partii
- Ocena za kondycję fizyczną lub stan techniczny 1-8
- Testowanie wyników ma kluczowe znaczenie, z testem Durbina-Watsona używanym do autokorelacji i testem Breuscha-Pagana na heteroskedastyczność. W naszym modelu wystąpiły niewielkie tendencje heteroskedastyczne, co wskazuje, że zmienność niektórych zmiennych była nierówna w całym zakresie wartości.
Czy analiza nieruchomości oparta na regresji może być przydatna dla Twojej firmy?
- Oprócz wyceny nieruchomości, analiza regresji w obrębie nieruchomości może być szczególnie korzystna w innych obszarach:
- Testowanie wydajności zwrotów w poprzednich transakcjach
- Analiza cen pod kątem cen katalogowych i stawek czynszowych
- Analiza demograficzna i psychograficzna nabywców mieszkań i najemców
- Identyfikacja celów marketingu bezpośredniego
- Analiza ROI dla kampanii marketingowych
- Ponadto, oceniając kandydatów do budowy modeli regresji, uważaj na tych, którzy obiecują światu od pierwszego dnia. Budowanie solidnego modelu regresji jest procesem iteracyjnym, więc zamiast tego skup się na tych, którzy są z natury ciekawi i potrafią myśleć od razu (tj. potrafią odpowiedzieć na łamigłówki za pomocą procesu myślowego).
Zbyt często w nieruchomościach proces wyceny może być postrzegany jako wydumane ćwiczenie ssania kciuka. Pośrednik przyjdzie, kopnie przysłowiowe opony, a następnie przedstawi szacunkową wartość z bardzo małym „ilościowym” wglądem. Być może proces ten pogarsza emocjonalne przywiązanie, jakie niesie ze sobą posiadanie nieruchomości, biorąc pod uwagę, że dla wielu dom będzie największą inwestycją finansową poczynioną w życiu.
Jednak w tym szaleństwie jest metoda. Cóż, dokładnie trzy.
Jak wyceniana jest nieruchomość?
Podejście porównywalnej sprzedaży jest najczęściej stosowane w przypadku nieruchomości mieszkalnych i wykorzystuje niedawną sprzedaż podobnych nieruchomości w celu określenia wartości przedmiotowej nieruchomości. Ceny sprzedaży „kompleksów” są dostosowywane na podstawie różnic między nimi a przedmiotową własnością. Na przykład, jeśli porównywalna nieruchomość ma dodatkową łazienkę, wówczas szacunkową wartość łazienki odejmuje się od jej zaobserwowanej ceny sprzedaży.
Nieruchomości komercyjne są uważane za bardziej niejednorodne, więc podejście porównawcze sprzedaży jest stosowane rzadziej. Podejście dochodowe, oparte na założeniu, że wartość rzeczywista składnika aktywów jest równa sumie wszystkich jego zdyskontowanych przepływów pieniężnych, jest powszechnie stosowane w ramach dwóch metod:
- Podobnie jak w przypadku bieżącej wartości renty, metoda kapitalizacji bezpośredniej wykorzystuje dochód operacyjny netto (NOI) z nieruchomości podzielony przez „stopę kapitalizacji” w celu ustalenia wartości. Stopa kapitalizacji zawiera implikowaną stopę dyskontową i przyszłą stopę wzrostu dochodu operacyjnego netto.
- Metoda zdyskontowanych przepływów pieniężnych zapewnia bieżącą wartość przyszłych przepływów pieniężnych w ustalonym okresie z wartością końcową oszacowaną na podstawie stopy kapitalizacji końcowej.
Ostatnią techniką jest podejście kosztowe, które szacuje wartość na podstawie kosztu nabycia identycznego gruntu i zbudowania repliki przedmiotowej nieruchomości. Następnie koszt projektu jest amortyzowany na podstawie aktualnego stanu przestarzałości przedmiotowej nieruchomości. Podobnie jak w przypadku korekt w porównywalnym podejściu sprzedażowym, celem jest ścisłe dopasowanie przedmiotowej nieruchomości. Podejście kosztowe jest rzadziej stosowane niż dwa pozostałe podejścia.
Wszystkie tradycyjne metody wyceny nieruchomości mają charakter subiektywny, ze względu na dobór danych wejściowych wykorzystywanych do wyceny. Na przykład wybór stopy kapitalizacji ma istotny wpływ na wycenę nieruchomości: przy wycenie nieruchomości z NOI na poziomie 1 mln USD wzrost stopy kapitalizacji o 4% (z 6% do 10%) obniży wartość nieruchomości o 40% (wykres poniżej).
Korzyści z zastosowania modeli regresji w wycenie nieruchomości
Istnieje wiele korzyści z używania modeli regresji do wyceny nieruchomości. Branża handlu detalicznego przyjęła jego zastosowanie do wyboru lokalizacji, ale branża nieruchomości w większości przeoczyła jego potencjalne zalety. Analiza regresji jest szczególnie odpowiednia do analizy dużych ilości danych. Praktycznie niemożliwe byłoby posiadanie dobrej znajomości każdego lokalnego rynku nieruchomości w kraju, ale modelowanie regresji może pomóc zawęzić wyszukiwanie.
1. Elastyczność
Największą zaletą korzystania z modelowania regresji jest jego nieodłączna elastyczność — mogą one działać niezależnie od innych modeli lub wspólnie z nimi.
Najbardziej bezpośrednim podejściem jest wykorzystanie istniejących danych dotyczących sprzedaży do przewidywania wartości przedmiotowej nieruchomości jako danych wyjściowych do modelu. Istnieje wiele źródeł bezpłatnych danych od agencji lokalnych, stanowych i federalnych, które można uzupełnić o prywatnych dostawców danych.
Inną opcją jest użycie modeli regresji do dokładniejszego przewidywania danych wejściowych dla innych tradycyjnych metod wyceny. Na przykład, analizując projekt komercyjny o mieszanym przeznaczeniu, deweloper może zbudować jeden model do przewidywania sprzedaży na metr kwadratowy powierzchni handlowej i inny model do przewidywania stawek czynszu za część mieszkaniową. Oba te elementy można następnie wykorzystać jako dane wejściowe do podejścia dochodowego do wyceny.
2. Celowe podejście
Stosowanie solidnych zasad statystycznych zapewnia bardziej obiektywne podejście do wyceny. Jest to jeden z najlepszych sposobów na uniknięcie błędu potwierdzenia, który pojawia się, gdy ludzie szukają informacji, które potwierdzają ich wcześniejszą opinię lub odrzucają nowe informacje, które jej zaprzeczają. Kiedy budowałem modele dla detalistów do przewidywania nowej sprzedaży w sklepie, często byli zaskoczeni, gdy dowiadywali się, że wielu detalistów korzysta z przebywania w pobliżu konkurenta. W rzeczywistości kolokacja z Walmartem, który często był ich największym konkurentem, była jedną z najczęstszych zmiennych wykorzystywanych w moich modelach. Poleganie na istniejących uprzedzeniach może prowadzić do straconych okazji lub, co gorsza, ukrywać katastrofy tuż za rogiem.
Oto niektóre z obiektywnych zalet wyceny statystycznej:
- Analiza statystyczna pozwala określić istotność statystyczną (wiarygodność) poszczególnych czynników w modelu.
- Chociaż analiza scenariuszy lub wrażliwości może dać ogólne pojęcie o zmianach danych wejściowych w bardziej tradycyjnych metodach, jest ona bardziej zbliżona do tworzenia wielu prognoz, a nie daje lepszego wyobrażenia o dokładności oryginalnej prognozy. Z drugiej strony, budując model regresji, będziesz wiedział, jaki zakres wyników będzie oparty na określonym poziomie ufności.
Modele regresji są wyjątkowe, ponieważ mają wbudowaną kontrolę dokładności. Po zbudowaniu modelu na próbie całkowitej populacji można użyć modelu na danych poza próbą, aby wykryć możliwe błędy systematyczne próbkowania.
3. Trzymanie się swoich podstawowych kompetencji
Wszystkie tradycyjne metody wyceny wiążą się ze znacznym ryzykiem błędu selekcji. Wybierając porównywalne nieruchomości, bardzo łatwo wpaść w pułapkę wyboru najlepszych wyników i założenie, że najbardziej przypominają Twój projekt. Kładzie się również nacisk na przewidywanie zmiennych, takich jak stopa zwrotu w podejściu dochodowym. Wyeliminowanie potrzeby takiej prognozy może być atrakcyjne dla wielu inwestorów w nieruchomości, dlatego wycena oparta na regresji jest użytecznym podejściem.
Potencjalne problemy z analizą regresji
Ilość żartów cytujących różne procenty statystyk, które są wymyślone, jest rzeczywiście żartem samym w sobie. Niemal codziennie jesteśmy bombardowani nagłówkami w mediach o wynikach nowych badań, z których wiele wydaje się zaprzeczać badaniu opublikowanym w zeszłym roku. W świecie dźwięków nie ma czasu na dyskutowanie o rygoryzmie metod stosowanych przez badaczy.
Istnieje wiele rodzajów analizy regresji, ale najczęstszą jest regresja liniowa. Istnieją pewne założenia dotyczące regresji liniowych, których nie należy naruszać, aby uznać model za prawidłowy. Naruszenie tych założeń zniekształca testy statystyczne obliczające moc predykcyjną danych wejściowych i całego modelu.
Założenia regresji liniowej
Powinna istnieć liniowa zależność między danymi wejściowymi (zmiennymi niezależnymi) a wynikami (zmienna zależna). Na przykład możemy założyć, że istnieje liniowa zależność między ogrzanymi stopami kwadratowymi w domu a jego całkowitą wartością. Jednak ze względu na malejące zwroty mogliśmy odkryć, że relacja jest nieliniowa, wymagająca przekształcenia surowych danych.
Zmienne niezależne nie powinny być losowe. Mówiąc prościej, obserwacje dla każdej zmiennej niezależnej w modelu są stałe i zakłada się, że ich pomiar nie zawiera błędów. Na przykład, jeśli używamy liczby jednostek do modelowania wartości budynku mieszkalnego, wszystkie budynki w naszych przykładowych danych będą miały stałą liczbę jednostek, która się nie zmieni, niezależnie od tego, jak zbudujemy model.
„Reszty” modelu (tj. różnica między przewidywanym wynikiem modelu a rzeczywistymi obserwacjami) zsumują się do 0, lub prościej: model, którego użyjemy, będzie reprezentował linię najlepszego dopasowania.
Model powinien być dokładny dla wszystkich obserwacji dla każdej zmiennej niezależnej. Gdybyśmy przewidywali wartość domu na podstawie jego powierzchni, nie chcielibyśmy używać modelu, gdyby był niezwykle dokładny w przewidywaniu wartości domów o powierzchni poniżej 1500 stóp kwadratowych, ale w przypadku domów o powierzchni powyżej 3000 wystąpił duży błąd stopy kwadratowe. Jest to znane jako heteroskedastyczność.
Jednym z najczęstszych problemów z regresją liniową w branży nieruchomości jest korelacja błędów resztowych między obserwacjami. Możesz myśleć o tym jako o białym szumie, który nie ma żadnego wzoru. Jednakże, jeśli istnieje wzór do reszt, najprawdopodobniej musimy dokonać korekty. Problem ten jest trudny do konceptualizacji, ale istnieją dwa główne obszary, w których jest to problem w branży nieruchomości.
1. Autokorelacja
Budowanie modelu w oparciu o obserwacje w długim okresie byłoby nieodpowiednie do przewidywania wartości bieżących. Załóżmy, że zbudowaliśmy model do przewidywania wartości nieruchomości hotelowej przy użyciu średniej ceny pokoju jako zmiennej niezależnej. Moc prognostyczna tej zmiennej może wprowadzać w błąd, ponieważ ceny pokoi stale rosły w czasie. W kategoriach statystycznych istnieje autokorelacja pomiędzy obserwowanymi średnimi cenami za pokój, wykazująca pozytywną tendencję w czasie (tj. inflację), która nie zostałaby uwzględniona w modelu. Tradycyjne podejście do porównywalnej sprzedaży, najczęściej stosowane w nieruchomościach mieszkaniowych, eliminuje ten problem, wykorzystując tylko najnowsze dane. Ponieważ liczba transakcji handlowych jest znacznie mniejsza, to ograniczenie czasowe często powoduje, że porównywalne podejście sprzedażowe jest nieskuteczne. Istnieją jednak techniki wykorzystujące regresję liniową, które mogą przezwyciężyć problemy autokorelacji.
Efekt klastra jest również istotnym wyzwaniem w modelowaniu wyceny nieruchomości. Można to traktować jako autokorelację przestrzenną. Najprostszym sposobem myślenia o tym problemie jest wyobrażenie sobie budowania modelu do przewidywania wartości domów w dwóch dzielnicach (A i B) po obu stronach autostrady. Jako całość model może dobrze sprawdzać się w przewidywaniu wartości, ale kiedy przyjrzymy się błędom resztowym, zauważymy, że istnieje wzorzec. Domy w dzielnicy A są na ogół przeszacowane o około 10%, a domy w okolicy B są o około 10% zaniżone. Aby ulepszyć nasz model, musimy uwzględnić ten efekt skupienia lub zbudować jeden model dla każdego sąsiedztwa.
2. Współliniowość
W idealnym przypadku zmienne w modelu nie będą ze sobą skorelowane. Ten znany problem nazywa się współliniowością. Użycie zarówno stóp kwadratowych, jak i liczby miejsc parkingowych jako danych wejściowych do modelu wyceny regionalnych centrów handlowych prawdopodobnie wykazywałoby wielowspółliniowość. Jest to intuicyjne, ponieważ kody planowania często wymagają określonej liczby miejsc parkingowych w oparciu o powierzchnię handlową powierzchni handlowej. W tym przykładzie usunięcie jednej ze zmiennych dałoby dokładniejszą ocenę skorygowanego modelu bez znaczącego zmniejszenia jego mocy predykcyjnej.
Inne rozważania
Korzystanie z zaobserwowanych danych jest podstawą każdego podejścia empirycznego, ale należy pamiętać, że wcześniejsze wyniki nie zawsze przewidują przyszłość. Aktywa niepłynne, takie jak nieruchomości, są szczególnie podatne na zmiany cyklu koniunkturalnego. Moc prognostyczna niektórych zmiennych prawdopodobnie zmieni się w zależności od bieżących warunków ekonomicznych. Problem ten nie dotyczy wyłącznie regresji liniowej i występuje również w przypadku tradycyjnych podejść.
Korelacja nie równa się przyczynowości. Celem budowania modelu jest znalezienie użytecznych zmiennych, które będą miarodajnymi przewidywaniami. Musisz uważać na fałszywe korelacje. Możesz być zaskoczony, gdy dowiesz się, że istnieje niezwykle silna korelacja między wskaźnikiem rozwodów w Maine a spożyciem margaryny na mieszkańca. Jednak wykorzystanie danych rozwodowych z Maine nie miałoby sensu, gdybyś próbował przewidzieć przyszłą sprzedaż margaryny.
Prawdziwy przykład wyceny nieruchomości za pomocą regresji
Zastosujmy teraz tę wiedzę praktycznie i zbudujmy model liniowy od początku do końca. W naszym przykładzie spróbujemy zbudować model wyceny nieruchomości, który przewiduje wartość domów jednorodzinnych w hrabstwie Alleghany w Pensylwanii. Wybór hrabstwa Alleghany jest arbitralny, a przedstawione zasady będą działać w każdej lokalizacji. Będziemy używać Excela i SPSS, który jest powszechnie używanym oprogramowaniem statystycznym.
Znajdowanie danych
Znalezienie danych wysokiej jakości to pierwszy krok w budowaniu dokładnego modelu i być może najważniejszy. Chociaż wszyscy słyszeliśmy zwrot „śmieci wchodzą, śmieci wychodzą”, należy pamiętać, że nie ma idealnego zbioru danych. Jest to w porządku, o ile możemy z łatwością założyć, że dane próbki są reprezentatywne dla całej populacji. Istnieją trzy główne źródła danych o nieruchomościach:
- Pierwszym i często najlepszym źródłem danych są agencje rządowe. Wiele z tych danych jest albo bezpłatna, albo stosunkowo tania. Wiele firm pobiera opłaty za dane, które można łatwo uzyskać za darmo, dlatego przed zakupem danych zawsze zajrzyj do Internetu. Wyszukiwanie w Internecie często daje wyniki, wyszukując hrabstwo lub miasto, którego szukasz, i słowa takie jak „ocena podatkowa”, „wycena podatkowa”, „ewidencja nieruchomości” lub „wyszukiwanie aktów prawnych”. Wydziały Systemów Informacji Geograficznej (GIS) są jedną z najbardziej pomijanych części wielu społeczności. Często mają dużo danych zagregowanych z różnych innych lokalnych agencji. Jako deweloper często polegałem na ich pomocy, aby znaleźć wysokiej jakości dane, które wykorzystałem do budowy modeli, które pomogą zlokalizować nowe nieruchomości pod zabudowę. Doskonałym źródłem danych mogą być również organizacje rozwoju gospodarczego.
- Inną opcją są dostawcy nastawiony na zysk. Są szczególnie przydatne, gdy szukasz danych z wielu obszarów. Upewnij się, że odrobiłeś pracę domową, zanim zapłacisz duże sumy pieniędzy za ich dane. Nie polegaj tylko na ich przykładowych zestawach danych, ponieważ może to wprowadzać w błąd pod względem kompletności. Jeśli masz wątpliwości, jakie dane są dostępne, skontaktuj się bezpośrednio z przedstawicielem lub zapytaj o gwarancję zwrotu pieniędzy.
- Wreszcie, lokalne usługi wielu list (MLS) są nieocenionym zasobem. Większość nieruchomości jest sprzedawana przez agenta nieruchomości, który jest członkiem MLS. Ogólnie rzecz biorąc, członkowie MLS są zobowiązani do umieszczenia wszystkich swoich wpisów w systemie lokalnym. Niestety często istnieje wiele ograniczeń dotyczących dołączenia do MLS, a koszt dostępu do danych może być dość wysoki. Ważne jest również, aby upewnić się, że nie naruszasz warunków korzystania z usługi podczas korzystania z ich danych i narażasz się na potencjalną odpowiedzialność.
W naszym przykładzie będziemy używać wyłącznie bezpłatnych danych pochodzących z Regionalnego Centrum Danych Zachodniej Pensylwanii i Biura Spisu Ludności Stanów Zjednoczonych. Dane Alleghany Real Estate Sales dadzą nam plik bazowy dla naszych obserwacji z ceną sprzedaży jako naszą zmienną zależną (zmienna Y). Będziemy również testować zmienne przy użyciu wyniku chodu dla każdego spisu powszechnego i informacji o wycenie podatkowej.

Jedną bardzo przydatną zmienną przy tworzeniu modeli nieruchomości jest szerokość i długość geograficzna każdego adresu. Możesz uzyskać te dane za pomocą geokodera, który używa adresu ulicy do przypisywania szerokości i długości geograficznej. Geokoder US Census Bureau zidentyfikuje również trakt spisowy dla każdej lokalizacji, który jest powszechnie używany do agregowania informacji demograficznych i psychograficznych.
Analizowanie, przekształcanie i tworzenie nowych zmiennych.
Teraz, gdy wybraliśmy nasze źródła danych, musimy zbadać jakość danych. Najłatwiejszym sposobem sprawdzenia jakości danych jest uruchomienie tabeli częstości dla kilku kluczowych zmiennych. Jeśli istnieje znaczna liczba brakujących lub uszkodzonych wpisów, będziemy musieli dokładniej zbadać dane. Poniższa tabela pokazuje, że tylko 1 z 216 498 rekordów ma brakujący kod pocztowy w pliku sprzedaży i nie ma błędnych kodów pocztowych, takich jak 99999 lub 1X#45. To prawdopodobnie wskazuje, że jest to zbiór danych wysokiej jakości.
Słownik danych jest doskonałym źródłem informacji, jeśli jest dostępny. Podaje opis tego, co mierzy każda zmienna, i możliwe opcje dla zmiennej. Nasze dane zawierają analizę każdej sprzedaży dokonanej na terenie powiatu. Jest to kluczowa informacja, zwłaszcza podczas pracy z surowymi zapisami czynów. Wszystkie transakcje dotyczące nieruchomości muszą być rejestrowane, aby były wykonalne zgodnie z prawem, ale nie wszystkie transfery odzwierciedlają prawdziwą godziwą wartość rynkową nieruchomości. Na przykład sprzedaż między dwoma członkami rodziny może odbywać się po cenie niższej niż rynkowa jako forma prezentu lub aby uniknąć płacenia wyższych kosztów transakcji, takich jak znaczki czynu. Na szczęście dla nas samorząd wyraźnie zaznacza transfery, które ich zdaniem nie są reprezentatywne dla aktualnych wartości rynkowych, więc będziemy się posługiwać tylko zapisami odzwierciedlającymi „ważną sprzedaż”. Sprzedaż ta stanowi tylko około 18% całkowitej liczby transakcji, co ilustruje, jak ważne jest zrozumienie danych przed rozpoczęciem ich analizy. Z mojego doświadczenia wynika, że stosunek ten jest dość powszechny przy analizie aktów. Jest bardzo prawdopodobne, że gdybyśmy zbudowali model uwzględniający „nieprawidłową sprzedaż”, nasze wyniki końcowe byłyby zniekształcone.
Następnie dołączymy nasze dane z oceny i wyniki spaceru do pliku sprzedaży. Daje nam to jeden stół do wykorzystania w naszym modelu. W tym momencie musimy przeanalizować zmienne, aby sprawdzić, czy nadają się do regresji liniowej. Poniżej znajduje się tabela przedstawiająca różne typy zmiennych.
Nasz plik zawiera kilka wartości nominalnych, takich jak sąsiedztwo lub kod pocztowy, które kategoryzują dane bez poczucia porządku. Wartości nominalne są nieodpowiednie dla regresji liniowej bez transformacji. Istnieje również kilka zmiennych porządkowych, które oceniają jakość konstrukcji, aktualny stan nieruchomości itp. Wykorzystanie danych porządkowych jest właściwe tylko wtedy, gdy możemy racjonalnie założyć, że każda ranga jest równomiernie rozłożona. Na przykład nasze dane mają zmienną oceny z 19 różnymi klasyfikacjami (A+, A, A- itd.), więc możemy bezpiecznie założyć, że te oceny są prawdopodobnie równomiernie rozmieszczone.
Istnieje również kilka zmiennych, które należy przekształcić, zanim będziemy mogli użyć ich w modelu. Jedną wartością nominalną, którą można przekształcić w zmienną fikcyjną do testowania, jest zmienna grzania i chłodzenia. Ustawimy zmienną na 0 dla wszystkich nieruchomości bez klimatyzacji i tych z klimatyzacją na 1. Ponadto oceny liter muszą zostać przekonwertowane na liczby (np. 0=Najgorsza, 1=Lepsza, 2=Najlepsza), aby zobaczyć jeśli istnieje liniowa zależność z ceną.
Na koniec musimy ustalić, czy użycie wszystkich obserwacji jest właściwe. Chcemy przewidzieć wartości domów jednorodzinnych, dzięki czemu możemy wyeliminować z danych wszystkie nieruchomości komercyjne, mieszkania i kamienice. Chcemy również uniknąć potencjalnych problemów z autokorelacją, dlatego wykorzystujemy dane dotyczące sprzedaży w 2017 r. tylko w celu ograniczenia prawdopodobieństwa ich wystąpienia. Po wyeliminowaniu wszystkich nieistotnych rekordów mamy do przetestowania ostateczny zestaw danych.
Wybór próbek i zmiennych
Wybór odpowiedniej wielkości próbki może być trudny. Wśród materiałów akademickich istnieje szeroki zakres sugerowanych liczb minimalnych i różnych zasad praktycznych. W naszym badaniu ogólna populacja jest dość duża, więc nie musimy się martwić, że wystarczy na próbkę. Zamiast tego ryzykujemy, że próba będzie tak duża, że prawie każda zmienna będzie miała w modelu istotność statystyczną. Ostatecznie około 10% rekordów zostało losowo wybranych do modelowania.
Dobór zmiennych może być jedną z najtrudniejszych części procesu bez oprogramowania statystycznego. Jednak SPSS pozwala nam szybko zbudować wiele modeli z kombinacji zmiennych, które uznaliśmy za odpowiednie dla regresji liniowej. SPSS automatycznie odfiltruje zmienne na podstawie naszych progów istotności statystycznej i zwróci tylko najlepsze modele.
Budowanie modelu i przeglądanie wyników
Na podstawie naszych przykładowych danych firma SPSS stworzyła pięć modeli. Model, który był najbardziej predykcyjny, zawierał 5 następujących zmiennych.
- Ocena na podstawie jakości konstrukcji od 1 do 19 (1=bardzo słaba i 19=doskonała)
- Wykończona powierzchnia mieszkalna
- Klimatyzacja (Tak/Nie)
- Wielkość partii
- Ocena za kondycję fizyczną lub stan techniczny 1-8 (1=niemieszkalny i 8=doskonały)
Przyjrzyjmy się wynikom SPSS. Na początku skupimy się na wartości R-kwadrat, która mówi nam, jaki procent wariancji zmiennej zależnej (ceny) jest przewidywany przez regresję. Najlepsza możliwa wartość to 1, a wynik naszego modelu jest dość obiecujący. Standardowy błąd szacunku, który mierzy precyzję modelu, wydaje się być dość wysoki i wynosi 73 091 USD. Jeśli jednak porównamy to z odchyleniem standardowym ceny sprzedaży w modelu (160.429 USD), błąd wydaje się rozsądny.
SPSS ma wbudowaną funkcję testowania autokorelacji za pomocą testu Durbina-Watsona. Najlepiej byłoby, gdyby wartość wynosiła 2,0 w skali od 0 do 4, ale wartość 1,652 nie powinna wywoływać alarmu.
Następnie testujemy wyniki modelu, aby określić, czy istnieją jakiekolwiek dowody heteroskedastyczności. Nie ma wbudowanej funkcjonalności dla SPSS, ale używając tego makra napisanego przez Ahmada Daryanto możemy użyć testów Breuscha-Pagana i Koenkera. Testy te pokazują, że w naszym modelu występuje heteroskedastyczność, ponieważ poziom istotności (Sig) na poniższym wykresie wynosi poniżej 0,005. Nasz model naruszył jedno z klasycznych założeń regresji liniowej. Najprawdopodobniej jedna ze zmiennych w modelu wymaga przekształcenia w celu wyeliminowania problemu. Jednak zanim to zrobimy, dobrze jest zobaczyć, jaki wpływ ma heteroskedastyczność na moc predykcyjną naszych zmiennych niezależnych. Korzystając z makra opracowanego przez Andrew F. Hayesa, możemy przyjrzeć się skorygowanym błędom standardowym i poziomom istotności dla naszych zmiennych niezależnych.
Dalsze testy ujawniają, że zmienne niezależne pozostają statystycznie istotne po uwzględnieniu heteroskedastyczności w modelu, więc na razie nie musimy go koniecznie zmieniać.
Przetestuj i dopracuj model
W ramach końcowego testu ocenimy wszystkie rekordy sprzedaży, które nie były częścią oryginalnej próbki z naszym modelem. Pomoże nam to zobaczyć, jak model działa na większym zestawie danych. Wyniki tego testu pokazują, że wartość R-kwadrat i błąd standardowy oszacowania nie zmieniły się znacząco na dużym zestawie danych, co prawdopodobnie wskazuje, że nasz model będzie działał zgodnie z oczekiwaniami.
Gdybyśmy chcieli użyć naszego przykładowego modelu w prawdziwym życiu, prawdopodobnie dokonalibyśmy dalszej segmentacji danych, aby uzyskać kilka modeli, które byłyby bardziej precyzyjne, lub poszukalibyśmy dodatkowych danych w celu zwiększenia precyzji tego pojedynczego modelu. Te kroki prawdopodobnie usunęłyby również heteroskedastyczność, którą widzieliśmy w modelu. Biorąc pod uwagę fakt, że próbowaliśmy użyć jednego modelu do prognozowania wartości domów w powiecie liczącym ponad milion mieszkańców, nie powinno dziwić, że nie byliśmy w stanie zbudować „idealnego” modelu w zaledwie kilka godzin .
Wnioski
Naszym celem było zbudowanie modelu, który przewiduje wartość domów jednorodzinnych jednorodzinnych. Z naszej analizy wynika, że osiągnęliśmy ten cel z rozsądną precyzją, ale czy nasz model ma sens?
Gdybyśmy mieli opisać nasz model, powiedzielibyśmy, że wartość domu zależy od wielkości działki, powierzchni domu, jakości konstrukcji, aktualnego stanu remontu oraz tego, czy posiada klimatyzacja. Wydaje się to bardzo rozsądne. W rzeczywistości, jeśli porównamy nasz model z tradycyjnymi metodami wyceny, widzimy, że jest on bardzo podobny do podejścia kosztowego, które dodaje koszt nabycia gruntu i budowy nowego budynku dostosowanego do obecnego stanu przestarzałości. Jednak to podobieństwo może być, używając wyrażenia regresji, fałszywą korelacją.
Zazwyczaj podejście kosztowe jest zalecane tylko w przypadku wyceny nowszych nieruchomości, ze względu na problemy z określeniem odpowiedniej metody amortyzacji starszych nieruchomości. Za pomocą naszego modelu stworzyliśmy podobną strategię, która jest przydatna dla właściwości w każdym wieku, w rzeczywistości przetestowaliśmy wiek jako zmienną niezależną i doszliśmy do wniosku, że nie ma on statystycznie istotnego wpływu na wartość właściwości!
Korzystanie z analizy regresji dla Twojej firmy
Mam nadzieję, że teraz lepiej rozumiesz podstawy analizy regresji. Kolejne pytanie brzmi: czy może pomóc Twojej firmie? Jeśli odpowiesz twierdząco na którekolwiek z tych pytań, prawdopodobnie skorzystasz z analizy regresji jako narzędzia.
- Czy chcesz bardziej naukowego podejścia do określania wartości, tworzenia prognoz lub analizy konkretnego rynku?
- Szukasz lepszych sposobów na identyfikację potencjalnych inwestycji w nieruchomości na dużych obszarach, regionach, a nawet w całym kraju?
- Czy Twoim celem jest przyciągnięcie dużych detalistów, restauracji lub firm hotelarskich do swojego projektu nieruchomości komercyjnych?
- Czy uważasz, że mógłbyś potencjalnie ulepszyć swój proces decyzyjny, włączając do procesu nowe punkty danych?
- Czy obawiasz się zwrotu z inwestycji w marketing dla kupujących i inwestorów?
Powyższy przykładowy model jest prostą demonstracją wartości zastosowania modelowania regresji w nieruchomościach. 2-3 godziny, które zajęło zebranie danych i zbudowanie modelu, są dalekie od wykazania jego pełnego potencjału. W praktyce istnieje wiele różnych zastosowań analizy regresji w branży nieruchomości poza wyceną nieruchomości, w tym:
- Analiza cen pod kątem cen katalogowych i stawek czynszowych
- Analiza demograficzna i psychograficzna nabywców mieszkań i najemców.
- Identyfikacja celów marketingu bezpośredniego
- Analiza ROI dla kampanii marketingowych
Modelowanie geoprzestrzenne wykorzystuje zasady analizy regresji w połączeniu z trzema najważniejszymi rzeczami w nieruchomościach: lokalizacją, lokalizacją, lokalizacją. Pracując jako deweloper mieszkaniowy od ośmiu lat mogę zaświadczyć o sile modelowania geoprzestrzennego. Korzystając z ArcGIS, mogłem włączyć dane sprzedaży, mapy działek i dane lidarowe, aby znaleźć nieruchomości idealne do zagospodarowania w górach Karoliny Północnej.
Z mojego doświadczenia wynika, że większość pieniędzy z nieruchomości pochodzi z zakupu, a nie z rozwoju projektu. Umiejętność identyfikowania okazji, których inni nie zauważają, może być ogromną przewagą konkurencyjną na rynku nieruchomości. Analityka geoprzestrzenna to coś, z czego duże firmy korzystają od wielu lat, ale mniejsze firmy często przeoczają.
Jak znaleźć odpowiedniego partnera analitycznego dla swojej firmy
Bardzo niewiele osób oceniłoby statystyki jako swój ulubiony przedmiot. W rzeczywistości, jako całość, ludzie bardzo źle rozumieją nawet podstawowe prawdopodobieństwa. Jeśli masz wątpliwości co do tej opinii, wybierz się na wycieczkę do Las Vegas lub Makau. Niestety, może to utrudnić ustalenie, komu można zaufać, gdy szukasz porady na temat wdrażania analizy regresji w swoim procesie. Oto kilka kluczowych rzeczy, na które należy zwrócić uwagę podczas oceny potencjalnych kandydatów
Podczas gdy ludzie są źli w ocenie prawdopodobieństw, intuicja jest raczej dobra w wykrywaniu kłamstw. Powinieneś być bardzo sceptyczny wobec każdego, kto twierdzi, że jest w stanie zbudować model, który odpowie na wszystkie Twoje pytania! Nie ufaj gwarancji wyników. Miejmy nadzieję, że ten artykuł zilustrował fakt, że analiza regresji opiera się na obserwacji empirycznej i solidnej nauce. Zawsze będzie tak, że pewne rzeczy są łatwiejsze do przewidzenia niż inne. Zaufany doradca będzie otwarty i uczciwy, gdy nie będzie w stanie znaleźć odpowiedzi, której szukasz, i nie przeszuka Twojego budżetu, próbując znaleźć odpowiedź, której nie ma.
Szukaj pana Spocka zamiast kapitana Kirka. Rozsądne badania mogą być doskonałym narzędziem marketingowym, ale zbyt często ludzie płacą za seksowne materiały marketingowe powiewem pseudobadań i brakiem logiki, która by to wspierała. Niektórzy ludzie są naturalnie bardziej analityczni, ale wielkie umiejętności analityczne pochodzą z praktyki. Idealnie byłoby, gdyby każdy, kogo zatrudnisz do analizy danych dla Twojej firmy, miał doświadczenie w znajdowaniu rozwiązań wielu różnych problemów. Ktoś o wąskim skupieniu może być bardziej podatny na myślenie grupowe, zwłaszcza gdy jego doświadczenia ściśle odzwierciedlają twoje.
Put potential candidates on the spot with questions that help demonstrate their reasoning abilities. This is not the time to rely on behavioral questions alone. Ideal candidates will have the ability to strategically use known information to reasonably estimate the answer to complex problems. Ask logical reasoning questions, like “How many tennis balls could you fit in the Empire State Building?”
Finally, you should look for someone with whom you can communicate. All of the information in the world won't help if you can't put it to good use. If someone uses so much jargon in an introductory conversation that your eyes start to glaze over, then they probably aren't the right fit for your company.