Metadaten - MrJaimba/Projektseminar Wiki

Ansprechpartnerin
Yanina Budnik

Allgemein

Da der Preis einer Immobilie nicht ausschließlich von den Wohnraumeigenschaften abhängig ist, wurde der bestehende Datensatz, die Einträge der Immobilienportale enthält, mit weiteren Metadaten ergänzt. Die Idee dahinter ist eine genauere Beschreibung der Lage einer Immobilie, da es fraglich ist ob die PLZ und deren Koordinaten alleine die Unterschiede in den sozioökonomischen Parametern einer Wohngegend erfassen und darstellen können. Oftmals wird die Lage als einer der ausschlaggebenden Faktoren für die Entscheidung für oder gegen den Kauf einer Immobilie benannt, was auch durch den bekannten Maklerspruch "Lage, Lage, Lage" deutlich wird.

Ebenfalls zu erwähnen ist, dass die hier verwendeten Quelldateien unterschiedliche Formate aufwiesen. Teilweise wurden Excellisten bereitgestellt, welche eine besonders einfache Weiterverarbeitung und Übertragung in die Datenbank ermöglichten. Andere Quellen stellen die Informationen jedoch nur auf einer Website oder in Form eines PDF-Dokument zur Verfügung. Die Übertragung dieser Informationen ging mit erheblichem Mehraufwand einher.

Arten und Quellen

Im Folgenden werden die einzelnen Variablen aufgeschlüsselt, die jeweilige Datenquelle ist als Link hinterlegt, zusätzlich wird die Idee hinter der Verwendung erläutert. Die generierten Metadaten lassen sich in folgende Struktur eingliedern:

Im Folgenden werden die einzelnen Variablen aufgeschlüsselt, die jeweilige Datenquelle ist als Link hinterlegt:


Eigenschaften, die die Raumstruktur beschreiben:

1. Grad der Verstädterung (Quelle: Statistisches Bundesamt)

Der Grad der Verstädterung beschreibt die Ländlichkeit eines Gebiets, drei Typen sind zu unterscheiden:

...zu verstehen (Eurostat). Die Idee hinter der Verwendung dieser Variable ist die Darstellung der Unterschiede zwischen den Immobilienpreisen in städtischen und ländlichen Gebieten.

2. Fläche qkm Gemeinde (Quelle: Statistisches Bundesamt)

Beschreibt die Flächengröße eine Gemeinde in Quadratkilometern, diese Variable soll den Größenunterschied zwischen den einzelnen Wohngebieten verdeutlichen. Die Fläche der Gemeinde könnte ebenfalls als ein Hinweis auf den Ländlichkeitsgrad verstanden werden.

3. Bevölkerungsdichte je qkm (Quelle: Statistisches Bundesamt)

Bevölkerungsdichte je Quadratkilometer wird aus der Einwohnerzahl geteilt durch die Fläche ermittelt, so könnte eine hohe Bevölkerungsdichte ein Hinweis auf eine dichte Bebauung, Plattenbauweise etc. sein

4. sozioökonomische Lage (Quelle: Infoportal Zukunft.Land)

kategorisch in Ausprägungen:

Aus der Definition des Infoportals Zukunft.Land:

"Die Typisierung ländlicher Räume erfolgt im ersten Schritt nach dem Merkmal „Ländlichkeit“. Es werden nicht-ländliche und ländliche Räume unterschieden. Die ländlichen Räume werden weiter unterschieden nach eher ländlichen und sehr ländlichen Räumen. Im zweiten Schritt werden die ländlichen Räume anhand des Merkmals „sozioökonomische Lage“ in solche mit guten und weniger guten sozialen und wirtschaftlichen Bedingungen unterteilt. Durch die Kombination der beiden Merkmale mit ihren Unterteilungen werden die nicht-ländlichen Räume sowie vier Typen ländlicher Räume gebildet. [...] Die Ländlichkeit ist tendenziell umso ausgeprägter, je geringer die Siedlungsdichte, je höher der Anteil land- und forstwirtschaftlicher Fläche, je höher der Anteil der Ein- und Zweifamilienhäuser, je geringer das Bevölkerungspotenzial und je schlechter die Erreichbarkeit großer Zentren ist.

[...] Die sozioökonomische Lage ist tendenziell umso besser, je niedriger die Arbeitslosenquote, der Anteil der Schulabgänger ohne Abschluss und der Wohnungsleerstand, je höher die Löhne, das Einkommen, die kommunale Steuerkraft, die Lebenserwartung von Männern und Frauen und je mehr junge Menschen im Saldo zuwandern.".

Diese Variable soll eine Unterscheidung in der Attraktivität der ländlichen Gemeinden sein, so könnte eine ländliche Gemeinde im Raum München attraktiver sein, als im Raum Hof, was sich auf die Immobilienpreise auswirken könnte.


Demographische und soziale Eigenschaften:

5. geschätzte Entwicklung der Bevölkerung in Prozent

Die geschätzte Entwicklung der Bevölkerung konnte aus der "Regionalisierten Bevölkerungsvorausberechnung für Bayern bis 2039" entnommen werden. Die Werte geben in Prozentpunkten an, wie sich die Bevölkerung einer Kreisfreien Stadt, eines Landkreises oder einer Regionen bis zum Jahr 2039 verändern wird. Bei der Interpretation weisen die Autoren jedoch auf folgende Hinweise hin: "Die vorgelegten Bevölkerungsvorausberechnungen sind als Modellrechnungen zu verstehen, die die demographische Entwicklung unter bestimmten Annahmen zu den Geburten, Sterbefällen und Wanderungen in die Zukunft fortschreiben. Die Annahmen beruhen überwiegend auf einer Analyse der bisherigen Verläufe dieser Parameter. Vorausberechnungen dürfen also nicht als exakte Vorhersagen missverstanden werden. Sie zeigen aber, wie sich eine Bevölkerung unter bestimmten, aus heutiger Sicht plausiblen Annahmen entwickeln würde."

6. geschätzte nicht natürliche Bevölkerungsabwanderung bis 2039

Die Werte der nicht natürlichen Bevölkerungsabwanderung zeigen auf, welcher Anteil der Bewohner aus einer Region abwandert. Aus diesen Werten werden die natürlichen Abwanderungen herausgerechnet, welche beispielweise Geburten oder Sterbefälle berücksichtigen.

7. Durchschnittsalter

Das Durchschnittsalter bietet dem Nutzer des AWI Immobilienbewertungstools die Möglichkeit die Altersstruktur zweier Regionen miteinander zu vergleichen. Das Durchschnittsalter variiert in den Kreisfreien Städten, Landkreisen und Regionen im Jahr 2019 zwischen 41,4 und 47,7. Es kann beispielhaft verdeutlicht werden, dass die Universitätsstadt Regensburg eine deutlich jüngere Altersstruktur aufweist, als die Stadt Kulmbach.

8. geschätzte Entwicklung des Durchschnittsalters bis 2039 in Prozent

Die Entwicklung des Durchschnittsalters bis zum Jahr 2039 basiert auf den Werten von 2019. Die Werte zeigen, dass das Durchschnittsalter in Bayern in den kommenden 20 Jahren von 43,9 auf 45,9 Jahre steigen wird. Regional weist die Entwicklung des Durchschnittsalters jedoch große Unterschiede auf. Während das Durchschnittsalter in München nur um 0,9 Jahre ansteigt erhöht sich das Durchschnittsalter in der niederbayerischen Stadt Freyung um 3,7 Jahre.

9. Altersquotient

Der Altersquotient verdeutlicht wie viele Personen einer Region sich im Rentenalter befinden. Die Definition des statistischen Bundesamt stellt den Altersquotienten als Verhältnis der Personen im Rentenalter (z.B. 65 Jahre und älter) zu 100 Personen im erwerbsfähigen Alter (z.B. von 20 bis unter 65 Jahren) dar. Auch hier bestehen große regionale Unterschiede, die Einfluss auf den Immobilienwerten nehmen können. Den geringsten Altersquotienten weist Freising mit 24,8 auf.

10. Entwicklung des Altersquotienten bis 2039 in Prozent

Genau wie bei der Entwicklung des Durchschnittsalters, bestehen auch beim Altersquotienten große regionale Unterschiede. Darüber hinaus wird auch verdeutlicht, das sich das Verhältnis der Personen im Rentenalter in allen Regionen erhöhen wird. Alle Regionen Bayerns weisen vom Ausgangsjahr 2019 bis 2039 einen Anstieg des Altersquotienten auf. Teilweise steigt der Altersquotient sogar um 28,3 Prozentpunkte, wie etwa im Landkreis Kronach.

11. Anteil nicht erfolgreicher beruflicher Bildungsgänge:

Der Anteil nicht erfolgreicher beruflicher Bildungsgänge beschreibt, wie viele Personen einen beruflichen Bildungsgang in einer Region ohne Abschluss beendet haben. Die Daten entstammen dem Jahr 2019.

12. Anteil Schulabgänger ohne Abschluss:

Die verlinkte Quelle bezieht sich auf die Regionaldatenbank des Statistischen Bundesamtes. Für die Metadaten wurden die aktuellsten Werte verwendet, die zum Zeitpunkt der Beschaffung für das Jahr 2019 verfügbar waren. Die Quelldatei enthält eine Spalte mit der Gesamtanzahl aller Schulabsolventen sowie einer Spalte mit Schulabgängern ohne Hauptschulabschluss. Auf Basis dieser Zahlen, konnte der prozentuale Anteil aller Schulabgänger ohne Abschluss für die jeweiligen Regionen ermittelt werden.

13. Anteil Absolventen mit allgemeiner Hochschulreife:

Der Anteil aller Absolventen mit allgemeiner Hochschulreife bezieht sich auf die selbe Quelle wie die Variable 12. Die Berechnung erfolgte entsprechend dem beschriebenen Vorgehen.


Wirtschaftliche Kennzahlen im Bezug auf die Bevölkerung und Gemeinde

14. Durchschnittseinkommen

Bayerisches Landesamt für Statistik: "Das Verfügbare Einkommen der privaten Haushalte (VEK) ergibt sich aus dem empfangenen Primäreinkommen nach Abzug der geleisteten laufenden Transfers und der Hinzufügung der empfangenen laufenden Transfers. Es gibt das Einkommen nach dem staatlichen Umverteilungsprozess an, enthält also im Vergleich zum PEK Renten und Sozialleistungen, während Steuern und Sozialbeiträge abgezogen sind. Das VEK ist als der Betrag zu verstehen, der den Personen für Konsumzwecke oder zur Ersparnisbildung zur Verfügung steht. Es ist daher ein sehr gutes Maß für den monetären Wohlstand der Bevölkerung. Bei regionalen Wohlstandsvergleichen ist jedoch zu beachten, dass auch die Unterschiede bei den regionalen Preisen berücksichtigt werden müssten."

15. Entwicklung der Durchschnittseinkommen

Die Entwicklung der Durchschnittseinkommen stellt eine Beziehung zwischen den Durchschnittseinkommen des Jahres 1995 und dem Basisjahr 2019 dar. So können regionale Einkommensentwicklungen betrachtet und ausgewertet werden.

16. Arbeitslosenquote in Prozent

Nach Definition des bayerischen Landesamtes für Statistik, zählen als Arbeitslose alle Personen, "die vorübergehend nicht in einem Beschäftigungsverhältnis stehen oder nur eine weniger als 15 Stunden wöchentlich umfassende Beschäftigung ausüben (Beschäftigungslosigkeit), eine versicherungspflichtige, mindestens 15 Stunden wöchentlich umfassende Beschäftigung suchen (Eigenbemühungen), den Vermittlungsbemühungen der Agentur für Arbeit oder des Jobcenters zur Verfügung stehen, also arbeiten dürfen, arbeitsfähig und -bereit sind (Verfügbarkeit), in der Bundesrepublik Deutschland wohnen, nicht jünger als 15 Jahre sind und die Altersgrenze für den Renteneintritt noch nicht erreicht haben und sich persönlich bei einer Agentur für Arbeit oder einem Jobcenter arbeitslos gemeldet haben." Die Zahlen wurde aus dem Datenangebot der Bundesagentur für Arbeit entnommen und beziehen sich auf den Monat Dezember des Jahres 2020.

17. Finanzkraft (Quelle: Bayerisches Landesamt für Statistik)

Bayerisches Landesamt für Statistik: "Die Statistik über die Schulden der öffentlichen Haushalte ist eine jährliche Totalerhebung zum Stichtag 31. Dezember und berichtet über den Stand der Schulden, Schuldenaufnahmen, Schuldentilgungen, sonstigen Schuldenbewegungen sowie über Bürgschaften, Garantien und sonstige Gewährleistungen des Berichtsjahres. Als Basis für die Auskunftserteilung dienen vor allem die Ergebnisse aus den Rechnungsabschlüssen der Gebietskörperschaften sowie der sonstigen zum Berichtskreis gehörenden Institutionen. Die Durchführung erfolgt im Rahmen einer Onlineerhebung über das IDEV-System. Für die Erhebung besteht Auskunftspflicht."

18. Verschuldung pro Einwohner in 1000 (Quelle: Bayerisches Landesamt für Statistik)

Die Verschuldung pro Einwohner ist ebenfalls aus der Schuldenstatistik 2019 zu entnehmen (siehe Finanzkraft). Hierbei werden die Schulden einer Region durch die Einwohnerzahl geteilt. An dieser Stelle ist zu erwähnen, dass die Berechnung auf Basis der Einwohnerzahlen vom 30.06.2019 erfolgt.

19. Kommunale Steuerkraft (Quelle: Infoportal Zukunft.Land)

Die kommunale Steuerkraft gibt an wie hoch die Steuereinnahmen einer Gemeinde sind. Diese wird folgendermaßen berechnet: Summe aus den normierten Grundsteuern A und B, der normierten Gewerbesteuer, den kommunalen Anteilen an der Einkommen- und Umsatzsteuer, den sonstigen Gemeindesteuern (Vergnügungssteuer, Hundesteuer, Getränkesteuer usw.) minus der Gewerbesteuerumlage) / Einwohner. Diese Variable könnte einen Hinweis auf die Attraktivität einer Gemeinde für die Ansiedlung der Arbeitgeber, die Höhe der Einkommen etc. sein. Zudem sollte die Infrastruktur einer finanziell leistungsstarken Gemeinde besser ausgebaut sein als die einer ärmeren Gemeinde, was die Attraktivität der reicheren Gemeinde steigern würde.

20. Anzahl landwirtschaftlicher Betriebe

Bayerisches Landesamt für Statistik: "Die Landwirtschaftszählung (LZ) findet alle zehn, die Agrarstrukturerhebung (ASE) alle drei Jahre statt. Mit diesen Erhebungen werden zugleich die Anforderungen der Europäischen Gemeinschaft erfüllt. Die Agrarstrukturerhebung findet im Wechsel allgemein und repräsentativ statt. Neben Merkmalen der Bodennutzung und Viehbeständen werden Strukturdaten (Größenklassen) und weitergehende landwirtschaftliche Themen, wie u.a. ökologischer Landbau, Düngung, Pacht und Arbeitskräfte, erfragt." Zum Zeitpunkt der Informationsbeschaffung, lagen ausschließlich Zahlen aus dem Jahr 2016 vor. Diese wurde für die Ermittlung der Anzahl landwirtschaftlicher Betriebe herangezogen.

21. Anzahl der Gewerbeanmeldungen

Bayerisches Landesamt für Statistik: "Die Gewerbeanzeigenstatistik liefert monatlich Informationen über die Zahl der Gewerbean- und -abmeldungen. Sie wird aus den Meldungen der Gewerbetreibenden bei den bayerischen Gewerbeämtern generiert. Teile dieser Meldungen werden monatlich an das Statistische Landesamt übermittelt. Die Gewerbeanzeigenstatistik hat die Aufgabe, über das Meldegeschehen in seiner Gesamtheit zu informieren, aber auch Existenzgründungen und Stilllegungen von Unternehmen und Betrieben statistisch abzubilden." Für die Metadaten des AWI Immobilienbewertungstools wurden die Gesamtwerte des Jahres 2020 verwendet.

22. Anzahl Betriebe (Quelle: Bayerisches Landesamt für Statistik)

Hier ist die Anzahl der Betriebe, die dem Wirtschaftszweig verarbeitendes Gewerbe angehören, erfasst, darunter finden sich Metall- und Holzverarbeitung, Bergbau, Herstellung von Lebensmitteln etc. (Statischtisches Bundesamt 2019, 1-6). Eine höhere Anzahl dieser Betriebe könnte bedeuten, dass es auch mehr Jobs in der Region gibt, wodurch sich der Zuzug vergrößert und damit die Nachfrage nach Immobilien steigt, wodurch sich auch deren erhöht.

23. Anzahl Gästeübernachtungen in 2019 (Quelle: Statistische Ämter des Bundes und der Länder)

Diese Variable gibt an wie viele Gästeübernachtungen es in 2019 in Summe gab. Je höher die Zahl, desto attraktiver könnte eine Gemeinde für Touristen sein. Damit könnte sich die Vermietung als Ferienwohnung o. Ä. rentieren, was sich positiv auf den Immobilienpreis auswirken könnte.


Wohnsituation

24. Anstieg der Wohnfläche

Der prozentuale Anstieg der Wohnfläche einer Region konnte aus der verlinkten Quellen berechnet werden. Angegeben ist die gesamte Wohnfläche einer Region sowie die prozentuale Veränderung zwischen den Jahren 2018 und 2019. So konnte der prozentuale Anstieg der Gesamtwohnfläche ermittelt werden.

25. Kaltmiete / qm (Quelle: Immobilienscout24):

Für diese Variable werden die Anzeigen für Haus- und Wohnungsvermietungen mittels Scraper extrahiert. Dieser Datensatz kann ausgebaut werden, da im Zeitraum der Projektlaufzeit nicht in allen PLZ-Gebieten Immobilien vermietet wurden. Fehlende Werte wurden mit dem Durchschnitt der Miete aus der gleichen sozioökonomischen Lage aufgefüllt. Die Vermutung hinter Aufnahme dieser Variable war: je höher der Mietpreis pro Quadratmeter, desto teurer die Immobilien im PLZ Gebiet.

26. Anzahl Baugenehmigungen Wohngebäude Gemeinde (Quelle: Bayerisches Landesamt für Statistik)

Höhere Zahl der Baugenehmigungen könnte die eine höhere Nachfrage nach Immobilien in einer Gemeinde bedeuten, was sich im Immobilienpreis widerspiegeln würde.

27. Durchschnittlicher Kaufwert von Bauland, EUR je qm (Quelle: Bayerisches Landesamt für Statistik)

Die Kosten des Baulands haben eine direkte Auswirkung auf den Immobilien.

28. Wohnungsleerstand Gemeinde (Quelle: Infoportal Zukunft.Land)

Gibt den Anteil der leerstehenden Wohnungen an, ein hoher Anteil an leerstehenden Wohnungen könnte bedeuten, dass die Nachfrage nach Immobilen in der Region niedrig ist und die Immobilien damit niedriger sind.

29. Pachtentgelt landwirtschaftlicher Fläche

Die hier erhobenen Werte stellen das durchschnittliche Pachtentgelt je ha einer Region dar. Die Werte beziehen sich auf die aktuellen Zahlen des "Bayerischen Landesamtes für Statistik" und entstammen dem Jahr 2010.


Versorgungssituation

30. Statistik der allgemein bildenden Schulen I (Grund- sowie Mittel-/Hauptschulen) (Quelle: Bayerisches Landesamt für Statistik)

Bildet die Anzahl der Grund-, Mittel- und Hauptschulen in der Gemeinde ab. Gemeinden in denen sich so eine Schule befindet, könnten für junge Familien interessanter sein, damit könnte auch die Nachfrage nach Immobilien in solchen Gemeinden höher sein.

31. Statistik der allgemein bildenden Schulen II (Gymnasien) (Quelle: Bayerisches Landesamt für Statistik)

Bildet die Anzahl der Gymnasien in der Gemeinde ab. Gemeinden in denen sich so eine Schule befindet, könnten für junge Familien interessanter sein, damit könnte auch die Nachfrage nach Immobilien in solchen Gemeinden höher sein.

32. Breitbandversorgung (Quelle: Infoportal Zukunft.Land)

Anteil der Haushalte, die mit einem Anschluss mit einer Datendatenübertragungsraten von mindestens 16 Mbit/s versorgt werden können. Idee hier: Schlechte Versorgung könnte auf eine Abgeschiedenheit hindeuten, zudem könnten die Gemeinde für Arbeitnehmer im Home Office unattraktiver sein, wodurch die Nachfrage nach Immobilien in der Region sinken könnte.

33. Supermarkt im PLZ Gebiet (Quelle: BayernSPD Landtagsfraktion)

Kategorisch, mit Ausprägung JA/NEIN. Ist kein Supermarkt vorhanden, könnte dies auf eine schlechtere Versorgungssituation hindeuten.

34. LTE Abdeckung (Quelle: Thünen-Landatlas)

Flächenanteil in einer Gemeinde, der über eine Versorgungsrate von mindestens 2 Mbit/s verfügt. Je niedriger der Anteil, desto schlechter könnte der Infrastrukturausbau in der Gemeinde sein.


Erreichbarkeit wesentlicher Einrichtungen

Im Wesentlichen soll durch die Metadaten dieser Kategorie die allgemeine Lebensqualität in einer Gemeinde dargestellt werden, hier werden die Notfallversorgung, Freizeitgestaltung, Ausbau der öffentlichen Verkehrsmittel etc. abgedeckt. Alle Einträge sind als Wegezeit in Minuten zu verstehen, die von einer Gemeinde aus im Mittel mit dem Auto bis zur nächsten Einrichtung zurückgelegt werden muss. Je höher diese Zahl, desto abgeschiedener ist die Gemeinde bzw. desto schlechter ist der Infrastrukturausbau.

35. Erreichbarkeit von Hausärzten (Quelle: Infoportal Zukunft.Land)

36. Erreichbarkeit von Zahnärzten (Quelle: Infoportal Zukunft.Land)

37. Erreichbarkeit von Apotheken (Quelle: Infoportal Zukunft.Land)

38. Erreichbarkeit durch Polizeidienststellen (Quelle: Infoportal Zukunft.Land)

39. Erreichbarkeit von Lebensmittelgeschäften (Quelle: Infoportal Zukunft.Land)

40. Erreichbarkeit von Tankstellen (Quelle: Infoportal Zukunft.Land)

41. Erreichbarkeit Krankenhaus mit Maximalversorgung (Quelle: Thünen-Landatlas)

42. Erreichbarkeit von Kindergarten (Quelle: Thünen-Landatlas)

43. Erreichbarkeit ÖPNV Haltestelle (Quelle: Thünen-Landatlas)

44. Erreichbarkeit Bahnhof (Quelle: Thünen-Landatlas)

45. Erreichbarkeit Oberzentrum (Quelle: Thünen-Landatlas)

Definition der Bayerischen Staatskanzlei: "Die als Oberzentren eingestuften Gemeinden, die Fachplanungsträger und die Regionalen Planungsverbände sollen darauf hinwirken, dass die Bevölkerung in allen Teilräumen mit Gütern und Dienstleistungen des spezialisierten höheren Bedarfs in zumutbarer Erreichbarkeit versorgt wird." In Oberzentren befinden sich u. a. Höhere Bildungseinrichtungen, Museen, Bibliotheken und größere Einkaufszentren (Einig 2015, 47).

46. Erreichbarkeit Hallenbad (Quelle: Thünen-Landatlas)

47. Erreichbarkeit Freibad (Quelle: Thünen-Landatlas)


Landnutzung

Bayerisches Landesamt für Statistik: "Die Flächenerhebung nach Art der tatsächlichen Nutzung liefert Informationen über die Aufteilung der Bodenfläche nach Nutzungsarten. Sie wird seit 1980 durchgeführt, zunächst alle vier Jahre, seit 2008 jährlich. Stichtag ist jeweils der 31. Dezember. Den Daten liegt das amtliche Liegenschaftskataster bei den Vermessungsämtern zugrunde". Die verlinkte Quelldatei bezieht sich auf das Jahr 2019 und beinhaltet Flächennutzungsinformationen zu den folgenden Anteilen:

48. Anteil Dauergrünflächen an landwirtschaftlicher Fläche

49. Anteil Wohnfläche an gesamter Siedlungsfläche

50. Anteil Industriefläche an gesamter Siedlungsfläche

51. Anteil Siedlungsfläche an Gesamtfläche

52. Anteil Grünflächen an Gesamtfläche

53. Anteil Erholungsflächen an Gesamtfläche


Einbindung


Da die Daten für die Statistischen Ämtern ebenso von Verwaltungsstellen stammen, sind sie nicht nach der Postleitzahl, sondern nach dem Gemeindeschlüssel aufgeschlüsselt. Ländlichen und kleineren Gemeinden sind eine einzige PLZ und ein eindeutiger Gemeindeschlüssel zugewiesen, so dass sich die Metadaten, die auf der Gemeindeebene erhoben werden, auch auf das PLZ-Gebiet beziehen. Städte, wie München oder Würzburg, haben einen eindeutigen Gemeindeschlüssel, aber gleichzeitig mehrere PLZ-Gebiete. In diesem Fall beziehen sich die Metadaten nicht auf ein einziges Stadtteil, sondern auf das ganze Stadtgebiet. Für Metadaten der Kategorien Versorgung oder Erreichbarkeit stellt dies kein Problem dar, da man davon ausgehen kann, dass relevante Einrichtungen von jedem PLZ-Gebiet innerhalb einer Stadt relativ schnell erreicht werden, so wie auch die Versorgung ähnlich ist. Es wäre wünschenswert, dass die Daten, die die Bevölkerungsstruktur beschreiben, die Durchschnitteinkommen, Baulandkosten oder auch die Arbeitslosenquote sich auch innerhalb größerer Städte auf die jeweiligen PLZ-Gebiete beziehen. Auf diese Weise könnten günstigere Stadtteile innerhalb einer Stadt besser erkannt werden, jedoch stehen die Daten in einer solchen Granularität öffentlich nicht zur Verfügung.

Die Gemeindeschlüssel werden mit Hilfe der Übersicht Gemeindeverzeichnis-Informationssystem GV-ISys mit der PLZ in einer Excel Tabelle verknüpft. Danach werden in der Tabelle anhand des Gemeindeschlüssels weitere Metadaten von weiteren Quellen hinzugefügt. Die Metadaten-Tabelle kann hier eingesehen werden. Anschließend werden die Metadaten in die Datenbank überführt.

Einfluss auf die Preisvorhersage

Für die Metadaten ergeben sich folgende Korrelationswerte mit dem Angebotspreis:


Die vollständige Korrelationstabelle kann hier eingesehen werden (Tabellenblatt "Korrelation neueste Daten").

Fügt man den Immobiliendaten die Metadaten hinzu, so ergeben sich folgende Änderungen der RSME Werte:

Random Forest Gradient Boosting Regressor XGB Regressor
RSME ohne Metadaten 146184 135088 143933
RSME mit Metadaten 133386 120703 128324

RSME Werte gelten für Target Encoding, unter Verwendung von diesem Immobiliendatensatz, der letzten Stand der Immobilieneinträge in der Datenbank entspricht. Der Immobiliendatensatz wurde mit diesem Metadatendatensatz, der ebenso dem letzten Stand entspricht, zusammengeführt. Folgende Parameter wurden bei den Algorithmen verwendet:

Unter folgenden Links können die Werte als Google Colab Notebooks eingesehen werden:

Im nächsten Schritt wurden die neu hinzugefügten Features auf ihren Einfluss auf den RSME Wert geprüft. Dazu werden sie nach ihren absoluten Korrelationswerten sortiert und nacheinander dem Immobiliendatensatz hinzugefügt. Dabei zeigt sich, dass bereits nicht alle Features benötigt werden um die obigen Werte zu erreichen:

Für Random Forest wird der beste Wert bereits nach dem Hinzufügen von Kaltmiete, Durchschnittseinkommen, geschätzte Entwicklung der Bevölkerung und Baulandkosten pro qm erreicht. Bei Gradient Boosting Regressor wird im weiteren Verlauf ein unwesentlich besserer Wert von 118186. Mit XGB Regressor wird ein RSME von 125875 erreicht, wenn ' Anteil Erholungsflächen an Gesamtfläche', 'Erreichbarkeit Freibad ', ' Anteil Siedlungsfläche an Gesamtfläche' und ' Arbeitslosenquote in Prozent' nicht berücksichtigt werden. Die vollständige Tabelle kann hier (Tabellenblatt Datensatz neu) eingesehen werden.

Auch wenn nicht alle hier herangezogenen Metadaten für den Erklärungsgehalt des Modells zur Preisschätzung der Immobilien einen Mehrwert bieten sollten, besteht dieser immer noch im Zusammenhang mit der Anwendergruppe, die AWI benutzen soll. So sind die Erreichbarkeiten, wirtschaftliche Situation einer Gemeinde etc. durchaus sinnvolle Informationen für Makler. Diese Informationen werden deswegen in der graphischen Oberfläche von AWI übernommen.

Ursprüngliche Idee: Einbindung der Google Places API

Ursprünglich plante das Projektteam die Google Places API für die geographischen Metadaten einzubinden. Die Metadaten, die über Google beschafft werden sollten, sollten Einrichtungen zur Freizeitgestaltung, Ärzte, Lebensmittelgeschäfte, ÖPNV, Schulen etc. abdecken. Ein früher Entwurf zu dieser Idee kann hier eingesehen werden.

Dazu sollten Umkreissuchen i. H. v. 2 Kilometern in Stadtgebieten und 10 Kilometern in Landgebieten um den Mittelpunkt eines PLZ-Gebietes durchgeführt werden. Die einzelnen Typen der Einrichtungen (Schule, Supermarkt...) sollten über die "Ortstypen" (Google Place Types) gefiltert werden. Die Einbindung musste schon im frühen Stadium verworfen werden, da die Nutzung der API für das Projektteam mit Kosten verbunden wäre. Das freie Monatskontingent an Anfragen wäre bereits mit wenigen Variablen aufgebraucht, da die Daten für über 1.500 PLZs gebraucht wurden. Andere Alternativen, wie die API von TomTom, wurden geprüft und wären ebenso mit Kosten verbunden. Letztendlich hat sich das Projektteam für die Verwendung von Daten, die von statistischen Ämtern zur Verfügung gestellt werden, als kostenfreie Alternative entschieden. Dafür wurde die bereits weiter oben beschriebene, geringere Datengranularität in Kauf genommen.

Quellen:

Einig, Klaus (2015): Gewährleisten Zentrale-Orte-Konzepte gleichwertige Lebensverhältnisse bei der Daseinsvorsorge? In: Informationen zur Raumentwicklung. Heft 1.2015