Hvordan en bobleplott avslører de beste byene å bo i USA

I denne artikkelen skal jeg vise deg noen spennende fakta om amerikanske byer, verdien av bobleplott når du bestemmer hvilken by du vil bo i, og hvordan du oppretter disse tomtene.

Tenker du å investere i eiendommer i 2018? Flytter du til en ny by? Når du vurderer disse beslutningene, må du veie inn forskjellige faktorer som arbeidsledighet, boligpris, størrelsen på byen, sikkerhet og så videre. Selv med alle disse dataene og fire korresponderende søylediagrammer, vil du fremdeles være ledig og stirre på det bordet. Du vil prøve å finne de beste kandidatene, men disse faktorene forteller andre historier ... Høres ut som et komplekst problem.

Så er det en måte vi kan visualisere alle disse faktorene i ett diagram og sammenligne dem ALLE? Ja, vi kan bruke en bobleplott!

Hva er en bobleplott?

Et bobleplott er en type diagram som viser mer enn to dimensjoner av data (sammenlignet med tradisjonelle spredningsdiagrammer). I tillegg til å plotte en prikk på et X-Y-plan, bruker den størrelsen, fargen eller formen til punktet for å vise flere dimensjoner.

Vi bruker arbeidsledighet som X-aksen, median boligpris som Y-aksen, og befolkningen i byene som prikkens størrelse. Dette gjør en god tredje dimensjon. Farge tildeles tilfeldig til hver by.

Den beste byen i USA å bo i er… (vent på det)

Vinner: Nashville!

Andre anbefalinger: Austin, Omaha, Milwaukee, Dallas, Minneapolis, Denver og Aurora.

De har lav arbeidsledighet (og derfor er det større sjanse for å finne en jobb), og lav boligpris, fordi de er på nedre venstre side av tomten. Hva betyr det?

Det betyr at du kan ta valgene dine basert på denne handlingen.

Hvis du for eksempel anser ledigheten som viktigere og ikke har noe imot de høyere boligprisene, er Honolulu, Oakland, Boston og San Diego sterke kandidater

Hva med å legge til sikkerhet som en annen faktor?

Sikker. La oss legge til sikkerhet som en fjerde faktor (de tre andre faktorene er fremdeles boligpris, arbeidsledighet og befolkning). I stedet for tilfeldig å tildele en farge for en by, bruker vi fargeskalaen for kriminalitet (kriminalitetsrate per 100 000 mennesker). Rødt betyr mer kriminalitet og blått betyr mindre.

Endres resultatet?

Det gjorde det! Hvis sikkerhet er veldig viktig for deg, er Milwaukee kanskje ikke et så godt valg blant de tidligere anbefalingene (selv om det er nederst til venstre på grafen).

Nå ser du kraften til et bobleplott: muligheten til å demonstrere flere faktorer i ett 2-D-plott. Hvis du bare har søylediagrammer for disse faktorene, er det vanskelig for deg å identifisere byene med en ideell kombinasjon av faktorer. Bobleplottet opprettet i utgangspunktet en "visuell objektiv funksjon" for deg for å optimalisere et flervariabelt beslutningsforhold.

Hvordan endres arbeidsledighet og boligpris over tid?

Vi kan lage et interaktivt bevegelseskart for å legge til tid som dimensjon (2013 til 2017) for å se hvordan faktorene endrer seg for disse byene over tid.

For å unngå for mye visuell informasjon, brukte jeg ikke kriminalitetsdata og brukte de forskjellige fargene for å representere noen få utvalgte byer.

Den gode nyheten er at arbeidsledigheten i nesten alle byer gikk betydelig ned (beveger seg fra høyre til venstre). Men den dårlige nyheten er at boligprisene går ganske raskt opp (spesielt for San Francisco, San Jose, Los Angles, New York og Seattle).

Vil du lage diagrammer selv? Her er koden min for bobleplottene og bevegelseskartet i R. Ha det gøy å leke med tomtene :)

###############
# Bobleplott #
###############
bibliotek (data.table)
bibliotek (ggplot2)
bibliotek (ggrepel)
bubble_data <-fread ("https://raw.githubusercontent.com/zhendata/Medium_Posts/c007346db1575aca391a6623c87bb5a31a60b365/bubble_plot_merged_city_data.csv", sep = ",")
bubble_plot <- ggplot (bubble_data,
               aes (x = Arbeidsledighet_Rate, y = Hjem_pris / 1000)) +
geom_point (aes (størrelse = Befolkning, fyll = Total_Krime), form = 21) +
# Lag 'Bubble' ved å tilordne størrelse en variabel #
skala_fyll_kontinuerlig (lav = "# 33FFFF", høy = "# FF6699") +
skala_størrelse_area (maks_størrelse = 20) +
# Velg boblefargeskala og maksimal størrelse for boble #
geom_text_repel (
          aes (etikett = by), nudge_x = 0, nudge_y = 0,75, størrelse = 6) +
# Bruk geom_text_repel for å frastøte etikettene vekk fra hverandre #
theme_bw () +
# Bruk hvit bakgrunn i stedet for standardgrå #
ggtitle ("Beste byer i USA å bo i") + laboratorier (x = "Arbeidsledighetsgrad%", y = "Hjemmepris",
       størrelse = "Befolkning", fyll = "Forbrytelse") + tema (plot.title = element_text (størrelse = 25, hjust = 0.5),
        axis.title = element_text (størrelse = 20, ansikt = "fet"),
        axis.text = element_text (størrelse = 15)) +
# Stiltittel og akse #
skala_y_kontinuerlig (navn = "Hjempris", pauser = seq (0, 1500, av = 250),
                      etiketter = c ("0", "250K", "500K", "750K", "1000k", "1250k", "1500K"))
# Gjør y-aksen mer lesbar ved å erstatte vitenskapelig nummer med "K" #
print (bubble_plot)
################
# Bevegelseskart #
################
bibliotek (data.table)
bibliotek (googleVis)
motion_data <-fread ("https://raw.githubusercontent.com/zhendata/Medium_Posts/c007346db1575aca391a6623c87bb5a31a60b365/motion_chart_merged_city_data.csv", sep = ",")
motion_chart <- gvisMotionChart (motion_data,
idvar = "By",
timevar = "År",
xvar = "Arbeidsledighet",
yvar = "Hjempris",
sizevar = "Population")
plot (motion_chart)
# R åpner automatisk en fane i nettleseren for deg
# Flash-spilleren må være aktivert i nettleseren
Klikk på “⌽” -ikonet for å aktivere Flash
########
# Data #
########
"""
Datasettene jeg brukte er fra Zillow (medium Housing), FBIs UCR-program, census.gov (befolkning), Bureau of Labor (arbeidsledighet).
Jeg gjorde noen data rengjøring og ble med for formatet jeg trengte i denne artikkelen, og du kan klikke på lenkene nedenfor for å laste ned.
"""
bubble_plot_merged_city_data.csv, motion_chart_merged_city_data.csv

Følg meg og gi meg noen få klapper hvis du synes dette var nyttig!

Du kan også lese mine tidligere artikler om datavitenskap, eiendommer og beslutninger: