Dette er de beste gratis datakildene som alle kan bruke

PC: Flickr

Hva er åpne data?

Enkelt sagt betyr Open Data den typen data som er åpen for alle og enhver for tilgang, endring, gjenbruk og deling.

Open Data henter sin base fra forskjellige “åpne bevegelser” som open source, open hardware, open government, open science osv.

Regjeringer, uavhengige organisasjoner og byråer har kommet frem for å åpne flomportene til data for å lage flere og mer åpne data for gratis og enkel tilgang.

Hvorfor er åpne data viktige?

Åpne data er viktig fordi verden har blitt stadig mer datadrevet. Men hvis det er begrensninger i tilgangen til og bruken av data, blir ikke ideen om datadrevet virksomhet og styring materialisert.

Derfor har åpne data sitt eget unike sted. Det kan gi en bedre forståelse av de globale problemene og universelle spørsmål. Det kan gi et stort løft for bedrifter. Det kan være en stor drivkraft for maskinlæring. Det kan bidra til å bekjempe globale problemer som sykdom eller kriminalitet eller hungersnød. Åpne data kan styrke borgere og dermed styrke demokratiet. Det kan effektivisere prosessene og systemene som samfunnet og myndighetene har bygget. Det kan bidra til å transformere måten vi forstår og engasjerer oss med verden på.

Så her er listen over 15 fantastiske Open Data-kilder:

1. Verdensbankens åpne data

Som et arkiv for verdens mest omfattende data om hva som skjer i forskjellige land over hele verden, er Verdensbanken Open Data en viktig kilde til Open Data. Det gir også tilgang til andre datasett som er nevnt i datakatalogen.

Verdensbankens åpne data er enorme fordi de har 3000 datasett og 14000 indikatorer som inkluderer mikrodata, tidsseriestatistikk og geospatial data.

Det er også ganske enkelt å få tilgang til og oppdage dataene du ønsker. Alt du trenger å gjøre er å spesifisere indikatornavn, land eller emner, og det vil åpne skatten til Open Data for deg. Det lar deg også laste ned data i forskjellige formater som CSV, Excel og XML.

Hvis du er journalist eller akademiker, vil du bli fascinert av en rekke verktøy som er tilgjengelig. Du kan få tilgang til analyse- og visualiseringsverktøy som kan styrke forskningen. Det kan krenke en dypere og bedre forståelse av globale problemer.

Du kan få tilgang til API som kan hjelpe deg med å lage datavisualiseringene du trenger, livekombinasjoner med andre datakilder og mange flere slike funksjoner.

Derfor er det ingen overraskelse at World Bank Open Data topper en liste over Open Data-kilder!

2. WHO (World Health Organization) - Åpne dataregister

WHOs Open Data-lagring er hvordan WHO holder oversikt over helsespesifikk statistikk fra sine 194 medlemsland.

Depotet holder dataene systematisk organisert. Det kan nås etter forskjellige behov. Uansett om det er dødelighet eller belastning av sykdommer, kan man få tilgang til data klassifisert under 100 eller flere kategorier, for eksempel tusenårsutviklingsmålene (barneernæring, barnehelse, mors og reproduktiv helse, immunisering, HIV / AIDS, tuberkulose, malaria, forsømte sykdommer, vann og sanitæranlegg), ikke smittsomme sykdommer og risikofaktorer, epidemisk utsatte sykdommer, helsesystemer, miljøhelse, vold og skader, rettferdighet etc.

For dine spesifikke behov kan du gå gjennom datasettene i henhold til temaer, kategori, indikatorer og land.

Det gode er at det er mulig å laste ned all data du trenger i Excel-format. Du kan også overvåke og analysere data ved å bruke dataportalen.

API-en til Verdens helseorganisasjons data- og statistikkinnhold er også tilgjengelig.

3. Google Public Data Explorer

Google Public Data Explorer ble lansert i 2010, og kan hjelpe deg med å utforske store mengder datasett med interesse for interesse. Du kan visualisere og kommunisere dataene for dine respektive bruksområder.

Det gjør dataene fra forskjellige byråer og kilder tilgjengelige. For eksempel kan du få tilgang til data fra Verdensbanken, U. S. Bureau of Labor Statistics og U.S. Bureau, OECD, IMF og andre.

Ulike interessenter får tilgang til disse dataene til en rekke formål. Enten du er student eller journalist, enten du er politiker eller akademiker, kan du utnytte dette verktøyet for å lage visualiseringer av offentlige data.

Du kan distribuere forskjellige måter å representere dataene på som linjediagrammer, stolpediagrammer, kart og boblediagrammer ved hjelp av Data Explorer.

Det beste er at du synes disse visualiseringene er ganske dynamiske. Det betyr at du vil se dem endre seg over tid. Du kan endre emner, fokusere på forskjellige oppføringer og endre skalaen.

Den er lett delbar også. Så snart du gjør diagrammet klart, kan du legge det inn på nettstedet eller bloggen din, eller bare dele en lenke med vennene dine.

4. Register av åpne data på AWS (RODA)

Dette er et depot som inneholder offentlige datasett. Det er data som er tilgjengelige fra AWS-ressurser.

Når det gjelder RODA, kan du oppdage og dele dataene som er offentlig tilgjengelige.

I RODA kan du bruke nøkkelord og tagger for vanlige typer data som genomisk, satellittbilder og transport for å søke etter hvilke data du leter etter. Alt dette er mulig på et enkelt webgrensesnitt.

For hvert datasett vil du oppdage detaljside, brukseksempler, lisensinformasjon og opplæringsprogrammer eller applikasjoner som bruker disse dataene.

Ved å benytte deg av et bredt spekter av data- og dataanalyseprodukter, kan du analysere de åpne dataene og bygge hva slags tjenester du ønsker.

Mens dataene du får tilgang til er tilgjengelige gjennom AWS-ressurser, må du huske på at de ikke leveres av AWS. Denne informasjonen tilhører forskjellige etater, offentlige organisasjoner, forskere, bedrifter og enkeltpersoner.

5. Den europeiske unions åpne dataportal

Du kan få tilgang til alle åpne data EU-institusjoner, byråer og andre organisasjoner publiserer på en enkelt plattform, nemlig EUs åpne dataportal.

EUs Open Data Portal er hjemsted for viktige åpne data knyttet til EUs politiske domener. Disse politikkdomenene inkluderer økonomi, sysselsetting, vitenskap, miljø og utdanning.

Rundt 70 EU-institusjoner, organisasjoner eller avdelinger som Eurostat, European Environment Agency, Joint Research Centre og andre EU-kommisjonens direktorater og EU-byråer har offentliggjort datasettene sine offentlige og gitt tilgang. Disse datasettene har krysset antallet 11700 til dato.

Portalen gir enkel tilgang. Du kan enkelt søke, utforske, lenke, laste ned og gjenbruke dataene gjennom en katalog med vanlige metadata. Du kan gjøre det for dine spesifikke formål. Det kan være kommersielle eller ikke-kommersielle formål.

Du kan søke i metadatakatalogen gjennom en interaktiv søkemotor (kategorien Data) og SPARQL-spørsmål (kategorien Koblede data).

Ved å benytte deg av denne katalogen, kan du få tilgang til dataene som er lagret på de forskjellige nettstedene til EUs institusjoner, byråer og organisasjoner.

6. FiveThirtyEight

Det er et flott nettsted for datadrevet journalistikk og historiefortelling.

Den gir sine forskjellige datakilder for en rekke sektorer som politikk, sport, vitenskap, økonomi osv. Du kan også laste ned dataene.

Når du får tilgang til dataene, vil du komme over en kort forklaring angående hvert datasett med hensyn til kilden. Du vil også bli kjent med hva den står for og hvordan du bruker den.

For å gjøre disse dataene brukervennlige, gir den datasett i så enkle, ikke-proprietære formater som CSV-filer som mulig. Unødvendig å si, disse formatene kan lett nås og behandles av mennesker så vel som maskiner.

Ved hjelp av disse datasettene kan du lage historier og visualiseringer i henhold til dine egne krav og preferanser.

7. U.S. Census Bureau

U.S. Census Bureau er det største statistiske byrået for den føderale regjeringen. Den lagrer og gir pålitelige fakta og data angående mennesker, steder og økonomi i Amerika.

Census Bureau anser sitt edle oppdrag å utvide sine tjenester som den mest pålitelige leverandøren av kvalitetsdata.

Enten det er en føderal, statlig, lokal eller stammeforvaltning, alle av dem bruker folketellingsdata til en rekke formål. Disse regjeringene bruker disse dataene for å bestemme plasseringen av nye boliger og offentlige fasiliteter. De benytter seg av det også når de undersøker de demografiske egenskapene til samfunn, stater og USA.

Denne informasjonen blir også benyttet ved planlegging av transportsystemer og veier. Når det gjelder å bestemme kvoter og opprette politi og brannkontor, kommer disse dataene til nytte. Når regjeringer oppretter lokaliserte områder med valg, skoler, verktøy osv., Benytter de seg av disse dataene. Det er en praksis å sammenstille befolkningsinformasjon en gang i tiår, og disse dataene er ganske nyttige for å oppnå det samme.

Det er forskjellige verktøy som American Fact Finder, Census Data Explorer og Quick Facts som er nyttige i tilfelle du vil søke, tilpasse og visualisere data.

For eksempel inneholder Quick Facts alene statistikk for alle delstater, fylker, byer og til og med byer med en befolkning på 5000 eller mer.

På samme måte kan American Fact Finder hjelpe deg med å oppdage populære fakta som befolkning, inntekt osv. Den gir informasjon som ofte blir bedt om.

Det fine er at du kan søke, samhandle med dataene, bli kjent med populær statistikk og se de relaterte diagrammer gjennom Census Data Explorer. Dessuten kan du også bruke visuelt verktøy for å tilpasse data på en interaktiv kartopplevelse.

8. Data.gov

Data.gov er skatten for den amerikanske regjeringens åpne data. Det var først nylig at beslutningen ble gjort om å gjøre alle regjeringsdata tilgjengelig gratis.

Da den ble lansert, var det bare 47. Det er nå 180 000 datasett.

Hvorfor Data.gov er en flott ressurs er fordi du kan finne data, verktøy og ressurser som du kan distribuere til en rekke formål. Du kan utføre forskningen din, utvikle nett- og mobilapplikasjoner og til og med designe datavisualiseringer.

Alt du trenger å gjøre er å oppgi nøkkelord i søkefeltet og bla gjennom typer, koder, formater, grupper, organisasjonstyper, organisasjoner og kategorier. Dette vil lette enkel tilgang til data eller datasett du trenger.

Data.gov følger Project Open Data Schema - et sett med nødvendige felt (tittel, beskrivelse, tagger, siste oppdatering, utgiver, kontaktnavn, etc.) for hvert datasett som vises på Data.gov.

9. DBpedia

Wikipedia er som kjent en god kilde til informasjon. DBpedia tar sikte på å få strukturert innhold fra verdifull informasjon som Wikipedia opprettet.

Med DBpedia kan du semantisk søke og utforske forhold og egenskaper til Wikipedia-ressursen. Dette inkluderer lenker til andre relaterte datasett også.

Det er rundt 4,58 millioner enheter i DBpedia datasettet. 4,22 millioner er klassifisert i ontologi, inkludert 1.445.000 personer, 735.000 steder, 123.000 musikkalbum, 87.000 filmer, 19.000 videospill, 241.000 organisasjoner, 251.000 arter og 6.000 sykdommer.

Det finnes etiketter og sammendrag for disse enhetene på rundt 125 språk. Det er 25,2 millioner lenker til bilder. Det er 29,8 millioner lenker til eksterne websider.

Alt du trenger å gjøre for å bruke DBpedia er å skrive SPARQL-spørsmål mot sluttpunkt eller ved å laste ned dumpene deres.

DBpedia har kommet flere bedrifter til gode, som Apple (via Siri), Google (via Freebase og Google Knowledge Graph), og IBM (via Watson), og spesielt deres respektive prestisjeprosjekter knyttet til kunstig intelligens.

10. freeCodeCamp Open Data

Det er et samfunn med åpen kildekode. Hvorfor det betyr noe, er fordi det lar deg kode, bygge pro bono-prosjekter etter ideelle organisasjoner og få tak i en jobb som utvikler.

For å få dette til, stiller communityet freeCodeCamp.org til rådighet enorme datamengder hver måned. De har gjort det om til åpne data.

Du vil finne en rekke ting i dette depotet. Du kan finne datasett, analyse av det samme og til og med demonstrasjoner av prosjekter basert på freeCodeCamp-dataene. Du kan også finne lenker til eksterne prosjekter som inkluderer freeCodeCamp-data.

Det kan hjelpe deg med et mangfold av prosjekter og oppgaver du måtte ha i bakhodet. Enten det er nettanalyser, analyser av sosiale medier, analyse av sosiale nettverk, utdanningsanalyse, datavisualisering, datadrevet nettutvikling eller bots, dataene som tilbys av dette fellesskapet kan være ekstremt nyttige og effektive.

11. Yelp Åpne datasett

Yelp-datasettet er i utgangspunktet en undergruppe av annet enn våre egne virksomheter, anmeldelser og brukerdata til bruk i personlige, pedagogiske og akademiske aktiviteter.

Det er 5 996 996 anmeldelser, 188,593 bedrifter, 280 991 bilder og 10 storbyområder inkludert i Yelp Open Datasett.

Du kan bruke dem til forskjellige formål. Siden de er tilgjengelige som JSON-filer, kan du bruke dem for å lære elevene om databaser. Du kan bruke dem til å lære NLP eller for eksempelproduksjonsdata mens du forstår hvordan du designer mobile apper.

I dette datasettet finner du hver fil som består av en enkelt objekttype, ett JSON-objekt per linje.

12. Datasett fra UNICEF

Siden UNICEF beskjeftiger seg med en lang rekke kritiske spørsmål, har den samlet relevante data om utdanning, barnearbeid, funksjonshemning, barnedødelighet, mødredødelighet, vann og sanitær, lav fødselsvekt, fødselsomsorg, lungebetennelse, malaria, jodmangel lidelse, kjønnslemlestelse / kutt og ungdom.

UNICEFs åpne datasett publisert i IATI-registeret: http://www.iatiregistry.org/publisher/unicef ​​er hentet ut direkte fra UNICEFs operativsystem (VISION) og andre datasystemer, og det gjenspeiler innspill fra individuelle UNICEF-kontorer.

Det gode er at det er en regelmessig oppdatering når det gjelder disse datasettene. Hver måned oppdateres dataene for å gjøre dem mer omfattende, pålitelige og nøyaktige.

Du kan fritt og enkelt få tilgang til disse dataene. For å gjøre det, kan du laste ned disse dataene i CSV-format. Du kan også forhåndsvise eksempeldata før du laster ned dem.

Mens hvem som helst kan utforske og visualisere UNICEFs datasett, er det tre viktigste utgivere:

UNICEFs AID TRANSPARENCY PORTAL: Du kan langt lettere få tilgang til datasettene hvis du bruker denne portalen. Det inkluderer også detaljer for hvert land som UNICEF jobber i.

Publisher-d-portal: Det er for øyeblikket i BETA. Med denne portalen kan du utforske IATI-data.

Du kan søke i informasjonen relatert til utviklingsaktiviteter, budsjetter osv. Du kan utforske denne informasjonen landsmessig.

Forleggerens dataplattform: På denne plattformen kan du enkelt få tilgang til statistikk, diagrammer og beregninger for data som er tilgjengelig via IATI-registeret. Hvis du klikker på overskriftene, kan du også sortere mange av tabellene du ser på plattformen. Du vil også finne mange av datasettene i plattformene i maskinlesbart JSON-format.

13. Kaggle

Kaggle er flott fordi den fremmer bruken av forskjellige datasett-publikasjonsformater. Imidlertid er det bedre at det sterkt anbefaler at datasettforlagene deler dataene sine i et tilgjengelig, ikke-proprietært format.

Plattformen støtter åpne og tilgjengelige dataformater. Det er viktig ikke bare for tilgang, men også for hva du vil gjøre med disse dataene. Derfor definerer Kaggle Dataset tydelig filformatene som anbefales mens du deler data.

Det unike med Kaggle datasett er at det ikke bare er et dataregister. Hvert datasett står for et fellesskap som lar deg diskutere data, finne ut offentlige koder og teknikker og konseptualisere dine egne prosjekter i Kernels.

CSV, JSON, SQLite, Archive, Big Query etc. er filtyper som Kaggle støtter. Du kan finne en rekke ressurser for å begynne å jobbe med ditt åpne dataprosjekt.

Det beste er at Kaggle lar deg publisere og dele datasett privat eller offentlig.

14. LODUM

Det er Open Data-initiativet fra Universitetet i Münster. Under dette initiativet er det muliggjort for alle å få tilgang til all offentlig informasjon om universitetet i maskinlesbare formater. Du kan enkelt få tilgang til og bruke den etter behov.

Åpne data om vitenskapelige gjenstander og kodet som koblede data blir gjort tilgjengelig under dette prosjektet.

Ved hjelp av koblede data er det mulig å dele og bruke data, ontologier og forskjellige metadatastandarder. Det er faktisk lagt opp til at det vil være den aksepterte standarden for å gi metadata, og selve dataene på nettet.

LODUM-teamet har co-initiert LinkedUniversities.org og LinkedScience.org.

Du kan bruke SPARQL-editor eller SPARQL-pakke med R til å analysere data.

SPARQL-pakken gjør det mulig å koble til et SPARQL-endepunkt over HTTP, stille inn et SELECT-spørsmål eller et oppdateringsspørsmål (LOAD, INSERT, DELETE).

15. UCI Machine Learning Repository

Det fungerer som et omfattende arkiv for databaser, domeneteorier og datageneratorer som brukes av maskinlæringsfellesskapet for den empiriske analysen av maskinlæringsalgoritmer.

I dette depotet er det for tiden 463 datasett som en tjeneste til maskinlæringsfellesskapet.

Senter for maskinlæring og intelligente systemer ved University of California, Irvine er vertskap for og vedlikeholder det. David Aha hadde opprinnelig opprettet den som hovedfagsstudent ved UC Irvine.

Siden den gang bruker studenter, pedagoger og forskere over hele verden det som en pålitelig kilde til datasett for maskinlæring.

Hvordan det fungerer er at hvert datasett har sin distinkte webside som omfavner alle kjente detaljer inkludert relevante publikasjoner som undersøker det. Du kan laste ned disse datasettene som ASCII-filer, ofte som et CSV-format.

Detaljene i datasettene er oppsummert av aspekter som attributtyper, antall forekomster, antall attributter og publiserte år som kan sorteres og søkes.

Åpne dataportaler og søkemotorer:

Selv om det er mange datasett som publiseres av mange byråer hvert år, blir svært få datasett anerkjent og etablert.

Årsaken til at svært få slike datasett opprettholder som nyttig ressurs, er at det er en utfordring å utvikle, administrere og levere dataene på en måte som mennesker og organisasjoner synes de er nyttige og enkle å bruke.

Imidlertid finner du nedenfor en liste over andre få viktige åpne dataportaler og plattformer som tillater brukere å få tilgang til åpne data ganske enkelt, studere virkningen og skaffe verdifull innsikt.

  1. Googles datasøk
  2. Dataverse
  3. Åpne datasett
  4. CKAN
  5. Åpen datamonitor
  6. Plenar.io
  7. Åpne datapåvirkningskart

Konklusjon

Åpne data er dagens rekkefølge. Verden har gradvis begynt å bevege seg mot åpne systemer og åpne data synkroniseres med rette.

Virksomheten og organisasjonene som utnytter åpen data vil få et konkurransefortrinn og vil kunne dominere fremtiden.