Gratis åpne datasett for maskinlæring og datavitenskap | Mot AI

De beste offentlige datasettene for maskinlæring og datavitenskap

Hva er de beste datasettene for maskinlæring? Etter å ha skrapt nettet timer etter timer, har vi laget et flott jukseark for høykvalitets og mangfoldig datamaskininnlæringsdatasett.

FORFATTERE:

Stacy Stanford, Machine Learning Memoirs Inc.

Roberto Iriondo, Machine Learning Department, Carnegie Mellon University.

PUBLISERT:

2. oktober 2018

SIST OPPDATERT:

15. mai 2019

Noen ting du må huske på når du søker etter datasett av høy kvalitet:

1.- Et datasett av høy kvalitet skal ikke være rotete, fordi du ikke vil bruke mye tid på å rengjøre data.

2.- Et datasett av høy kvalitet skal ikke ha for mange rader eller kolonner, så det er enkelt å jobbe med.

3.- Jo renere data, jo bedre - rengjøring av et stort datasett kan være utrolig tidkrevende.

4.- Ditt sluttmål skal ha et spørsmål / beslutning om å svare, som igjen kan besvares med data.

Datasettfinner

Google Datasett-søk: I likhet med hvordan Google Scholar fungerer, lar Datasett-søk deg finne datasett uansett hvor de er vertskap, enten det er et forlags nettsted, et digitalt bibliotek eller en forfatters personlige webside.

Kaggle: Et data science nettsted som inneholder en rekke eksternt bidro til interessante datasett. Du kan finne alle slags nisjedatasett i hovedlisten, fra ramen-rangeringer til basketballdata til og med Seattle kjæledyrlisenser.

UCI Machine Learning Repository: En av de eldste kildene til datasett på nettet, og et flott første stopp når du leter etter interessante datasett. Selv om datasettene er bidragsyter av brukeren og dermed har varierende renhetsnivå, er de aller fleste rene. Du kan laste ned data direkte fra UCI Machine Learning-lagringsstedet, uten registrering.

VisualData: Oppdag datasyn for datasyn etter kategori, det lar søkbare søk.

Finn datasett | CMU-biblioteker: Oppdag datasett av høy kvalitet takket være samlingen av Huajin Wang, CMU.

Generelle datasett

Offentlige myndighetsdatoer

Data.gov: Dette nettstedet gjør det mulig å laste ned data fra flere amerikanske myndighetsorganer. Data kan variere fra regjeringsbudsjetter til skoleprestasjonsresultater. Vær imidlertid advart: mye av dataene krever ytterligere undersøkelser.

Matmiljøatlas: Inneholder data om hvordan lokale matvalg påvirker kostholdet i USA.

Skolesystemets økonomi: En undersøkelse av økonomien til skolesystemer i USA.

Data om kronisk sykdom: Data om indikatorer for kronisk sykdom i områder over hele USA.

US National Center for Education Statistics: Data om utdanningsinstitusjoner og utdanningsdemografi fra USA og rundt om i verden.

UK Data Service: Storbritannias største samling av sosiale, økonomiske data og befolkningsdata.

Data USA: En omfattende visualisering av amerikanske offentlige data.

Boligdatasett

Boston Housing Dataset: Inneholder informasjon samlet inn av U.S. Census Service angående bolig i området Boston Mass. Det ble hentet fra StatLib-arkivet og har blitt brukt mye i hele litteraturen for å benchmark algoritmer.

Geografiske datasett

Google-Landmarks-v2: Et forbedret datasett for gjenkjennelse og gjenfinning av landemerker. Dette datasettet inneholder 5M + bilder av 200 k + landemerker fra hele verden, hentet og kommentert av Wiki Commons-samfunnet.

Datasett for økonomi og økonomi

Quandl: En god kilde for økonomiske og økonomiske data - nyttig for å bygge modeller for å forutsi økonomiske indikatorer eller aksjekurser.

Verdensbankens åpne data: Datasett som dekker befolkningsdemografi, et stort antall økonomiske indikatorer og utviklingsindikatorer fra hele verden.

IMF-data: Det internasjonale pengefondet publiserer data om internasjonale finanser, gjeldsrenter, valutareserver, råvarepriser og investeringer.

Financial Times markedsdata: Oppdatert informasjon om finansmarkeder fra hele verden, inkludert aksjekursindekser, råvarer og valuta.

Google Trends: Undersøk og analyser data om internetsøkaktivitet og trending nyheter over hele verden.

American Economic Association (AEA): En god kilde for å finne amerikanske makroøkonomiske data.

Datasett for maskinlæring:

Bildedatasett

xView: xView er et av de største offentlig tilgjengelige datasettene med overhead-bilder. Den inneholder bilder fra komplekse scener rundt om i verden, merket med avgrensende bokser.

Labelme: Et stort datasett med kommenterte bilder.

ImageNet: De-facto bildedatasettet for nye algoritmer, organisert i henhold til WordNet-hierarkiet, der hundretusener av bilder viser hver node i hierarkiet.

LSUN: Sceneforståelse med mange hjelpeoppgaver (estimering av romoppsett, forutsigbarhet osv.)

MS COCO: Generisk bildeforståelse og billedtekst.

COIL100: 100 forskjellige objekter avbildet i hver vinkel i en 360-rotasjon.

Visual Genome: Meget detaljert visuell kunnskapsbase med bildetekst av ~ 100K-bilder.

Googles åpne bilder: En samling av 9 millioner nettadresser til bilder "som er merket med etiketter som spenner over 6000 kategorier" under Creative Commons.

Labeled Faces in the Wild: 13 000 merkede bilder av menneskelige ansikter, for bruk i utvikling av applikasjoner som involverer ansiktsgjenkjenning.

Stanford Dogs Datasett: Inneholder 20.580 bilder og 120 forskjellige hunderaser kategorier.

Innendørs scenegjenkjenning: Et veldig spesifikt datasett og veldig nyttig, ettersom de fleste scenegjenkjenningsmodeller er bedre ‘utenfor’. Inneholder 67 innendørskategorier og 15620 bilder.

Datasett for sentimentanalyse

Multidomain sentimentanalysedatasett: Et litt eldre datasett som inneholder produktanmeldelser fra Amazon.

IMDB-anmeldelser: Et eldre, relativt lite datasett for klassifisering av binær stemning har 25 000 filmanmeldelser.

Stanford Sentiment Treebank: Standard sentiment-datasett med sentiment-kommentarer.

Sentiment140: Et populært datasett, som bruker 160 000 tweets med uttrykksikoner forhånds fjernet.

Twitter US Airline Sentiment: Twitter-data om amerikanske flyselskaper fra februar 2015, klassifisert som positive, negative og nøytrale tweets

Datasett for naturlig språkbehandling

HotspotQA-datasett: Datasett for spørsmålssvar med naturlige spørsmål i flere hop, med sterkt tilsyn for å støtte fakta for å muliggjøre mer forklarbare systemer for spørsmålssvar.

Enron Datasett: E-postdata fra toppledelsen i Enron, organisert i mapper.

Amazon Reviews: Inneholder rundt 35 millioner anmeldelser fra Amazon fra 18 år. Data inkluderer produkt- og brukerinformasjon, rangeringer og ren tekstgjennomgang.

Google Books Ngrams: En samling ord fra Google-bøker.

Blogger Corpus: En samling av 681 288 blogginnlegg samlet fra blogger.com. Hver blogg inneholder minimum 200 forekomster av ofte brukte engelske ord.

Wikipedia Koblingsdata: Fullteksten til Wikipedia. Datasettet inneholder nesten 1,9 milliarder ord fra mer enn 4 millioner artikler. Du kan søke etter ord, uttrykk eller deler av et avsnitt i seg selv.

Gutenberg eBooks List: En kommentert liste over ebooks fra Project Gutenberg.

Hansards tekstbiter av det kanadiske parlamentet: 1,3 millioner par tekster fra postene til det 36. Kanadiske parlamentet.

Jeopardy: Arkiv med mer enn 200 000 spørsmål fra quizen viser Jeopardy.

Rotten Tomatoes Reviews: Arkiv med mer enn 480 000 kritikeranmeldelser (ferske eller råtne).

SMS Spam Collection på engelsk: Et datasett som består av 5574 engelske SMS-spammeldinger

Yelp-anmeldelser: Et åpent datasett utgitt av Yelp, inneholder mer enn 5 millioner anmeldelser.

UCIs Spambase: Et stort e-postdatasett for spam, nyttig for spamfiltrering.

Selvkjørende (autonom kjøring) datasett

Berkeley DeepDrive BDD100k: For tiden det største datasettet for selvkjørende AI. Inneholder over 100.000 videoer med over 1100 timers kjøreopplevelser over forskjellige tider på døgnet og værforhold. De kommenterte bildene kommer fra New York og San Francisco-områdene.

Baidu Apolloscapes: Stort datasett som definerer 26 forskjellige semantiske gjenstander som biler, sykler, fotgjengere, bygninger, gatelys, etc.

Comma.ai: Mer enn 7 timers kjøring på motorveien. Detaljer inkluderer bilens hastighet, akselerasjon, styrevinkel og GPS-koordinater.

Oxford Robotic Car: Over 100 repetisjoner av den samme ruten gjennom Oxford, Storbritannia, fanget i løpet av et år. Datasettet fanger opp forskjellige kombinasjoner av vær, trafikk og fotgjengere, sammen med langsiktige endringer som bygging og vegarbeid.

Cityscape Datasett: Et stort datasett som registrerer urbane gatescener i 50 forskjellige byer.

CSSAD-datasett: Dette datasettet er nyttig for oppfatning og navigering av autonome kjøretøy. Datasettet skjevler seg tungt på veier som finnes i den utviklede verden.

KUL Belgia Trafikkskilt Datasett: Mer enn 10000+ trafikkskilt-merknader fra tusenvis av fysisk distinkte trafikkskilt i Flandern i Belgia.

MIT AGE Lab: En prøve på 1000+ timers kjøredatasett med flere sensorer samlet på AgeLab.

LISA: Laboratory for Intelligent & Safe Automobiles, UC San Diego Datasett: Dette datasettet inkluderer trafikkskilt, kjøretøydeteksjon, trafikklys og baneoppskrifter.

Bosch Small Traffic Light Datasett: Datasett for små trafikklys for dyp læring.

LaRa Traffic Light Recognition: Et annet datasett for trafikklys. Dette er tatt i Paris.

WPI-datasett: Datasett for trafikklys, fotgjenger- og kjørefeltoppdagelse.

Kliniske datasett

MIMIC-III: Åpent tilgjengelig datasett utviklet av MIT Lab for Computational Physiology, omfattende de-identifiserte helsedata assosiert med ~ 40 000 pasienter med kritisk omsorg. Det inkluderer demografi, vitale tegn, laboratorietester, medisiner og mer.

Merk:

Hvis du er klar over andre høykvalitets, offentlige datasett, som du anbefaler folk for forskning og anvendelse av maskinlæring, dyp læring, datavitenskap, etc. Du kan gjerne foreslå dem sammen med årsakene til hvorfor de bør inkluderes i kommentarene nedenfor eller ved å sende Stacy direkte til sstanford@mlmemoirs.xyz.

Hvis grunnen er sterk, vil vi analysere dem og inkludere dem på denne listen. Gi oss beskjed om opplevelsen din med å bruke noen av disse datasettene i kommentarfeltet.

Glad maskinlæring!

Takk:

Forfatterne vil takke medlemmene i AI-samfunnet for den enorme støtten, sammen med konstruktiv kritikk under utarbeidelse av denne artikkelen.

ANSVARSFRASKRIVELSE: Synspunktene uttrykt i denne artikkelen er av forfatteren (e) og representerer ikke synspunktene fra Carnegie Mellon University, Machine Learning Memoirs Inc. eller andre selskaper (direkte eller indirekte) tilknyttet forfatteren (e). Disse skriftene er ikke ment å være sluttprodukter, men snarere en refleksjon av dagens tenkning, sammen med å være en katalysator for diskusjon og forbedring.

Anbefalte historier:

kilder:

[1] https://cloud.google.com/public-datasets/

[2] https://guides.library.cmu.edu/c.php?g=844845&p=6191907

[3] https://www.forbes.com/sites/bernardmarr/2018/02/26/big-data-and-ai-30-amazing-and-free-public-data-sources-for-2018/# f3bdeb5f8aec

[4] https://github.com/takeitallsource/awulous-autonomous-vehicles#datasets

[5] https://medium.com/startup-grind/fueling-the-ai-gold-rush-7ae438505bc2

[6] https://www.dataquest.io/blog/free-datasets-for-projects/

[7] https://gengo.ai/datasets/the-best-25-datasets-for-natural-language-processing/

[8] https://github.com/awesomedata/awulous-public-datasets#machinelearning

[9] http://lib.stat.cmu.edu/datasets/

[10] Institusjonell forskning og analyse | Vanlige datasett | https://www.cmu.edu/ira/CDS/index.html

[11] Datasett og prosjektforslag | Andrew W. Moore | http://www.cs.cmu.edu/~awm/15781/project/data.html

[12] Datasett | Machine Learning Repository | MIT | https://ocw.mit.edu/courses/sloan-school-of-management/15-097-prediction-machine-learning-and-statistics-spring-2012/datasets/

[13] Datasett | MIT Lincoln Laboratory | https://www.ll.mit.edu/r-d/datasets

[14] Stanford Large Network Dataset Collection | Stanford University | https://snap.stanford.edu/data/

[15] Stanford Common Dataset | Stanford University | https://snap.stanford.edu/data/

[16] Datalab | UC Berkeley | http://www.lib.berkeley.edu/libraries/data-lab

[17] Utforske datasett | Data Science på Berkeley | https://datascience.berkeley.edu/open-data-sets/

[18] DeepDrive | UC Berkeley | https://bdd-data.berkeley.edu/

Sitering:

For referanser i akademiske sammenhenger, vennligst siter dette verket som

Stanford, et al., "The Best Public Datasets for Machine Learning and Data Science", Mot AI, 2018

BibTex-sitasjon:

@misc {stanford_2018,
  title = {De beste offentlige datasettene for maskinlæring og datavitenskap},
  url = {https://towardsai.net/datasets},
  note = {https://towardsai.net/datasets},
  journal = {Medium},
  utgiver = {Mot AI},
  forfatter = {Stanford, Stacy og Iriondo, Roberto},
  år = {2018},
  måned = {} oktober
}