Bli maskinlæringsingeniør | Trinn 4: Øv, Øv, Øv

Den beste metoden for å hente viktige maskinlæringsferdigheter raskt er å øve på å bygge ferdighetene dine med små, enkle å forstå datasett. Denne teknikken hjelper deg å bygge prosessene dine ved å bruke interessante virkelige data som er små nok til at du kan se på i excel eller WEKA. I denne artikkelen vil du lære om en database av høy kvalitet med mange datasett og noen tips for å hjelpe deg med å fokusere tiden din på det som betyr noe for deg!

Hvorfor trene med datasett?

Følgende online veiledninger vil holde deg fanget i et avhengig tankesett som vil begrense veksten din fordi du ikke lærer hvordan du løser noe problem. Din læring om hvordan du bruker en spesifikk løsning på en bestemt type problem. Det tilsvarer overmasse, som vi alle vet fører til dårlig ytelse i den virkelige verden. Hvis du er interessert i å bli maskinlæringsingeniør, må du sørge for at du kan generalisere til reelle data. Utfordre deg selv hver dag og angrip problemer ved hjelp av en definert prosess. Å praktisere ferdighetene dine ved å bruke datasett er den beste måten å gjøre dette.

Hvor får jeg datasett?

Heldigvis for alle er det et fantastisk lager av maskinlæringsproblemer som du kan få tilgang til gratis.

UCI Machine Learning Repository

Center for maskinlæring og intelligente systemer ved University of California, Irvine, bygde UCI-maskinlæringslageret. I 30 år har det vært stedet å gå for maskinlæringsforskere og maskinlæringsstudenter som trenger datasett for å øve. Du kan laste ned alle tilgjengelige datasett på hjemmesiden deres. De lister også opp alle detaljene om det, inkludert publikasjoner som har brukt det, noe som virkelig er nyttig når du vil lære forskere angrepet problemet. Datasettene kan også lastes ned på noen få forskjellige måter (CSV / TXT).

Det er bare to ulemper med UCI-datasettene.

  1. Den andre ulempen er at de er små, slik at du ikke får mye erfaring i store prosjekter, men det skal ikke ha noe å si fordi dere er nye på dette! Start i det små!
  2. Den viktigste ulempen er at disse datasettene blir renset og forbehandlet. Rengjøring og forbehandling er viktige deler av maskinens læringsprosess som du vil møte i din karriere. Hvis du ikke bruker tid på å trene på denne ferdigheten, vil du skade deg senere på veien.

Øve på en målrettet måte

Hvordan går du frem for å øve på en målrettet måte når det er så mange datasett? En håpende maskinlæringsingeniør ville gjøre best for å finne ut hva deres mål er og velge et datasett som best vil få dem til det målet. Jeg har utviklet noen spørsmål du kan stille deg selv for å redusere antall datasett.

  • Hva slags problem er du ute etter å løse?
  • Regresjon, klassifisering, regresjon, klynging?
  • Hvilket størrelse datasett er det? Titalls datapunkter eller millioner
  • Hvor mange funksjoner har datasettet?
  • Hva slags funksjoner?
  • Hvilket domene er dette datasettet fra?

Finn ut hvilken type datasett du vil fokusere på for å matche de bredere målene dine. Når du har fått dette, bør du kunne filtrere gjennom det enorme antall datasett som er tilgjengelige på plattformen.

Eksempel Problemer

Ikke bekymre deg hvis du ikke er sikker på hva du prøver å lære. Det er mye bedre å ikke sitte fast og prøve å finne den perfekte studieplanen. Jeg har laget en liste over noen datasett som du kan synes er interessante. Det er noen typer problemer her, så gi dem alle et skudd.

Regresjon: http://archive.ics.uci.edu/ml/datasets/Wine+Quality

Clustering: https://archive.ics.uci.edu/ml/datasets/Bag+of+Words

Klassifisering: http://archive.ics.uci.edu/ml/datasets/Wine

Helseklassifisering: https://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+%28Original%29

Men..

Jeg tror ikke jeg har ferdighetene til dette, eller at jeg føler at noe hindrer meg i å komme i gang!
Det er OK å tvile på deg selv fra tid til annen, men du kan ikke la det forhindre deg fra dine mål om å bli maskinlæringsingeniør. På tide å justere tankesettet ditt.

Jeg vet ikke hvordan jeg skal programmere!
Det er bra fordi artikkelen min "Becoming a Machine Learning Engineer | Trinn 3: Velg et verktøy går over ett verktøy som ikke trenger programmeringsevner for å bruke, og som lar deg implementere mange maskinlæringsalgoritmer.

Hvor skulle jeg til og med begynne når det gjelder å løse problemene?
En prosess som lar deg se på et hvilket som helst problem er super viktig, og jeg tror at det er bedre å lære den prosessen enn å lære om hvordan tilbakeformidling fungerer. Sjekk ut artikkelen min der jeg går i detalj om å velge en prosess Link for å velge en prosess

Jeg tror ikke jeg kunne gjort dette alene?
Å lære maskinlæring av deg selv er ikke den beste måten å lære. Å bli medlem av en gruppe likesinnede vil gjøre underverker mot evnen til å lære. Sjekk ut denne artikkelen for å finne ut mer.

Ta bort

Hvis du ser alvorlig på selvstudium, kan du vurdere å lage en beskjeden liste over datasett du vil undersøke nærmere. Følg den målrettede praksisplanen for å bygge et verdifullt grunnlag for dykking i mer komplekse og spennende maskinlæringsproblemer.

Takk for at du leste :) Hvis du likte den, trykk på den klappknappen nedenfor og følg meg! Det vil bety mye for meg og oppmuntre meg til å skrive flere historier som dette

La oss også koble oss på Twitter, LinkedIn eller e-post