De fem beste rammene for dataforskere

Det er mange verktøy som kan hjelpe deg når du starter din datavitenskapelige karriere. Noen av disse verktøyene vil du bruke dem nesten i hvert nytt prosjekt. I dette innlegget presenterer vi deg fem verktøy og teknologier som kan hjelpe deg å fordype deg i datavitenskapens verden og vil være nyttig for maskinlæring eller big data-problemer.

Scikit lære

Scikit-learning er et veldig populært og veldig dokumentert open source-maskinlæringsbibliotek med algoritmer, med målet å gi et sett med felles algoritmer til Python-brukere gjennom et konsistent grensesnitt. Det blir raskt et go-to-rammeverk for maskinlæring, siden det stadig utvikler seg med nye modeller, effektivitetsforbedringer på hastighet og minne og store datafunksjoner. Selv om scikit-learning vanligvis brukes til mindre data, tilbyr den et anstendig sett med algoritmer for utenom kjernen klassifisering, regresjon, clustering og dekomponering.

Fra oktober 2018 er den forventede gjennomsnittslønnen nesten 140 000 dollar årlig, med store navn som Amazon, IBM, blant andre som aktivt søker dataforskere som spesialiserer seg på det.

pandaer

Pandas er en Python-pakke designet for å gjøre arbeid med "merkede" og "relasjonelle" data enkle og intuitive. Pandas er et perfekt verktøy for datakraving, designet for rask og enkel datamanipulering, aggregering og visualisering. En enkel måte å tenke på Pandas er ved ganske enkelt å se på den som Pythons versjon av Microsofts Excel.

Pandas utmerker seg med praktisk dataanalyse innen økonomi, statistikk, samfunnsvitenskap og ingeniørfag. Pandas fungerer bra med ufullstendige, rotete og umerkede data (dvs. typen data du sannsynligvis vil møte i den virkelige verden), og gir verktøy for å forme, slå sammen, omforme og skive datasett. Mange analytikere og Python-spesialistjobber ser etter mennesker som er godt kjent med Pandas.

tensorflow

TensorFlow, som ble utviklet av Google for bare noen få år siden, er et open source programvarebibliotek for numerisk beregning ved bruk av dataflytgrafikker. Noder i grafen representerer matematiske operasjoner, mens grafkantene representerer de flerdimensjonale datasamlingene (tensorer) som er kommunisert mellom dem.

TensorFlow er uten tvil et av de beste rammene for dyp læring og har blitt adoptert av flere giganter som Airbus, Twitter, IBM og andre, hovedsakelig på grunn av sin svært fleksible og modulære systemarkitektur. Med tanke på at den ble utviklet hos Google, oppdaterer ingeniører det hele tiden og legger til flere funksjoner. Ikke forvent at TensorFlow mister dampen når som helst snart.

Apache Kafka

Apache Kafka er en open source distribuert streamingplattform som er i stand til å håndtere billioner av hendelser om dagen i sanntid. Opprinnelig utformet som en meldingskø, er Kafka basert på en abstraksjon av en distribuert engasjementslogg. Siden Kafka ble opprettet og åpnet av LinkedIn i 2011, har den raskt utviklet seg fra meldingskø til en fullverdig streamingplattform.

Kafka driver mange navnemerker, inkludert Netflix, Airbnb, LinkedIn og andre. Det er et populært rammeverk fordi det gjør det mulig å tilby og få tilgang til store datamengder fra flere interne plattformer. Tenk på det som ryggraden i datautveksling, som serverer flere plattformer og prosesser som bruker forskjellige typer data.

Jupyter Notebooks

Jupyter Notebook er et utrolig kraftig verktøy for interaktiv utvikling og presentasjon av datavitenskapelige prosjekter. En bærbar PC integrerer kode og utdata i et enkelt dokument som kombinerer visualiseringer, fortellertekst, matematiske ligninger og andre rike medier. Den intuitive arbeidsflyten fremmer iterativ og rask utvikling, noe som gjør notatbøker til et stadig mer populært valg i hjertet av moderne datavitenskap, analyse og stadig større vitenskap.

Jupyter-prosjektet drar nytte av et stort fellesskap av bidragsytere, partnerskap med mange selskaper (Rackspace, Microsoft, Continuum Analytics, Google, Github) og universiteter (UC Berkeley, George Washington University, NYU.) Disse store navnene som er involvert er med på å sikre at Jupyter hele tiden er voksende.

Bonus: SQL

Vi vil være oppmerksom på å ikke minst nevne verdens mest brukte databasespråk. SQL er standardspråket for relasjonsdatabaseadministrasjonssystemer. SQL-setninger brukes til å utføre oppgaver som å oppdatere data i en database, eller hente data fra en database.

Fra oktober 2018 er det over 100.000 jobber som leter etter folk som kjenner SQL. Dette spenner fra SQL-utviklere til markedsførere - analyse er viktig, uansett bransje eller rolle. Ettersom selskaper leter etter dataforskere mer og mer hver dag, vil dette tallet bare øke eksponentielt.

Konklusjon

Tiden din er en begrenset ressurs, i dette innlegget nevner vi seks nyttige verktøy og teknologier som vi håper vil være nyttige for deg å kjenne. Scikit-learning og pandaer er gode pytonbiblioteker å sjekke ut for maskinlæring. TensorFlow-rammeverket vil introdusere deg for grafisk databehandling og lar deg lære og implementere nevrale nettverk ved hjelp av dette biblioteket. Apache Kafka vil være nyttig for datatekniske problemer. Jupyter bærbare PC-er vil tillate deg å teste og samhandle med koden din mens du utvikler modeller for maskinlæring. Og å lære SQL-kode er en fin måte for deg å integrere og spørre om de strukturerte dataene du bruker.

- - - - - - - - - - - - - - - - - -

Les mer datavitenskapelige artikler på OpenDataScience.com, inkludert veiledninger og guider fra nybegynnere til avanserte nivåer! Abonner på vårt ukentlige nyhetsbrev her og motta de siste nyhetene hver torsdag.