Hva er medianlønnen for en Ph.D. innen datavitenskap?


Beste svaret

Omtrent $ 113 309 / år, ifølge Glassdoor (og som vist i skjermbildet nedenfor).

Det avhenger også i stor grad av selskapet, levekostnadene i området du bor i og ditt ansvar. Jeg forestiller meg at noen med en omfattende maskinlæring / dyp læringsbakgrunn vil ha høyere lønn enn noen som har doktorgrad utenfor et representativt kvantitativt felt (f.eks. CS, matematikk, elektroteknikk).

Svar

Dybden og bredden av ferdigheter som trengs. Ferdighetene er brede og dype og har rett og slett ikke erfaring og utdannelse til å bygge modeller fra ende til annen.

Det er viktig å forstå at mest anvendt maskinlæring er programmering. Hvis du ikke kan slynge Python og SQL, vil du ikke være mye bra i den virkelige verden.

Her er maskinlæringsrørledningen.

Trinn 1 – Nesten alle maskinlæringsmodeller er bygget opp mot data som ligger i en relasjonsdatabase. Data er ofte en bedrifts viktigste ressurs. Det betyr at bedrifter vil at nyansatte skal ha erfaring med å jobbe med det. Dette lukker ut massevis av mennesker. Vi ser etter minst tre års erfaring fra den virkelige verden i enhver leverandørsmak av SQL.

Trinn 2 – Når datasettet ditt er konsolidert i en enkelt matrise som enhet må du rense den. Det er et annet ferdighetssett de fleste ikke har. Studier har vist at mest anvendt maskinlæring er datakamping, så hvis du ikke kan massere dataene dine til en modellabel tilstand, blir du ikke ansatt.

Trinn 3 – Modellering. Den morsomme delen. Nok et ferdighetssett. Du må vite hvilke modeller du skal bruke for et gitt problem. Du må modellere dataene, stille inn modellen, score den … osv.

Trinn 4 – Produksjon. Når modellen din er bygget og testet mot nye data, må du sette den i produkt eller hjelpe noen andre til å gjøre det. Jepp, et annet sett med programmatiske ferdigheter.

Ta en titt på denne YouTube videoen . Det er noen få av maskinens læringsbiblioteker som brukes i Python.

Her er det så vanskelig å finne kvalifiserte personer.

Trinn 1 – Har du en ungkar i noe? Forhåpentligvis noe relatert til plassen. Dette lukker ut noen få.

Trinn 2 – Hvordan går det med din SQL? Har du 3 års erfaring med å lage spørsmål? Dette luker ut mange mennesker i dette rommet. Det lukker ut boot camp-barna og mange statistikere og matematikere som har endret tittelen til data-forsker. Hvilken sammenkobling vil du bruke til å kombinere tre tabeller slik at bare kampene i alle tre blir returnert? Hva er en hvor klausul? Kan du gå gjennom hvordan du oppretter en rørledning for dataene som kan brukes til hele teamet?

Trinn 3 – Kan du programmere? Alt vi gjør er kode relatert. Hvis du ikke kan kode, er du i trøbbel. De fleste dataforskere, selv de godt kvalifiserte, er svake kodere.

Trinn 4 – Datakamp. Nesten all anvendt maskinlæring er under oppsyn. Den viktigste fasetten til suksessen til modellen din er rene data. Når du har laget datasettet ditt for modellering, er det på tide å rense det. Flokken blir veldig tynn nå. Interessert i datakamping? Start her: Data Wrangling with Pandas for Machine Learning Engineers

Trinn 5 – Modellering. Når datasettet ditt er ordentlig renset, hvordan velger du hvilken modell du skal bruke? I den virkelige verden er de fleste problemene klassifisering eller regresjon. Etter hva du har valgt modellen, hva er en god beregning som brukes til å score den? Hvordan stiller du inn modellen din? Hvordan definerer du en enkel Keras-modell. Hva er XGBoost? Kan du tavle et enkelt beslutningstre? Hva er kryssvalidering?

Trinn 6 – Skyferdigheter. Hvordan skalerer du modellene dine? Du kan ikke modellere et datasett med en milliard rader på den bærbare datamaskinen. Ok, la oss flytte dataene til skyen. Hvordan får du disse dataene til en sky? Hvilken skyleverandør vil du bruke? Kan du gå gjennom det?

Jeg kan fortsette, men jeg tror du får ideen.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *