Jaký je střední plat pro Ph.D. ve vědě o datech?


nejlepší odpověď

přibližně 113 309 USD ročně, podle Glassdoor (a jako (na obrázku níže).

Z velké části také závisí na společnosti, životních nákladech v oblasti, ve které žijete, a vašich povinnostech. Představuji si, že někdo, kdo má rozsáhlé strojové učení / hluboké učení, bude mít vyšší plat než někdo, kdo získal titul PhD mimo reprezentativní kvantitativní obor (např. CS, matematika, elektrotechnika).

Odpověď

Potřebná hloubka a šíře dovedností. Dovednosti jsou široké a hluboké a nejjednodušší nemají zkušenosti a vzdělání pro vytváření modelů od začátku do konce.

Je důležité si uvědomit, že nejpoužívanější strojové učení je programování. Pokud nemůžete zavěsit Python a SQL, nebudete ve skutečném světě moc dobří.

Tady je strojové učení.

Krok 1 – Téměř všechny modely strojového učení jsou postaveny na datech, která se nacházejí v relační databázi. Data jsou často nejdůležitějším zdrojem společnosti. To znamená, že společnosti chtějí, aby nově přijatí zaměstnanci měli s prací zkušenosti. To vytrhne hromadu lidí. Hledáme minimálně tři roky zkušeností ze skutečného světa v jakékoli variantě SQL od dodavatele.

Krok 2 – Jakmile bude vaše datová sada konsolidována do jednoho pole jako entita budete muset vyčistit. To je další sada dovedností, kterou většina nemá. Studie ukázaly, že nejpoužívanějším strojovým učením je hádání dat, takže pokud nemůžete masírovat data do modelovatelného stavu, nebudete najati.

Krok 3 – Modelování. Zábavná část. Ještě další sada dovedností. Budete potřebovat vědět, jaké modely použít pro daný problém. Budete muset modelovat data, vyladit model, skórovat … atd.

Krok 4 – výroba. Jakmile bude váš model sestaven a otestován na základě čerstvých dat, budete jej muset dát do prodeje nebo pomoci někomu jinému. Ano, další sada programových dovedností.

Podívejte se na toto YouTube video . Je to několik základních knihoven strojového učení používaných v Pythonu.

Proto je tak těžké najít kvalifikované lidi.

Krok 1 – Máte v něčem bakaláře? Doufejme, že něco souvisí s vesmírem. Tím vyřadíme několik.

Krok 2 – Jak se má váš SQL. Máte 3 roky zkušeností s tvorbou dotazů? To vyřadilo mnoho lidí v tomto prostoru. Vyplácí děti z výcvikového tábora a spoustu statistiků a matematiků, kteří změnili svůj název na datového vědce. Jaké spojení byste použili ke kombinaci tří stolů tak, aby byly vráceny pouze zápasy všech tří? Co je klauzule kde? Můžete mi projít, jak byste vytvořili kanál pro data, která by mohla být použita pro celý tým?

Krok 3 – Můžete programovat? Všechno, co děláme, souvisí s kódem. Pokud nemůžete kódovat, máte potíže. Většina vědců v oblasti dat, i ti dobře kvalifikovaní, jsou slabí programátoři.

Krok 4 – hádky o data. Téměř všechny aplikované strojové učení jsou pod dohledem. Jedním z nejdůležitějších aspektů úspěchu vašeho modelu jsou čistá data. Jakmile vytvoříte datovou sadu pro modelování, je čas ji vyčistit. Stádo teď opravdu ubývá. Máte zájem o hádání dat? Začněte zde: Datové hádky s Pandami pro inženýry strojového učení

Krok 5 – Modelování. Jakmile je vaše datová sada správně vyčištěna, jak si vyberete, jaký model použít? Ve skutečném světě je většina problémů klasifikace nebo regrese. Poté, co jste si vybrali model, jaká dobrá metrika se používá k jeho skórování? Jak vyladíte svůj model? Jak definujete jednoduchý model Keras. Co je XGBoost? Můžete vytvořit tabuli jednoduchého rozhodovacího stromu? Co je to křížové ověřování?

Krok 6 – cloudové dovednosti. Jak rozšiřujete své modely? Na svém notebooku nemůžete modelovat datovou sadu s miliardou řádků. Dobře, pojďme přesunout data do cloudu. Jak se dostanete k těmto datům do cloudu? Jakého dodavatele cloudu byste použili? Můžete mě tím projít?

Mohl bych pokračovat, ale myslím, že dostanete nápad.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *