Was ist das Durchschnittsgehalt für einen Ph.D. in der Datenwissenschaft?


Beste Antwort

Ungefähr 113.309 USD / Jahr, laut Glassdoor (und als (siehe Abbildung unten).

Dies hängt auch stark vom Unternehmen, den Lebenshaltungskosten in dem Gebiet, in dem Sie leben, und Ihren Verantwortlichkeiten ab. Ich kann mir vorstellen, dass jemand mit einem umfassenden Hintergrund in Bezug auf maschinelles Lernen / tiefes Lernen ein höheres Gehalt hat als jemand, der außerhalb eines repräsentativen quantitativen Bereichs (z. B. CS, Mathematik, Elektrotechnik) promoviert hat.

Antwort

Die Tiefe und Breite der benötigten Fähigkeiten. Die Fähigkeiten sind breit und tief und die meisten haben einfach nicht die Erfahrung und Ausbildung, um Modelle durchgängig zu erstellen.

Es ist wichtig zu verstehen, dass am häufigsten angewendet wird Maschinelles Lernen ist Programmieren. Wenn Sie Python und SQL nicht schleudern können, sind Sie in der realen Welt nicht besonders gut.

Hier ist die Pipeline für maschinelles Lernen.

Schritt 1 – Fast alle Modelle für maschinelles Lernen basieren auf Daten, die sich befinden in einer relationalen Datenbank. Daten sind oft die wichtigste Ressource eines Unternehmens. Das bedeutet, dass Unternehmen möchten, dass neu eingestellte Mitarbeiter Erfahrung damit haben. Dies beseitigt eine Menge Leute. Wir suchen nach mindestens drei Jahren Erfahrung in der Praxis in allen SQL-Anbietern.

Schritt 2 – Sobald Ihr Datensatz konsolidiert wurde In ein einzelnes Array wie eine Entität müssen Sie es bereinigen. Das ist eine weitere Fähigkeit, die die meisten nicht haben. Studien haben gezeigt, dass das meiste angewandte maschinelle Lernen Daten-Wrangling ist. Wenn Sie Ihre Daten also nicht in einen modellierbaren Zustand bringen können, werden Sie nicht eingestellt.

Schritt 3 – Modellierung. Der lustige Teil. Noch eine weitere Fähigkeit. Sie müssen wissen, welche Modelle für ein bestimmtes Problem verwendet werden sollen. Sie müssen die Daten modellieren, das Modell optimieren, bewerten … usw.

Schritt 4 – Produktion. Sobald Ihr Modell erstellt und anhand neuer Daten getestet wurde, müssen Sie es in das Produkt einfügen oder jemand anderem dabei helfen. Ja, eine weitere programmatische Fähigkeit.

Schauen Sie sich dieses YouTube -Video an. Dies sind einige der wichtigsten Bibliotheken für maschinelles Lernen, die in Python verwendet werden.

Hier ist es so schwierig, qualifizierte Mitarbeiter zu finden.

Schritt 1 – Haben Sie einen Junggesellen in etwas? Hoffentlich etwas mit dem Raum zu tun. Dies beseitigt einige.

Schritt 2 – Wie ist Ihr SQL? Haben Sie 3 Jahre Erfahrung in der Erstellung von Abfragen? Dies beseitigt viele Menschen in diesem Raum. Es beseitigt die Bootcamp-Kinder und viele Statistiker und Mathematiker, die ihren Titel in Datenwissenschaftler geändert haben. Welchen Join würden Sie verwenden, um drei Tabellen zu kombinieren, sodass nur die Übereinstimmungen in allen drei zurückgegeben werden? Was macht eine where-Klausel? Können Sie mir erklären, wie Sie eine Pipeline für die Daten erstellen, die für das gesamte Team verwendet werden können?

Schritt 3 – Können Sie programmieren? Alles, was wir tun, hängt mit dem Code zusammen. Wenn Sie nicht codieren können, sind Sie in Schwierigkeiten. Die meisten Datenwissenschaftler, auch die gut qualifizierten, sind schwache Codierer.

Schritt 4 – Daten-Wrangling. Fast das gesamte angewandte maschinelle Lernen wird überwacht. Die wichtigste Facette für den Erfolg Ihres Modells sind saubere Daten. Sobald Sie Ihr Dataset für die Modellierung erstellt haben, ist es Zeit, es zu bereinigen. Die Herde wird jetzt sehr dünn. Interessiert an Daten-Wrangling? Beginnen Sie hier: Datenstreit mit Pandas für Ingenieure des maschinellen Lernens

Schritt 5 – Modellierung. Wie wählen Sie das zu verwendende Modell aus, nachdem Ihr Datensatz ordnungsgemäß bereinigt wurde? In der realen Welt sind die meisten Probleme die Klassifizierung oder Regression. Nachdem Sie Ihr Modell ausgewählt haben, welche gute Metrik wird verwendet, um es zu bewerten? Wie stimmen Sie Ihr Modell ab? Wie definieren Sie ein einfaches Keras-Modell? Was ist XGBoost? Können Sie einen einfachen Entscheidungsbaum Whiteboard? Was ist Kreuzvalidierung?

Schritt 6 – Cloud-Kenntnisse. Wie skalieren Sie Ihre Modelle? Sie können einen Datensatz mit einer Milliarde Zeilen auf Ihrem Laptop nicht modellieren. Ok, verschieben wir die Daten in die Cloud. Wie bringen Sie diese Daten in eine Cloud? Welchen Cloud-Anbieter würden Sie verwenden? Können Sie mich durch das führen?

Ich könnte weitermachen, aber ich denke, Sie haben die Idee.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.