Μάθημα "Data Engineer" - μάθημα 95.000 τρίψτε. από το Yandex Workshop, εκπαίδευση 6,5 μήνες, Ημερομηνία: 11 Δεκεμβρίου 2023.
μικροαντικείμενα / / November 30, 2023
Για πρακτικούς προγραμματιστές
Μάθετε να δημιουργείτε μια υποδομή για την εργασία με δεδομένα και συστηματοποιήστε τις γνώσεις σας για να τις χρησιμοποιήσετε στον τρέχοντα ρόλο σας ή να αλλάξετε κατεύθυνση σε μηχανικό δεδομένων.
Για επίδοξους μηχανικούς δεδομένων
Δόμηση της γνώσης: εκτός από τη σαφή θεωρία, θα υπάρχει πολλή πρακτική. Θα αποκτήσετε εμπειρία δουλεύοντας σε έργα - αυτό θα σας βοηθήσει να δημιουργήσετε ένα χαρτοφυλάκιο, να ξεχωρίσετε από άλλους υποψηφίους και να μην χαθείτε στην πραγματική δουλειά.
Ειδικοί και Αναλυτές Επιστήμης Δεδομένων
Μάστερ δεξιότητες που θα σας βοηθήσουν να ανταπεξέλθετε στις εργασίες πιο αποτελεσματικά: να δημιουργήσετε αγωγούς δεδομένων, να σχεδιάσετε βιτρίνες, να δημιουργήσετε ETL και να συλλέξετε ακατέργαστα δεδομένα σε μεγάλους όγκους.
Ενημέρωση του μοντέλου δεδομένων
1 ενότητα 2 εβδομάδες
Η εταιρεία συνεχίζει να σας βυθίζει στις διαδικασίες της. Τα δεδομένα με τα οποία εργαζόσασταν έχουν ενημερωθεί, επομένως πρέπει να αλλάξετε το μοντέλο δεδομένων.
Σε αυτό το μάθημα εσείς:
- κατανοούν πώς η εταιρεία δημιουργεί μια βάση δεδομένων.
- ενημέρωση της δομής της τρέχουσας βάσης δεδομένων σύμφωνα με τις νέες επιχειρηματικές απαιτήσεις.
- ετοιμάστε νέες προθήκες και μετρήσεις για αναλυτές και διευθυντές.
Τεχνολογίες και εργαλεία:
- PostgreSQL
+1 έργο στο χαρτοφυλάκιο
Δημιουργήστε μια μάρκα δεδομένων με σταδιακή φόρτωση για αναλυτικά στοιχεία κοινού στο ηλεκτρονικό κατάστημα.
DWH: αναθεώρηση μοντέλου δεδομένων
Ενότητα 2 3 εβδομάδες
Η εταιρεία αναπτύσσεται, η αρχιτεκτονική δεδομένων γίνεται πιο περίπλοκη. Σας ανατίθεται μια εργασία - να βελτιστοποιήσετε τις διαδικασίες με δεδομένα.
Σε αυτό το μάθημα εσείς:
- σκεφτείτε τη διαδικασία μετάβασης από το παλιό σύστημα βάσης δεδομένων στο νέο, ελαχιστοποιώντας παράλληλα τις απώλειες των επιχειρήσεων (ανάπτυξη μηδενικού χρόνου διακοπής λειτουργίας).
- Προετοιμασία μετεγκατάστασης δεδομένων.
- Λάβετε υπόψη πιθανά προβλήματα και σχεδιάστε μια επιλογή για να επαναφέρετε τις αλλαγές.
- να εφαρμόσει μια νέα δομή βάσης δεδομένων και να την προσαρμόσει στις υπάρχουσες διαδικασίες γύρω από τα δεδομένα.
Τεχνολογίες και εργαλεία:
- PosgreSQL
- Πύθων
+1 έργο στο χαρτοφυλάκιο
Θα βάλετε σε τάξη το μοντέλο δεδομένων και θα μετεγκαταστήσετε τα δεδομένα στον τρέχοντα χώρο αποθήκευσης του ηλεκτρονικού καταστήματος.
ETL: αυτοματοποίηση προετοιμασίας δεδομένων
Ενότητα 3 3 εβδομάδες
Τώρα γνωρίζετε σχεδόν τα πάντα για την αποθήκη δεδομένων της εταιρείας. Είναι καιρός να επανεξετάσουμε τις διαδικασίες ETL.
Σε αυτό το μάθημα εσείς:
- αυτοματοποίηση του αγωγού δεδομένων.
- Διαμόρφωση αυτόματης λήψης δεδομένων από πηγές.
- μάθετε να φορτώνετε τακτικά και σταδιακά δεδομένα στη βάση δεδομένων.
Τεχνολογίες και εργαλεία:
- Πύθων
- Ροή αέρα
- PostgreSQL
+1 έργο στο χαρτοφυλάκιο
Δημιουργήστε έναν αγωγό για την αυτοματοποιημένη λήψη, επεξεργασία και φόρτωση δεδομένων από πηγές στη βιτρίνα για ένα έργο ηλεκτρονικού εμπορίου.
Έλεγχος ποιότητας δεδομένων
Ενότητα 4 1 εβδομάδα
Θέλετε να είστε σίγουροι ότι οι πρώτοι σας αγωγοί λειτουργούν καλά. Η ποιότητα των δεδομένων πρέπει να ελέγχεται και οι αναλύσεις πρέπει να παρακολουθούνται έγκαιρα.
Σε αυτό το μάθημα εσείς:
- κατανοούν πώς να χρησιμοποιούν μεταπληροφορίες και τεκμηρίωση.
- αξιολόγηση της ποιότητας των δεδομένων.
DWH για πολλαπλές πηγές
Ενότητα 5 2 εβδομάδες
Συνεχίζετε να ερευνάτε το DWH επειδή η ανάπτυξη της εταιρείας και, επομένως, η αύξηση του όγκου δεδομένων δεν μπορεί να σταματήσει.
Σε αυτό το μάθημα εσείς:
- Δημιουργία DWH από την αρχή σε ένα σχεσιακό DBMS.
- εξοικειωθείτε με το MongoDB ως πηγή δεδομένων.
Τεχνολογίες και εργαλεία:
- PostgreSQL
- MongoDB
+1 έργο στο χαρτοφυλάκιο
Θα σχεδιάσετε και θα εφαρμόσετε το DWH για μια εσωτερική εκκίνηση.
Αναλυτικές βάσεις δεδομένων
Ενότητα 6 2 εβδομάδες
Υπάρχουν ολοένα και πιο συγκεκριμένα μη δομημένα δεδομένα που πρέπει επίσης να αποθηκεύονται και να υποβάλλονται σε επεξεργασία. Επομένως, θα σας παρουσιάσουμε την έννοια των αναλυτικών βάσεων δεδομένων χρησιμοποιώντας το Vertica DBMS ως παράδειγμα.
Σε αυτό το μάθημα εσείς:
- οργάνωση αποθήκευσης μελέτης στη Vertica.
- μάθετε πώς να κάνετε βασικές λειτουργίες με δεδομένα στο Vertica.
- χτίστε μια απλή αποθήκη δεδομένων στο Vertica.
Τεχνολογίες και εργαλεία:
- Vertica
- PostgreSQL
- Ροή αέρα
- S3
+1 έργο στο χαρτοφυλάκιο
Δημιουργήστε ένα DWH για ένα σύστημα δεδομένων αγγελιοφόρων χαμηλής δομής υψηλού φορτίου χρησιμοποιώντας το Vertica.
Οργάνωση Data Lake
Ενότητα 7 4 εβδομάδες
Οι κλασικές λύσεις δεν βοηθούν στην αντιμετώπιση του όγκου των δεδομένων. Για να αντιμετωπίσετε νέες επιχειρηματικές προκλήσεις, θα χτίσετε και θα εποικίσετε μια Λίμνη Δεδομένων.
Σε αυτό το μάθημα εσείς:
- σκεφτείτε την αρχιτεκτονική της Λίμνης Δεδομένων (μτφρ. "λίμνη δεδομένων");
- μάθουν να επεξεργάζονται δεδομένα στο σύστημα MPP.
- συμπληρώστε τη λίμνη δεδομένων με δεδομένα από πηγές.
- εξασκηθείτε στην επεξεργασία δεδομένων χρησιμοποιώντας PySpark και Airflow.
Τεχνολογίες και εργαλεία:
- Hadoop
- ΜΕΙΩΣΗ ΧΑΡΤΗ
- HDFS
- Apache Spark (PySpark)
+1 έργο στο χαρτοφυλάκιο
Δημιουργήστε μια λίμνη δεδομένων και αυτοματοποιήστε τη φόρτωση και την επεξεργασία δεδομένων σε αυτήν.
Επεξεργασία ροής
Ενότητα 8 3 εβδομάδες
Έχετε ξεπεράσει τις δυσκολίες με μεγάλο όγκο δεδομένων, αλλά εμφανίστηκε μια νέα εργασία - πρέπει να βοηθήσετε την επιχείρηση να λάβει αποφάσεις πιο γρήγορα. Εδώ θα χρειαστείτε γνώσεις επεξεργασίας δεδομένων ροής. ροή).
Σε αυτό το μάθημα εσείς:
- εξετάστε τα χαρακτηριστικά της επεξεργασίας δεδομένων ροής·
- Δημιουργήστε το δικό σας σύστημα ροής.
- Δημιουργήστε μια βιτρίνα χρησιμοποιώντας δεδομένα σε πραγματικό χρόνο.
Τεχνολογίες και εργαλεία:
- ο Κάφκα
- Spark Streaming
+1 έργο στο χαρτοφυλάκιο
Θα αναπτύξετε ένα σύστημα επεξεργασίας δεδομένων σε πραγματικό χρόνο.
Τεχνολογίες cloud
Ενότητα 9 3 εβδομάδες
Τώρα μπορείτε να εργαστείτε τόσο με μεγάλο όγκο δεδομένων όσο και με ροές. Το μόνο που μένει είναι να αυτοματοποιηθεί η κλιμάκωση των συστημάτων που χρησιμοποιούν υπηρεσίες cloud.
Σε αυτό το μάθημα θα μάθετε πώς να εφαρμόζετε ήδη μελετημένες λύσεις, αλλά στο cloud (χρησιμοποιώντας το Yandex Cloud ως παράδειγμα).
Τεχνολογίες και εργαλεία:
- Yandex. Σύννεφο
- Kubernetes
- kubectl
- Redis
- PostgreSQL
+1 έργο στο χαρτοφυλάκιο
Θα αναπτύξετε υποδομή για την αποθήκευση και την επεξεργασία δεδομένων στο cloud.
Εργασία αποφοίτησης
Ενότητα 10 3 εβδομάδες
Επιβεβαιώστε ότι έχετε μάθει νέες δεξιότητες.
Εδώ θα χρειαστεί να επιλέξετε και να εφαρμόσετε ανεξάρτητα λύσεις σε ένα επιχειρηματικό πρόβλημα. Αυτό θα σας βοηθήσει να ενισχύσετε για άλλη μια φορά τη χρήση των εργαλείων που έχετε μάθει, καθώς και την ανεξαρτησία σας.