Μηχανική αξιοπιστίας τοποθεσίας - μάθημα 65.000 τρίψτε. από Slurm, εκπαίδευση, Ημερομηνία 1 Ιανουαρίου 2024.
μικροαντικείμενα / / November 29, 2023
ΣΤΟΥΣ ΑΝΘΡΩΠΟΥΣ
Ένας μηχανικός SRE μπορεί να είναι είτε μηχανικός επιχειρήσεων είτε προγραμματιστής. Κατά τη διάρκεια του εντατικού μαθήματος, θα εξασκηθείτε πολύ και οι δεξιότητες και οι γνώσεις που αποκτάτε μπορούν να προσαρμοστούν και να εφαρμοστούν σε οποιονδήποτε τομέα.
ΕΠΙΧΕΙΡΗΣΗ
Το SRE επιλύει τα ίδια προβλήματα με το DevOps: αυξάνει την ταχύτητα κυκλοφορίας νέων λειτουργιών και βελτιώνει τις διαδικασίες εντός της ομάδας. Αλλά το κύριο καθήκον του SRE είναι να διασφαλίζει τη σταθερότητα και την αξιοπιστία των υπηρεσιών, εξαιρουμένων των καταστάσεων όπου οι χρήστες παραπονούνται για βλάβες και οι μηχανικοί έχουν πράσινα χρονοδιαγράμματα.
Κατασκευάζουμε:
Το εκπαιδευτικό μας site αποτελείται από πολλές μικροϋπηρεσίες. Συγκεντρώνει δεδομένα για παραστάσεις, τιμές και διαθέσιμες θέσεις από όλους τους κινηματογράφους, εμφανίζει ανακοινώσεις ταινιών, σας επιτρέπει να επιλέξετε κινηματογράφο, παράσταση, αίθουσα και μέρος, να κάνετε κράτηση και να πληρώσετε εισιτήρια.
Θα διαμορφώσουμε δείκτες SLO, SLI, SLA για αυτόν τον ιστότοπο, θα αναπτύξουμε μια αρχιτεκτονική και υποδομή που θα τους υποστηρίζει, θα ρυθμίσουμε παρακολούθηση και ειδοποίηση.
Σφάλματα προγραμματιστών, αστοχίες υποδομής, εισροή επισκεπτών και επιθέσεις DoS οδηγούν σε επιδείνωση των SLO.
Αναλύουμε τη σταθερότητα, τον προϋπολογισμό σφαλμάτων, την πρακτική δοκιμών, τη διαχείριση των διακοπών και το λειτουργικό φόρτο.
Εγινε ένα ατύχημα. Η υπηρεσία επεξεργασίας πληρωμών είναι εκτός λειτουργίας. Πώς να ενεργήσετε για να επαναφέρετε τη λειτουργικότητα στο συντομότερο δυνατό χρονικό διάστημα;
Οργανώνουμε το έργο της ομάδας αντιμετώπισης καταστάσεων έκτακτης ανάγκης: εμπλέκοντας συναδέλφους, ειδοποιώντας τα ενδιαφερόμενα μέρη, θέτοντας προτεραιότητες. Εκπαιδευόμαστε για να εργαζόμαστε υπό πίεση σε εξαιρετικά περιορισμένες χρονικές συνθήκες.
Ας δούμε την προσέγγιση του ιστότοπου από την άποψη της SRE. Αναλύουμε περιστατικά (αίτια εμφάνισης, πρόοδος εξάλειψης). Λαμβάνουμε αποφάσεις για την περαιτέρω αποτροπή τους: βελτιώνουμε την παρακολούθηση, αλλάζουμε την αρχιτεκτονική, την προσέγγιση ανάπτυξης και λειτουργίας και τους κανονισμούς. Αυτοματοποιούμε τις διαδικασίες.
— Έχουμε δεκάδες κατασκευασμένες υποδομές και εκατοντάδες γραπτούς αγωγούς CI/CD,
— Πιστοποιημένος διαχειριστής Kubernetes,
— Συγγραφέας πολλών μαθημάτων για Kubernetes και DevOps,
— Τακτικός ομιλητής σε ρωσικά και διεθνή συνέδρια πληροφορικής.
ΗΜΕΡΑ 1: Εναρκτήρια συνεδρία AMA
Θα συζητήσουμε τους στόχους και τους στόχους του μαθήματος και επίσης θα σας πούμε τι είναι το SRE και θα το χωρίσουμε σε ομάδες.
Άνοιγμα 2 θεωρητικών θεμάτων:
Θέμα 1: Παρακολούθηση
- Γιατί χρειάζεται παρακολούθηση;
- Εκατοστές
- Συναγερμός
- Παρατηρησιμότητα
Θέμα 2: Θεωρία SRE
- SLO, SLI, SLA
- Αντοχή
- Προϋπολογισμός σφάλματος
ΗΜΕΡΑ 2: ανάλυση πρακτικών και περιπτώσεων
Πρακτική: Δημιουργία βασικού πίνακα ελέγχου και ρύθμιση των απαραίτητων ειδοποιήσεων
Πρακτική: Προσθήκη ειδοποιήσεων SLO/SLI + στον πίνακα εργαλείων
Πρακτική: Πρώτο φορτίο συστήματος
Περίπτωση 1 λύση: κατάντη εξάρτηση.
Σε ένα μεγάλο σύστημα, υπάρχουν πολλές αλληλοεξαρτώμενες υπηρεσίες και δεν λειτουργούν πάντα το ίδιο καλά. Είναι ιδιαίτερα ενοχλητικό όταν η υπηρεσία σας είναι εντάξει, αλλά η γειτονική, από την οποία εξαρτάστε, πέφτει περιοδικά.
Το εκπαιδευτικό έργο θα βρεθεί ακριβώς σε αυτές τις συνθήκες και θα διασφαλίσετε ότι εξακολουθεί να παράγει ποιότητα στο υψηλότερο δυνατό επίπεδο.
ΗΜΕΡΑ 3: Συνεδρία AMA, απαντήσεις σε ερωτήσεις
Ανοίγει η πρόσβαση στη 2η θεωρητική ενότητα:
Επίλυση προβλημάτων με το περιβάλλον και την αρχιτεκτονική
Η δεύτερη ενότητα βασίζεται στην επίλυση δύο περιπτώσεων: εξάρτηση ανάντη και αρχιτεκτονικά προβλήματα. Οι ομιλητές θα μιλήσουν για τη διαχείριση περιστατικών, τους κανόνες για την πυροσβεστική και την εργασία με νεκροτομές και θα παρέχουν πρότυπα που μπορείτε να χρησιμοποιήσετε στην ομάδα σας.
Θέμα 3: Διαχείριση Συμβάντων
- Μηχανική Ανθεκτικότητας
- Πώς σχηματίζεται πυροσβεστική
- Πόσο αποτελεσματική είναι η ομάδα σας στο περιστατικό;
- 7 κανόνες για έναν ηγέτη περιστατικών
- 5 κανόνες για έναν πυροσβέστη
- HiPPO - η γνώμη του πιο ακριβοπληρωμένου ατόμου. Υπεύθυνος Επικοινωνίας
ΤΘέμα 4: Εργαλεία Varrum και διαχείριση ειδοποιήσεων.
Βέλτιστη πρακτική άλλων εταιρειών στην οργάνωση διαχείρισης συμβάντων.
ΗΜΕΡΑ 4: ανάλυση πρακτικών και περιπτώσεων
Λύση στην περίπτωση 2: εξάρτηση ανάντη.
Είναι ένα πράγμα όταν εξαρτάσαι από μια υπηρεσία με χαμηλό SLO. Είναι άλλο θέμα όταν η υπηρεσία σας είναι ίδια για άλλα μέρη του συστήματος. Αυτό συμβαίνει εάν τα κριτήρια αξιολόγησης δεν είναι συνεπή: για παράδειγμα, απαντάτε σε ένα αίτημα μέσα σε ένα δευτερόλεπτο και το θεωρείτε επιτυχημένο, αλλά η εξαρτημένη υπηρεσία περιμένει μόνο 500 ώρα Μόσχας και φεύγει με ένα σφάλμα.
Στην περίπτωση αυτή, θα συζητήσουμε τη σημασία της εναρμόνισης των μετρήσεων και θα μάθουμε να βλέπουμε την ποιότητα μέσα από τα μάτια του πελάτη.
Λύση στην περίπτωση 3: προβλήματα με τη βάση δεδομένων.
Η βάση δεδομένων μπορεί επίσης να είναι πηγή προβλημάτων. Για παράδειγμα, εάν δεν παρακολουθείτε το ρελέ αναπαραγωγής, το αντίγραφο θα είναι ξεπερασμένο και η εφαρμογή θα επιστρέψει παλιά δεδομένα. Επιπλέον, ο εντοπισμός σφαλμάτων τέτοιων περιπτώσεων είναι ιδιαίτερα δύσκολος: τώρα τα δεδομένα είναι ασυνεπή, αλλά μετά από λίγα δευτερόλεπτα δεν είναι πλέον συνεπή και δεν είναι σαφές ποια είναι η αιτία του προβλήματος.
Μέσα από τη θήκη, θα νιώσετε όλο τον πόνο της αποσφαλμάτωσης και θα μάθετε πώς να αποτρέψετε τέτοια προβλήματα.
Πρακτική: Γράφουμε μια νεκροψία για την προηγούμενη υπόθεση και τη συζητάμε με τους ομιλητές.
ΗΜΕΡΑ 5: Συνεδρία AMA, απαντήσεις σε ερωτήσεις
Συνεδρία AMA και απαντήσεις σε ερωτήσεις σχετικά με προηγούμενα θέματα.
Ανοίγει η πρόσβαση στην 3η θεωρητική ενότητα:
Κυκλοφοριακή θωράκιση και απελευθερώσεις καναρινιών
Στην τρίτη ενότητα θα αναλύσουμε μια περίπτωση αφιερωμένη σε ένα πρόβλημα με το περιβάλλον (θα γίνει λεπτομερής ανάλυση της Υγείας Έλεγχος), και θα αναλύσουμε επίσης βήμα προς βήμα πώς να εφαρμόσουμε SRE σε εταιρείες και θα μάθουμε την εμπειρία των εταιρειών όπου εργάζονται οι ομιλητές εντατικός
Θέμα 5: Έλεγχος υγείας
- Έλεγχος υγείας στο Kubernetes
- Είναι ακόμα ζωντανή η υπηρεσία μας;
- Εκτελεστικοί ανιχνευτές
- InitialDelaySeconds
- Λιμάνι Δευτεροβάθμιας Υγείας
- Sidecar Health Server
- Ακέφαλος ανιχνευτής
- Ανιχνευτής υλικού
Θέμα 6: Μέθοδοι ανάπτυξης
Θέμα 7: Ενσωμάτωση έργου SRE
Οι μεγάλες εταιρείες συχνά σχηματίζουν μια ξεχωριστή ομάδα SRE, η οποία αναλαμβάνει τις υπηρεσίες άλλων τμημάτων για υποστήριξη. Αλλά δεν είναι κάθε υπηρεσία έτοιμη να γίνει αποδεκτή για υποστήριξη. Θα σας πούμε ποιες απαιτήσεις πρέπει να πληροί. Οι ομιλητές θα μοιραστούν επίσης την εμπειρία τους, πώς εφάρμοσαν το SRE και ποια λάθη έκαναν.
6η ΗΜΕΡΑ: ανάλυση πρακτικών και περιπτώσεων
Λύση στην περίπτωση 4: υπάρχει πρόβλημα με το περιβάλλον, είναι αδύνατον να αγοράσετε εισιτήρια.
Η αποστολή του Healthcheck είναι να εντοπίσει μια κατεστραμμένη υπηρεσία και να αποκλείσει την κυκλοφορία σε αυτήν. Και αν πιστεύετε ότι για αυτό αρκεί να κάνετε ένα αίτημα στην υπηρεσία με root και να λάβετε απάντηση, τότε εσείς κάνετε λάθος: ακόμα κι αν η υπηρεσία ανταποκριθεί, αυτό δεν εγγυάται τη λειτουργία της - ενδέχεται να προκύψουν προβλήματα περιβαλλοντας ΧΩΡΟΣ.
Μέσα από αυτήν την περίπτωση, θα μάθετε πώς να ρυθμίζετε τις παραμέτρους του σωστού Healthcheck και να μην αφήνετε την κυκλοφορία να πηγαίνει εκεί όπου δεν είναι δυνατή η επεξεργασία του.
Συνοψίζοντας