Η Yandex δίδαξε τα νευρωνικά δίκτυα να αποκρυπτογραφούν αρχειακές εγγραφές με πολύπλοκη ορθογραφία
μικροαντικείμενα / / April 03, 2023
Τα ιστορικά χειρόγραφα, τα οποία είναι δύσκολο να αναλύσει κάποιος, μετατρέπονται σχεδόν αμέσως από την τεχνητή νοημοσύνη σε έντυπο κείμενο.
Η Yandex κυκλοφόρησε μια νέα υπηρεσία που ονομάζεται Archive Search, η οποία χρησιμοποιεί νευρωνικά δίκτυα για την αποκρυπτογράφηση αρχειακών εγγραφών με πολύπλοκη προεπαναστατική ορθογραφία.
Η υπηρεσία παρέχει πρόσβαση σε περισσότερες από 2,5 εκατομμύρια σελίδες ιστορικών εγγράφων με μεταγραφές κειμένου. Ο αλγόριθμός του, χτισμένος με βάση ένα σύστημα οπτικής αναγνώρισης χαρακτήρων, λαμβάνει υπόψη τις ιδιαιτερότητες της γραφής, αναγνωρίζει γράμματα που έχουν χάσει τη συνάφειά τους και κατανοεί την ειδική δομή των αρχειακών εγγράφων.
Οι ειδικοί της εταιρείας εκπαίδευσαν το νευρωνικό δίκτυο σε μια συστοιχία δεδομένων εκατοντάδων χιλιάδων χειρόγραφων γραμμών από πραγματικά κείμενα του 18ου-19ου αιώνα και δεκάδων εκατομμυρίων παραδειγμάτων.
Χειρόγραφα που είναι δύσκολο για ένα απροετοίμαστο άτομο να αναλύσει, η τεχνολογία Yandex μετατρέπεται σχεδόν αμέσως σε έντυπο κείμενο. Χάρη σε αυτό, στη βάση δεδομένων της υπηρεσίας, μπορείτε να βρείτε γρήγορα έγγραφα με αναφορά στο επώνυμο, την τοποθεσία ή οποιαδήποτε άλλη λέξη.
Η «Αναζήτηση σε αρχεία» θα αυξήσει την αποτελεσματικότητα του έργου ιστορικών, κοινωνιολόγων, δημογράφων, γενεαλόγων και θα βοηθήσει όσους αναζητούν πληροφορίες για την οικογένειά τους.
Το πρώτο ταμείο που παρουσιάστηκε στην υπηρεσία ήταν το Κύριο Αρχείο της Μόσχας - ήταν στα υλικά του που οι προγραμματιστές εκπαίδευσαν το νευρωνικό δίκτυο. Η βάση δεδομένων περιέχει επίσης έγγραφα από τα αρχεία των περιοχών του Όρενμπουργκ και του Νόβγκοροντ. Με την πάροδο του χρόνου, ο αριθμός των αποθηκευτικών χώρων και των διαθέσιμων σαρωμένων αρχείων θα αυξηθεί.
Μπορείτε να αναζητήσετε υλικά από τον 18ο - αρχές του 20ου αιώνα, τα οποία είναι πιο δημοφιλή στους χρήστες. Πρόκειται για ληξιαρχεία, εξομολογητικά φύλλα και αναθεωρητικά παραμύθια με τα αποτελέσματα της απογραφής πληθυσμού. Μπορείτε να βρείτε έγγραφα στον κατάλογο ή μέσω της γραμμής αναζήτησης. Υπάρχουν φίλτρα κατά χρόνια, αρχεία, κεφάλαια και αποθέματα.
Δίπλα στη σάρωση κάθε σελίδας, εμφανίζεται μια αποκωδικοποίηση γραμμή προς γραμμή που γίνεται από νευρωνικά δίκτυα. Εάν τοποθετήσετε το δείκτη του ποντικιού πάνω από το επιθυμητό τμήμα, θα τονιστεί αμέσως στο ψηφιακό αντίγραφο.