Microsoft poinformował, że funkcja tłumaczenia dokumentów w usłudze Azure Translator może teraz skanować i tłumaczyć dokumenty PDF, zawierających zeskanowaną zawartość graficzną. Dzięki temu użytkownicy nie muszą już wcześniej przetwarzać dokumentów za pomocą silnika OCR, by móc je przetłumaczyć. Jest to jedna z najbardziej wyczekiwanych funkcji, jako że sporą trudność nastręczało segregowanie dokumentów z regularnym tekstem i obrazami.
Tłumaczenie dokumentów w Azure Translator zostało oddane do użytku rok temu, umożliwiając klientom tłumaczenie całych dokumentów na ponad 110 języków i dialektów z zachowaniem układu i formatowania oryginalnego pliku. Funkcja obsługuje wiele typów plików, w tym Word, PowerPoint i PDF, a klienci mogą korzystać z wbudowanych lub niestandardowych modeli tłumaczenia. Tłumaczenie dokumentów jest gotowe do użytku korporacyjnego z uwierzytelnianiem Azure Active Directory i bezpiecznym dostępem poprzez Managed Identity.
Teraz użytkownicy mogą również tłumaczyć PDF-y zawierające zeskanowane dokumenty i obrazy bez potrzeby ich wstępnego obrabiania programem OCR (czyli wydobywania czystego, edytowalnego tekstu z plików graficznych). Tłumaczenie dokumentów potrafi teraz:
- identyfikować, czy dokument PDF zawiera zeskanowaną zawartość graficzną, czy nie;
- kierować pliki PDF z zeskanowaną zawartością graficzną do wewnętrznego silnika OCR w celu wyodrębnienia tekstu;
- zrekonstruować przetłumaczoną treść jako zwykły tekstowy plik PDF, zachowując oryginalny układ i strukturę.
Microsoft wyjaśnia, że formatowanie fontu (pogrubienie, pochylenie etc.) w przypadku zeskanowanych PDF-ów nie jest zachowywane, jako że technologia OCR aktualnie go nie rejestruje. Formatowanie jest jednak zachowane w przypadku tłumaczenia zwykłych tekstowych dokumentów PDF. Funkcja obsługuje obrazy z tekstem z 68 języków źródłowych i tłumaczy je na 87 języków docelowych.