Google plant die Texterkennung von Millionen eingescannter PDF-Dokumente.
Im Internet existieren unzählige PDF-Dokumente, welche zuvor von Papierdokumenten ohne Texterkennung eingescannt wurden. Die Texte dieser Dokumente werden momentan über die Google-Suche nicht gefunden, da das Dokument als Bild im PDF gespeichert ist. Um dies zu ändern, plant Google mit Hilfe von OCR-Texterkennungs-Software den Scan dieser Dokumente.
Insbesondere können durch die Massnahme Arbeiten der Wissenschaft und Dokumente aus Regierungs-Archiven gefunden werden, welche zuvor durch die Stichwortsuche nicht aus dem Deep Web, den Tiefen des Internet herausgeholt werden konnten.
Pat Müller – patmueller.ch
