PDF-Offensive bei Google

Google plant die Texterkennung von Millionen eingescannter PDF-Dokumente.

Im Internet existieren unzählige PDF-Dokumente, welche zuvor von Papierdokumenten ohne Texterkennung eingescannt wurden. Die Texte dieser Dokumente werden momentan über die Google-Suche nicht gefunden, da das Dokument als Bild im PDF gespeichert ist. Um dies zu ändern, plant Google mit Hilfe von OCR-Texterkennungs-Software den Scan dieser Dokumente.

Insbesondere können durch die Massnahme Arbeiten der Wissenschaft und Dokumente aus Regierungs-Archiven gefunden werden, welche zuvor durch die Stichwortsuche nicht aus dem Deep Web, den Tiefen des Internet herausgeholt werden konnten.

Pat Müller – patmueller.ch

Dieser Beitrag wurde unter Webkommentar abgelegt und mit , , , , verschlagwortet. Setze ein Lesezeichen auf den Permalink.

Hinterlasse eine Antwort

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert *

*

Du kannst folgende HTML-Tags benutzen: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>