Themabewertung:
  • 0 Bewertung(en) - 0 im Durchschnitt
  • 1
  • 2
  • 3
  • 4
  • 5
fertige PDF importieren - Fehler
#1
Hallo!

in Scan2PDF 7.1.0.3 (Januar 2021) habe ich einige Tests mit einer vorhandenen 3-seitigen PDF gemacht.
Diese PDF war bereits durch eine OCR (Kofax Paperport(=Omnipage OCR-Engine)) gelaufen bzw. dort erstellt. Dabei ist mir aufgefallen:

In dieser PDF ist korrekt erkannter OCR-Text bereits enthalten (zur Überprüfung habe ich den Text in der PDF markiert, herauskopiert und in einen Editor eingefügt und überprüft. 100% korrekt)):
Auf Seite 1: 'Sölter GmbH'
Auf Seite 3: '14.01.2021'
Diese PDF zog ich nun erstmals per Drag&Drop in Scan2PDF. Es dauerte, bis die drei Seiten geladen waren, ca. zehn mal so lange wie z.B. in Acrobat Pro oder Acrobat Reader.
FRAGE1: Wird die OCR nochmal durchgeführt oder warum dauert das im Verhältnis so lange?

Benennung: Jetzt holte ich den "Visual Dateiname" für Seite 1 und Seite 3 STRG-ALT-W. Überraschendes Ergebnis:
Auf Seite 1: 'Sölter GmbH' -> wurde zu 'SOlter GmbH' (statt klein ö nun Groß O)
Auf Seite 3: '14.01.2021' -> wurde zu '14,01.2021' (statt Punkt nun Komma hinter der Tageszahl)
FRAGE2: Warum werden korrekt in der PDF vorhandenen Texte nicht genutzt und/oder missgestaltet?

Quell-PDF Split: Dann markierte ich zum Teilen der PDF in Seiten 1&2 sowie Seite 3 (also zwei Dateien) die Checkbox von Seite 1 und die Checkbox von Seite 3 und wählte "Speichern -> Automatisch nach Check Box stapeln PDF"
FRAGE3: Warum haben die gespeicherten beiden PDF jetzt jegliche im Quell-PDF ursprünglich vorhandene OCR-Text-Layer verloren? Diese Frage birgt hat eine gewisse Überschneidung mit dem Thread: https://www.horland.de/forum/showthread.php?tid=103

Der Schalter "PDF durchsuchbar" im Register PDF war zu keiner Zeit gesetzt.

Besten Dank!
Zitieren
#2
Scan2PDF ist eine Scan Programm und behandelt jeden Import als Bild, ob vom Scanner, Bild Datei, Kamera oder PDF.
Jedes PDF wird erneut als Bild gerendert, folglich verschwinden auch die Textinformationen. 

Wenn das erzeugende Programm z.B. JPG mit Kompression verwendet sinkt natürlich die Bildqualität beträchtlich was bei erneutem laden zu schlechteren Erkennungsergebnissen führt.
Acrobat und andere Viewer rendern das PDF nicht als neues Bild sondern zeigen es nur an.
Scan2PDF als PDF Viewer zu verwenden macht also keinen Sinn, dafür gibt es andere Programme.
Liebe Grüße,
Andreas Horländer
info@horland.de
Zitieren


Gehe zu:


Benutzer, die gerade dieses Thema anschauen: 1 Gast/Gäste