Dokumentenerfassung und -indizierung

Dozent:

Prof. Dr. Michael Eichberg

Kontakt:

michael.eichberg@dhbw-mannheim.de, Raum 149B

Version:

2024-05-09

Folien:
HTML:

https://delors.github.io/dm-erfassung-und-indizierung/folien.rst.html

PDF:

https://delors.github.io/dm-erfassung-und-indizierung/folien.rst.html.pdf

Fehler auf Folien melden:

https://github.com/Delors/delors.github.io/issues

Quellen von Dokumenten

Quellen von Dokumenten - Dimensionen

Eigenerstellte Dokumente

Anzustreben ist, dass beim Speichern automatisch Dokumente und Metadaten der Dokumente in das DMS übernommen werden.

Speichern von Dokumenten aus Anwendungen

screenshots/elo-office-ms-word-integration-2024-02-05.png
screenshots/elo-office-ms-word-speichern-in-archiv-2024-02-05.png

Fremderstellte Dokumente

Herkunft der Dokumente

Typische Problemstellungen

Probleme beim Eingang als Papier

NCI:

Non Coded Information (z. B. Texte in Bildern)

CI:

Coded Information

„Analoge“ (NCI) oder elektronische(CI) Dokumente

Papierdokument

Elektronische Dokumente

Beispiel für Eingangspostbearbeitung

  • Workflow zur strukturierten Abarbeitung

  • Ausnahmebehandlungen vorsehen

  • Möglichst automatische Klassifikation und Indizierung

drawings/eingangspostbearbeitung.svg

Unterstützung für Workflowdefinitionen in ECM Systemen - z. B. DocuWare

screenshots/docuware-workflow-manager-2024-02.webp
ECM:

Enterprise Content Management

Erstmalige Übernahme von Dokumenten

Quellen

Zu Klären

Laufende Übernahme

Zentrale Aspekte

Automatisierung des Posteinganges (Papier)

Scanning von Dokumenten

Scannen der Eingangspost

Scanprofile (hier in Elo Office)

screenshots/elo-office-vordefiniertes-scanprofil-2024-02-05.png
screenshots/elo-office-scanprofil-2024-02-05.png

Festgelegt wird:

Scanner

Scanner unterscheiden sich in:

  • Zufuhr von Seiten

  • Vorlagengröße (z. B. A4, A3)

  • Geschwindigkeit (bis zu mehrere hundert Seiten pro Minute)

  • Farbtiefe

  • Umschlagerkennung

  • Heftklammererkennung

  • Preis

  • ...

Weiterverarbeitung gescannter Dokumente

Umwandlung von NCI zu CI

Optical Character Recognition (OCR):

Primär auf Basis der Form der Zeichen der Maschinenschrift werden Pixelmuster in Zeichen umgesetzt.

Handprint Character Recognition (HCR):

Erkennen von handschriftlichen Texten.

Intelligent Character Recognition (ICR):

Weiterentwicklung von OCR und HCR: Das Ergebnis wird verbessert durch modernste Algorithmen und KI-Verfahren.

Optical Mark Recognition (OMR):

Es werden Markierungen in vordefinierten Feldern/Bereichen ausgelesen. Z. B. Selektionsfelder aus Fragebögen oder es wird geprüft, ob eine Unterschrift in dem vorgesehenen Feld erfolgt ist.

Arbeitsablauf beim Scannen

Arbeitsabläufe beim Scannen unterschiedlicher Mengen von Dokumenten

Sicherstellung der Qualität

Fehleranzahl hängt stark ab von...

  • Vorlagenqualität (Knicke, Schmutz, ...)

  • Schriftgröße

  • Sonderzeichen

  • Schriftart (mit/ohne Serifen...) und Qualität des Ausdrucks

  • Qualität der Software

  • Vorinformationen (welche Schriftarten werden verwendet...)

Problemfälle

  • Ligaturen (z. B. ffi statt ffi oder fi statt fi)

  • Bestimmte Zeichenkombinationen z. B. rn: „r“ gefolgt von „n“ oder „m“

  • Großes I (wie Ida) und kleines l (wie lieb) bei serifenlosen Zeichensätzen

  • Fremdsprachige Zeichen (z. B. „$“, „¥“ oder „£“)

  • Optisch beschädigte Zeichen

Es muss unterschieden werden zwischen:

  • nicht erkannten Zeichen → werden von OCR-Software i. d. R. entsprechend markiert

  • falsch erkannten Zeichen → müssen im konvertierten Text mühsam gesucht werden

Serifenlose Zeichensätze sind solche, bei denen die Zeichensätze keine Endstriche an Zeichen haben, z. B. Arial oder Helvetica (dieser Foliensatz verwendet Helvetica).

Schriftarten mit Serifen sind z. B. Times New Roman oder Garamond.

Barcodes und QR-Codes

  • Werden zur Identifizierung von Dokumenten eingesetzt.

  • 2 Einsatzgebiete:

    1. Selbst erzeugte Dokumente (z. B. Anträge) mit Barcode-Aufdruck: Beim Rücklauf automatisch erkennbar.

    2. Für Fremddokumente: Barcode-Etiketten (Szenario: „Spätes Archivieren“).

  • Sehr robust und etabliert.

  • Bar-/QR-Codes weisen sehr hohe Erkennungsraten auf.

Beispiel:

Lohnsteuerbescheinigung mit QR-Code

screenshots/lohnsteuer-mit-qr-code.jpeg

Szenarien: Zeitpunkt des Scannens

Drei typische Erfassungsszenarien für Eingangspost:

Szenario 1: Frühes Archivieren / Erfassen beim Posteingang

Vorteil: Elektronische Weiterleitung

  • Kurze Transportzeiten, geringe Transportkosten

  • Weiterleitung an mehrere Personen

  • Evlt. automatisierte Adressermittlung

  • Steuerung und Verfolgen der Bearbeitung (Workflow)

Nachteil:

  • Sachbearbeiter benötigen Arbeitsplatz mit DMS-Zugang

  • ggf. Neuausrichtung des Geschäftsprozesses

  • ggf. aufwändiger Einstieg

Szenario 2: Erfassung bei der Bearbeitung

Einsatzgebiet

Nachteile

Szenario 3: Spätes Archivieren

Szenario 3: Spätes Archivieren - Bewertung

Vorteile

Nachteile

Scannen von Dokumenten - Zusammenfassung

Entscheidungsdimensionen:

COLD-Verfahren
(Computer Output on Laser Disk)

COLD

Begriff stammt aus der Zeit Mitte der 80er Jahre, hatte sich aber bereits zu Beginn/Mitte der 90er technologieunabhängig verallgemeinert.

Beschreibt die direkte digitale Speicherung von Druck- und Listenausgaben betrieblicher Softwaresysteme (z. B. direkt von ERP Systemen oder von Office Anwendungen über spezielle Druckertreiber).

d. h. bei COLD werden die Daten nicht mehr - bzw. nur optional - auf Papier ausgegeben, sondern stattdessen direkt in ein DMS übernommen. Da kein OCR notwendig ist, sondern die Daten direkt beim Drucken abgegriffen werden, ist die Qualität der Daten sehr hoch.

COLD-Verfahren (historisch)

drawings/cold.svg

Verarbeitung auf COLD-Server

  1. Zerlegung des Datenstroms in einzelne Dokumente.

  2. Extrahiert die für die Ablage bzw. spätere Recherche der Dokumente notwendigen Index-Daten automatisch + evtl. Bezug zu Overlays.

    (Die Fachdaten und das Layout sind getrennt.)

  3. Konvertierung bringt die Dokumente in eine für die Ablage geeignete Form.

Metadaten für Dokumente

Metadaten

Manuelles Indizieren

(Semi-)Automatisches Indizieren

Suche und Retrieval von Dokumenten

Strukturierte Suche

Unter Nutzung der Metadaten werden gezielte Anfragen an das DMS gestellt.

Volltextsuche

Wenn die Dokumente als CI-Dateien vorliegen, dann kann man auch mittels Volltext suchen. Evtl. ergänzt um semantische Hilfsmittel (Thesaurus, etc. ).