KI-basierte Dokumentenextraktion

Wir setzen KI Modelle ein, damit unsere Roboter Dokumente lesen und verstehen können. Dieser Ansatz ist moderner, flexibler und mächtiger als die herkömmliche schablonen-basierte OCR. 

Intelligent Document Processing, ein allgemeiner Begriff für die durchgängige Digitalisierung dokumentenzentrierter Prozesse, umfasst drei Hauptkomponenten:

  1. Optical Character Recognition, die aus Bildern maschinenlesbaren Text generiert

  2. Datenextraktion, die unstrukturierte Daten (OCR-generiert oder aus einem PDF extrahiert) in strukturierte Key-Value-Paare umwandelt

  3. Prozessautomatisierung, die die Validierung und Systemeingabe strukturierter Daten automatisiert oder erleichtert

 

Hier konzentrieren wir uns auf Komponente Nr. 2, die Datenextraktion.

 

Im Allgemeinen gibt es zwei Ansätze zur Extraktion von Dokumentendaten: schablonenzentriert und KI-zentriert.

Durch die schablonenzentrierte Datenextraktion kann die Maschine angewiesen werden, bestimmte Textabschnitte basierend auf ihrer Position und Nähe zu bestimmten Ankerschlüsselwörtern zu isolieren. Der Betreiber muss für jede Gruppe ähnlich strukturierter Dokumente (z. B. Rechnungen desselben Lieferanten) eine Schablone erstellen.

Vorteile:

  • Hohe Zuverlässigkeit der Datenextraktion für statische Dokumente

  • Relativ geringe Rechenintensität

 

Nachteile:

  • Für die Einrichtung der Schablonenbibliothek ist ein erheblicher Aufwand erforderlich

  • Die Schablonenbibliothek erfordert aktive Verwaltung, um auf dem neuesten Stand zu bleiben

  • Änderungen im Dokumentenlayout führen zu falsch positiven Ergebnissen

 

Die schablonenzentrierte Datenextraktion war der erste praktische Ansatz, um digitalisierte Dokumente in großem Maßstab zu verarbeiten. In der Vergangenheit hat es die intelligente Dokumentenverarbeitung ermöglicht und wird in Unternehmensanwendungen immer noch häufig verwendet.

Die KI-zentrierte Datenextraktion ist ein moderner Ansatz, der sich auf die Verwendung von Techniken des maschinellen Lernens konzentriert, um Datenbeziehungen innerhalb eines Dokuments zu nutzen. Zu diesem Zweck werden am häufigsten neuronale Netze und Deep-Learning-Algorithmen verwendet, obwohl auch andere Algorithmen wie Random Forests oder SVMs mit guten Ergebnissen verwendet werden können.

KI-zentrische Ansätze bewerten verschiedene Merkmale für jeden Datentoken: Datentyp, Textgröße, Textfarbe, Position, benachbarte Token usw., um ihre Werte mit relevanten Labels abzugleichen. Key-Value-Paare mit den höchsten Konfidenzniveaus werden vom Algorithmus zurückgegeben.

Vorteile:

  • Keine Schablonen-Einrichtung oder -Pflege erforderlich

  • Das trainierte Modell kann über mehrere Benutzer hinweg skaliert werden, wodurch sein Lernpotenzial weiter vervielfacht wird

 

Nachteile:

  • Erfordert einen umfangreichen anfänglichen Trainingsdatensatz

  • Das anfängliche Modelltraining ist rechenintensiv

  • Erfordert umfangreiche Kompetenzen im Machine Learning

 

Die KI-zentrierte Datenextraktion gewinnt aufgrund ihrer Vielseitigkeit und Skalierbarkeit schnell an Popularität, wobei in letzter Zeit mehrere Anbieter auf den Markt kommen, um die wachsende Nachfrage zu befriedigen.