Intelligent Document Processing, ein allgemeiner Begriff für die durchgängige Digitalisierung dokumentenzentrierter Prozesse, umfasst drei Hauptkomponenten:
Optical Character Recognition, die aus Bildern maschinenlesbaren Text generiert
Datenextraktion, die unstrukturierte Daten (OCR-generiert oder aus einem PDF extrahiert) in strukturierte Key-Value-Paare umwandelt
Prozessautomatisierung, die die Validierung und Systemeingabe strukturierter Daten automatisiert oder erleichtert
In diesem Artikel konzentrieren wir uns auf Komponente Nr. 2, die Datenextraktion.
Im Allgemeinen gibt es zwei Ansätze zur Extraktion von Dokumentendaten: schablonenzentriert und KI-zentriert.
Durch die schablonenzentrierte Datenextraktion kann die Maschine angewiesen werden, bestimmte Textabschnitte basierend auf ihrer Position und Nähe zu bestimmten Ankerschlüsselwörtern zu isolieren. Der Betreiber muss für jede Gruppe ähnlich strukturierter Dokumente (z. B. Rechnungen desselben Lieferanten) eine Schablone erstellen.
Vorteile:
Hohe Zuverlässigkeit der Datenextraktion für statische Dokumente
Relativ geringe Rechenintensität
Nachteile:
Für die Einrichtung der Schablonenbibliothek ist ein erheblicher Aufwand erforderlich
Die Schablonenbibliothek erfordert aktive Verwaltung, um auf dem neuesten Stand zu bleiben
Änderungen im Dokumentenlayout führen zu falsch positiven Ergebnissen
Die schablonenzentrierte Datenextraktion war der erste praktische Ansatz, um digitalisierte Dokumente in großem Maßstab zu verarbeiten. In der Vergangenheit hat es die intelligente Dokumentenverarbeitung ermöglicht und wird in Unternehmensanwendungen immer noch häufig verwendet.
Die KI-zentrierte Datenextraktion ist ein moderner Ansatz, der sich auf die Verwendung von Techniken des maschinellen Lernens konzentriert, um Datenbeziehungen innerhalb eines Dokuments zu nutzen. Zu diesem Zweck werden am häufigsten neuronale Netze und Deep-Learning-Algorithmen verwendet, obwohl auch andere Algorithmen wie Random Forests oder SVMs mit guten Ergebnissen verwendet werden können.
KI-zentrische Ansätze bewerten verschiedene Merkmale für jeden Datentoken: Datentyp, Textgröße, Textfarbe, Position, benachbarte Token usw., um ihre Werte mit relevanten Labels abzugleichen. Key-Value-Paare mit den höchsten Konfidenzniveaus werden vom Algorithmus zurückgegeben.
Vorteile:
Keine Schablonen-Einrichtung oder -Pflege erforderlich
Das trainierte Modell kann über mehrere Benutzer hinweg skaliert werden, wodurch sein Lernpotenzial weiter vervielfacht wird
Nachteile:
Erfordert einen umfangreichen anfänglichen Trainingsdatensatz
Das anfängliche Modelltraining ist rechenintensiv
Erfordert umfangreiche maschinelle Lernkompetenzen
Die KI-zentrierte Datenextraktion gewinnt aufgrund ihrer Vielseitigkeit und Skalierbarkeit schnell an Popularität, wobei in letzter Zeit mehrere Anbieter auf den Markt kommen, um die wachsende Nachfrage zu befriedigen. Kommerzielle Anbieter schaffen Mehrwert in mehreren Dimensionen:
Implementieren von Algorithmen für maschinelles Lernen
Bereitstellung vortrainierter Modelle für ausgewählte Anwendungen
Bereitstellung einer Cloud-Infrastruktur für das Training und den Betrieb der Modelle
Die Verwendung eines spezialisierten Anbieters mildert die Nachteile der KI-zentrierten Dokumentenextraktion effektiv, obwohl dies natürlich seinen Preis hat. Aber selbst heute sind die Kosten einer KI-zentrierten Lösung im Vergleich zu einer vorlagenzentrierten Lösung wettbewerbsfähig.
Große Cloud-Anbieter (Google, Amazon, Microsoft) bieten alle KI-zentrierte Datenextraktionsmodelle an, sowohl für allgemeine Zwecke als auch spezialisiert auf Anwendungsfälle wie Rechnungs-, Quittungs-, Ausweis- oder Führerscheindatenextraktion. Manche Anbieter bauen auf ihren Modellen, während andere proprietäre Lösungen entwickeln.

Die Anbieterlandschaft für Datenextraktionslösungen ist sehr heterogen und umfasst unabhängige fokussierte Anbieter (z. B. Nanonets, Taggun, Mindee), Cloud-Computing-GIganten (z. B. Google, Amazon, Microsoft), Full-Stack-IDP-Anbieter (z. B. Kofax, Rossum, ABBYY), RPA-Anbieter (z. B. UiPath, Automation Anywhere) und Anbieter von Automatisierungslösungen (z. B. F-ONE, Nividous). Wir glauben, dass die Kunden gut beraten sind, den KI-zentrierten Ansatz zur Datenextraktion zu wählen und ihre spezifischen Lösungsanforderungen bei der Anbieterauswahl zu berücksichtigen.