next up previous contents
Next: Bioinformatik Up: Automatisierte Belegverarbeitung Previous: Datenbank-Abgleich

Lokale Kontextanalyse und Betragsfeld-Behandlung

Neben der reinen Datenbankfunktion stellt ,,DACCORD`` auch eine ,,lokale Kontext-Korrektur`` zu Verfügung, die auf sehr einfachen Regeln beruht. Beispielsweise kann in einem Wort jede ,,0`` kommentarlos durch ein ,,O`` ersetzt werden, da eine Erkennungsmaschine diese beiden Zeichen in der Praxis sowieso nicht unterscheiden kann. Bei gewissen Schriftarten und ganz besonders bei Handschriften kommen noch weitere Verwechslungsmöglichkeiten hinzu. Eine ,,5`` in einem Wort ist höchstwahrscheinlich ein ,,S``, eine ,,8`` ein ,,B`` etc. Diese Standardersetzungen lassen sich von außen kontrollieren, so daß eine Anpassung an die speziellen Stärken und Schwächen des Erkennungssystemes möglich ist.

Die Kontextdatenbank ,,DACCORD`` wird derzeit insbesondere im Zusammenspiel mit einer Schrifterkennungssoftware eingesetzt, die von der Firma Parsytec GmbH entwickelt und vertrieben wird. Im täglichen Einsatz als unerwartet schwierig hat sich dabei die Behandlung des Betragsfeldes auf Bankformularen erwiesen. Die Lösung dieses Problems hat die neueste Erweiterung von ,,DACCORD`` eingeleitet. Um zunächst einen Eindruck zu vermitteln, mit welchen Schwierigkeiten man zu kämpfen hat, folgen nun ein paar Beispiele aus der Praxis, die wir aus diesem Schrifterkennungssystem erhalten haben:

  3,701
  62<,1>6<86>
  -10 ,90-
  3 6 0,--
  100,1
  500-----
  69.47.-
  150.001111111
  2.74 ,04 -
  36<.@><-@>3
  **4*1<0?><??><??><??><??><*?>*50,00****

Die in eckigen Winkelklammern eingeschlossenen Zeichen sind Alternativen, zwischen denen sich der Erkenner nicht definitiv entscheiden konnte. Eine Eigenheit des Erkennungssystemes, das die obigen Ergebnisse geliefert hat, ist es offenbar, aus Querstrichen Einsen zu machen. So lautete der tatsächliche Betrag auf dem Beleg im ersten Fall ,,3,70-`` und der Eintrag von ,,150.001111111`` war in Wirklichkeit ,,150.00----``. Die sonstigen Schwierigkeiten lassen sich aus den gegebenen Beispielen nur erahnen. Das ,,Monstrum`` am Schluß ist übrigens aus ,,************50,00****`` entstanden und der vorletzte Betrag war ursprünglich ,,36.-``!

Um den tatsächlichen Betrag zu rekonstruieren, wurde das Aussehen von in der Praxis vorkommenden Beträgen als regulärer Ausdruck formuliert, um dann eine ,,Levenshteindistanz`` zwischen diesem Ausdruck und dem Erkennungsergebnis zu berechnen. Mit Hilfe eines Backtracking-Verfahrens wird dann ermittelt, welche Zeichen aus dem Leseergebnis zu entfernen beziehungsweise zu modifizieren sind. Auch hier stehen wieder sehr viele Einstellungsparameter zu Verfügung, um die Eigenheiten der eingesetzten Erkennungssoftware optimal zu berücksichtigen. Die Bearbeitungsgeschwindigkeit liegt bei mehr als 1000 Beträgen pro Sekunde auf einem Pentium-166 Prozessor und ist damit für das Gesamtsystem nicht zeitkritisch.

Das Programm ,,DACCORD`` ist sehr schnell von den Banken akzeptiert worden. Mittlerweile ist es in über 40 Kreditinstituten im Einsatz und läuft absolut stabil.


next up previous contents
Next: Bioinformatik Up: Automatisierte Belegverarbeitung Previous: Datenbank-Abgleich
Webmaster<www@zpr.uni-koeln.de>
1999-07-28