SADoku - Methoden zur domänenabhängigen Strukturierung und Analyse unstrukturierter Textdokumente

01.01.2013 -

Abgeschlossen
TU Darmstadt & Software AG

Name des Teilnehmers: Sebastian Schmidt

Beschreibung des IT-Forschungsprojekts: Im Rahmen der fortschreitenden Digitalisierung der Gesellschaft existieren in Unternehmen oder auch frei verfügbar im Web große Mengen unstrukturierter Textdokumente, z.B. Studien, Berichte oder Produktbeschreibungen, welche unternehmensrelevante Informationen enthalten. Diese Informationen stellen oftmals einen wichtigen Wert der Unternehmen dar, sind aber schwer zugreifbar. Andererseits erhalten zum Beispiel Unternehmen Informationen von Kunden oder Lieferanten in unstrukturierter Form. Deren Verarbeitung erfordert eine Erfassung und Strukturierung der Daten. Nur so können entsprechende Geschäftsprozesse angestoßen werden. Beispielsweise erhalten die meisten Software?Produzenten Fehlerberichte von Kunden.

Diese Berichte sind von sehr unterschiedlicher Form, jedoch lassen sich gewisse inhaltliche Elemente regelmäßig wiederfinden (bspw. Fehlermeldung, Ursache, genutzte Software, Betriebssystem, etc). Wenn Dokumente solcher Art in einer strukturierten Form vorliegen würden, könnten weiterführende Methoden bspw. Dubletten erkennen oder eine Kategorisierung vornehmen oder es könnten automatisiert Prozesse angestoßen und Zuständigkeiten zugeordnet werden. Dieser Prozess musste bisher vom Menschen übernommen werden, was bei den heutigen großen Datenmengen nicht mehr handhabbar ist, weshalb viele Daten nicht sinnvoll genutzt werden können.

Die Zielsetzung des Projektes "SADoku" war die Schaffung von generischen Methoden zur Strukturierung unstrukturierter Textdokumente, die in verschiedenen Domänen eingesetzt werden können. Hierzu mussten zunächst Dokumente, die in der entsprechenden Domäne relevant sind, identifiziert werden und dann im Folgeschritt Informationseinheiten aus den Dokumenten extrahiert werden. Die im Rahmen des Projektes adressierten Dokumente umfassten unstrukturierte Texte, die jedoch grundsätzlich von Menschen strukturierbare Inhalte enthalten. Auf Grund ihrer grundsätzlichen Strukturierbarkeit lassen sich die einzelnen strukturierten Elemente der Dokumente einem inhaltlichen Domänenmodell zuordnen. Dieses Modell beschreibt, welche Informationseinheiten in den Dokumenten enthalten sind. Für jedes zu adressierende Anwendungsszenario lässt sich ein solches Domänenmodell spezifizieren, an Hand dessen eine Strukturierung der Dokumente möglich ist. Das vorrangige Ziel des Projektes ist die Schaffung von Methoden, um die einzelnen Informationseinheiten innerhalb der Dokumente zu identifizieren und somit das Domänenmodell mit konkreten Instanzen zu befüllen. Die einzelnen Informationseinheiten können sowohl einzelne Worte (bspw. Produktname, Ortsbezeichner, etc.) oder Wortfolgen sein (bspw. Produkteigenschaften, Personenbeschreibungen, etc.) als auch von numerischer Natur sein (bspw. Kosten, Telefonnummern, etc.).

Hierbei bestand die zentrale Forschungsfrage, ob die Methoden generisch, also unabhängig von einem konkreten Domänenmodell, entwickelt werden können, oder wie diese mit möglichst wenig manuell anzugebendem Wissen an konkrete Domänenmodelle anpassbar sind.

Software Campus-Partner: TU DarmstadtSoftware AG

Umsetzungszeitraum: 01.01.2013 - 31.12.2014