Semantic Processing of Digital Documents

Semantische Verarbeitung von digitalen Dokumenten

  • Precise, content-rich and well-structured document models are required for applications like verifying the consistency of documents. Creating such models for common documents is currently an expensive and error-prone process. In this thesis we present a novel approach to modelling and processing digital documents that uses semantic technologies. In contrast to other modelling approaches, we model the structure of documents as indicated by the content, not as defined by technical attributes like the file format. Additionally, our meta-model can be applied to a wide range of different documents, not just to a small set of documents with a predefined set of features. The models include semantic data and content relationships, which can be further extended with domain knowledge. Our new separation of technical and semantic document models fuels a standardised method for obtaining semantic models. This method is effective, suitable for live processing, and easily transferable to other document types and other domains. As it is makesPrecise, content-rich and well-structured document models are required for applications like verifying the consistency of documents. Creating such models for common documents is currently an expensive and error-prone process. In this thesis we present a novel approach to modelling and processing digital documents that uses semantic technologies. In contrast to other modelling approaches, we model the structure of documents as indicated by the content, not as defined by technical attributes like the file format. Additionally, our meta-model can be applied to a wide range of different documents, not just to a small set of documents with a predefined set of features. The models include semantic data and content relationships, which can be further extended with domain knowledge. Our new separation of technical and semantic document models fuels a standardised method for obtaining semantic models. This method is effective, suitable for live processing, and easily transferable to other document types and other domains. As it is makes extensive use of background knowledge, we also present techniques for obtaining such knowledge, and for representing complex forms of knowledge with multiple meta-layers. A flexible technique for obtaining relevant data from our document models completes the approach. This includes the ability to obtain various verification models, suitable for different types of consistency criteria and for different validation formalisms. We conclude this thesis with an evaluation that shows the viability and effectiveness of the proposed approach. We present runtime results for an implementation based on RDF/OWL and the rule language JBoss Drools that are adequate for live processing. We also provide and successfully apply techniques for measuring the quality of both document models and background knowledge.show moreshow less
  • Für Anwendungen wie die Verifikation von Konsistenzkriterien für Dokumente werden präzise, inhaltlich reichhaltige, und wohlstrukturierte Dokumentmodelle benötigt. Solche formalen Modelle aus gewöhnlichen Dokumenten zu gewinnen ist bislang mit großem Aufwand verbunden und anfällig für Fehler. In dieser Dissertation wird ein neuer Ansatz zur Modellierung und zur weiteren Verarbeitung von digitalen Dokumenten beschrieben, der dieses Problem unter Verwendung von semantischen Technologien löst. Das entwickelte Meta-Modell ist unabhängig von der technischen Dokumentstruktur (dem Dokumentformat) und kann daher für eine Vielzahl unterschiedlicher Dokumente und Dokumentformate verwendet werden. Die Modelle enthalten semantische Daten und inhaltliche Zusammenhänge, die mithilfe von Domänenwissen noch erweitert werden können. Aus der strikt umgesetzten Trennung von technischen und semantischen Dokumentmodellen wird eine standardisierte Methode zur Gewinnung von semantischen Modellen hergeleitet. Diese Methode ist effektiv und kann leicht aufFür Anwendungen wie die Verifikation von Konsistenzkriterien für Dokumente werden präzise, inhaltlich reichhaltige, und wohlstrukturierte Dokumentmodelle benötigt. Solche formalen Modelle aus gewöhnlichen Dokumenten zu gewinnen ist bislang mit großem Aufwand verbunden und anfällig für Fehler. In dieser Dissertation wird ein neuer Ansatz zur Modellierung und zur weiteren Verarbeitung von digitalen Dokumenten beschrieben, der dieses Problem unter Verwendung von semantischen Technologien löst. Das entwickelte Meta-Modell ist unabhängig von der technischen Dokumentstruktur (dem Dokumentformat) und kann daher für eine Vielzahl unterschiedlicher Dokumente und Dokumentformate verwendet werden. Die Modelle enthalten semantische Daten und inhaltliche Zusammenhänge, die mithilfe von Domänenwissen noch erweitert werden können. Aus der strikt umgesetzten Trennung von technischen und semantischen Dokumentmodellen wird eine standardisierte Methode zur Gewinnung von semantischen Modellen hergeleitet. Diese Methode ist effektiv und kann leicht auf andere Dokumenttypen und andere Domänen übertragen werden. Da sie Hintergrundwissen verwendet, werden in der Arbeit außerdem Verfahren zur Gewinnung solchen Wissens vorgestellt, sowie Methoden zur Repräsentation komplexen Wissens mit mehreren Meta-Ebenen. Eine flexible Methode zur Gewinnung relevanter Daten aus den semantischen Modellen rundet den Ansatz ab. Dies schließt die Möglichkeit ein, unterschiedliche Verifikationsmodelle für verschiedene Konsistenzkriterien und für verschiedene Verifikationsformalismen zu gewinnen. Eine abschließende Evaluation zeigt die Machbarkeit und Effektivität des vorgeschlagenen Ansatzes. Laufzeitergebnisse einer auf RDF/OWL und der Regelsprache JBoss Drools basierenden Umsetzung des Ansatzes zeigen die Eignung für den Live-Einsatz. Schließlich werden Methoden zur Messung der Qualität von Dokumentmodellen und Hintergrundwissen vorgestellt und angewandt, und so die hohe Qualität der gewonnenen Modelle gezeigt.show moreshow less

Download full text files

Export metadata

Additional Services

Share in Twitter Search Google Scholar
Metadaten
Author:Christian Schönberg
URN:urn:nbn:de:bvb:739-opus-27635
Advisor:Burkhard Freitag
Document Type:Doctoral Thesis
Language:English
Year of Completion:2013
Date of Publication (online):2015/01/22
Publishing Institution:Universität Passau
Granting Institution:Universität Passau, Fakultät für Informatik und Mathematik
Date of final exam:2014/12/02
Release Date:2015/01/22
Tag:Document; Modelling; Processing; Semantics; Verification
GND Keyword:Dokument; Semantik; Verifikation; Modellierung; Verarbeitung
Institutes:Fakultät für Informatik und Mathematik / Mitarbeiter Lehrstuhl/Einrichtung der Fakultät für Informatik und Mathematik
Dewey Decimal Classification:0 Informatik, Informationswissenschaft, allgemeine Werke / 00 Informatik, Wissen, Systeme / 004 Datenverarbeitung; Informatik
open_access (DINI-Set):open_access
Licence (German):License LogoStandardbedingung laut Einverständniserklärung