THESEUS-Basistechnologien
Das Forschungsprogramm THESEUS leistet einen Beitrag für eine neue internetbasierte Wissensinfrastruktur, in der das Wissen im Internet künftig besser aufbereitet und genutzt werden kann. Im Fokus des Forschungsprogramms stehen semantische Technologien, die die inhaltliche Bedeutung der Informationen (Wörter, Bilder, Töne) erkennen und einordnen können. Mit diesen Technologien können Computerprogramme intelligent nachvollziehen, in welchem Kontext Daten abgespeichert wurden. Darüber hinaus können Computer durch Anwendung von Regeln und Ordnungsprinzipien aus den Inhalten logische Schlüsse ziehen und selbständig Zusammenhänge zwischen unterschiedlichen Informationen aus mehreren Quellen erkennen und herstellen.
Unter dem Dach von THESEUS entwickeln hierzu öffentliche und industrielle Forschungspartner gemeinsam innovative Basistechnologien und technische Standards. Diese Basistechnologien werden von den Industriepartnern im Konsortium in sechs Anwendungsszenarien prototypisch umgesetzt und erprobt. Dabei soll überprüft werden, wie diese neuen Technologien zeitnah in innovative Werkzeuge, marktfähige Dienste und erfolgsversprechende Geschäftsmodelle für das WorldWideWeb und andere internetbasierte Netzwerke umgesetzt werden können.
Zu den Basistechnologien, die von den Forschungspartnern entwickelt werden, gehören unter anderem Funktionen zur automatisierten Erzeugung von Metadaten für Audio-, Video-, 2D und 3D- Bilddateien und deren anwendungsspezifische Kombination, sowie Mechanismen für die semantische Verarbeitung multimedialer Dokumente und der damit verknüpften Services. Im Fokus der Forschung steht auch die Entwicklung von Werkzeugen für das Management Ontologien-unterstützter Wissensrepräsentation. Darüber hinaus entwickelt das Konsortium neue Methoden des maschinellen Lernens und der situationsbewussten Dialogverarbeitung.
a) Automatische Erzeugung von Metadaten
Die THESEUS-Forschungspartner entwickeln neue Methoden, um Medieninhalte zu erfassen. Diese Methoden basieren auf Metadaten. Das sind Informationen zu einem Objekt, die in einer Datenbank registriert werden, zum Beispiel der Name eines Buchautors oder die Epoche, in der ein Film spielt. Mit den neuen Verfahren können Metadaten für verschiedene Medieninhalte erstellt werden, also unter anderem für Texte, Fotos, Audio- und Videodateien. Ein Entwicklungsschwerpunkt liegt dabei auf Ansätzen zur automatischen Generierung von Metadaten. Einen weiteren Schwerpunkt bildet der Einsatz von semantischen Technologien, um den Kontext eines Medieninhalts zu erfassen. Ziel ist es, thematisch ähnliche Inhalte aus unterschiedlichen Quellen zu einer Gruppe zusammenzufassen, die dem Nutzer möglichst viele Informationen bietet.
b) Schnelle Verarbeitung multimedialer Dokumente
Damit Nutzer bei einer Recherche in komplexen multimedialen Datenbanken nicht zu lange auf ein Ergebnis warten müssen, werden im Rahmen von THESEUS hocheffiziente Algorithmen für Metadaten entwickelt. Sie erlauben es, auch in Datenbanken mit mehreren hunderttausend Objekten die Inhalte von Bildern und Videos schnell zu durchsuchen. Um die Bildsuche zu verbessern, entwickeln die Forscher zudem Bilderkennungssysteme. Sie werden den Computer in die Lage versetzen, den Gegenstand selbstständig zu erfassen, der auf einem Foto oder in einem Video dargestellt wird. Ein weiterer Schwerpunkt ist die Komprimierung von Daten, insbesondere bei Bilddateien.
c) Innovatives Ontologien-Management
THESEUS erforscht semantische Technologien auf Basis sogenannter Ontologien, die es Computern erlauben, die Bedeutung von Inhalten zu "verstehen". Ontologien sind formale Wissensmodelle, die das Wissen eines Fachgebiets konzeptuell abbilden und dessen automatisierte Verarbeitung auf einer Bedeutungsebene erschließen - wie dies bisher nur dem Menschen möglich war. Das in THESEUS zentral verankerte Arbeitspaket für Ontologiemanagement entwickelt Methoden, die die Erstellung (Design), das automatisierte Schlussfolgern mit (Reasoning) und die Weiterentwicklung von Ontologien verbessern.
d) Maschinelles Lernen
Ein weiteres Thema von THESEUS sind Verfahren der intelligenten Datenanalyse, die das automatische Erkennen von Zusammenhängen und Abhängigkeiten in den Daten ermöglichen, sodass diese ähnlich wie mit Hilfe von Ontologien modelliert und strukturiert werden können. Diese Methoden werden auf Texte, Bilder sowie auf Audio- und Videodaten angewendet und erlauben es auch, Beziehungen zwischen den verschiedenen Datentypen herzuleiten.
e) Situationsbewusste Dialogverarbeitung
Damit der Computer im Auftrag des Nutzers handeln kann, muss er dessen Anliegen verstehen. Für diesen Dialog zwischen Mensch und Maschine werden im Rahmen von THESEUS neue Funktionalitäten entwickelt, die sich flexibel in verschiedenen Anwendungen einsetzen lassen. So ermöglichen innovative Algorithmen multimodale Benutzeroberflächen, die durch Sprache, Gestik und weitere Eingabeverfahren bedient werden können. Mit solchen Schnittstellen können Nutzer ihre Anfragen intuitiv formulieren und sie im gesprochenen Dialog mit dem System verfeinern. Eine spezielle Komponente fungiert dabei innerhalb des Computers als Schnittstelle zwischen der multimodalen Benutzeroberfläche und den verschiedenen Metadatenquellen. Er wandelt eine gesprochene Anfrage in einen semantisch aufbereiteten Datensatz um, der für eine Suche im System nötig ist.
f) Zukunftsweisende Benutzeroberflächen
Um Zusammenhänge zwischen verschiedenen Daten, Metadaten und Dokumenten einfacher erkennbar zu machen, werden zudem im THESEUS-Programm neue grafische Benutzeroberflächen entwickelt. So können zum Beispiel die Ergebnisse von Suchanfragen als sogenannte Wissensnetze dargestellt werden, die zeigen, wie die Ergebnisse sowohl mit dem Suchbegriff als auch untereinander zusammenhängen. Diese Darstellungsform ermöglicht es, einen einfachen Überblick über ein Themengebiet zu erhalten und die benötigten Informationen schneller zu finden.
g) Evaluation der Basistechnologien
Die im Rahmen von THESEUS entwickelten Basistechnologien werden von Experten hinsichtlich ihrer Qualität beurteilt. So werden beispielsweise neue Technologien zur Sprach- und Bilderkennung oder zur automatischen Zuordnung von Metadaten auf ihre Zuverlässigkeit, Funktionalität und Tauglichkeit geprüft. Dadurch wird eine Qualitätssicherung der durchgeführten Forschungsarbeiten sichergestellt. Die Ergebnisse dieser Evaluation fließen außerdem wieder in den Forschungs- und Entwicklungsprozess ein und tragen dazu bei, die Ergebnisse weiter zu optimieren.
Downloads