Knowledge Discovery in Databases

Knowledge Discovery in Databases (KDD) ist der Prozess der (semi-)automatischen Extraktion von Wissen aus einer Datenbank, das bisher unbekannt und für eine gewünschte Anwendung potenziell nützlich ist. KDD ist damit ein Forschungsgebiet, das sich mit der Wissensgewinnung aus großen komplexen Datenmengen befasst. Das Grundproblem besteht darin, umfangreiche Daten in kompaktere und abstraktere Formen umzuwandeln.

KDD bezeichnet den Gesamtprozess der Entdeckung von nützlichem Wissen in Daten. Der zentrale Schritt in diesem Prozess - die Datenanalyse zur Extraktion von Mustern aus Daten - heißt Data Mining. Dies sind Verfahren der Informatik, wie maschinelles Lernen, und der Statistik zur Entdeckung von Mustern in großen Datensätzen. Data Mining hat das Ziel, mit künstlich intelligenten Methoden Informationen aus einer Datenmenge zu extrahieren und zur weiteren Verwendung in eine strukturierte Form zu transformieren.

Die Schritte zur Wissensgewinnung

Knowledge Discovery in Databases beginnt mit der Definition von Zielen der Wissensfindung. Daraufhin werden die zu untersuchenden Datenmengen gewählt. Im Schritt der Vorverarbeitung werden Daten aus unterschiedlichen Quellen kombiniert und von Inkonsistenzen bereinigt. Die Daten müssen dann durch Transformationen auf ihre Essenz reduziert werden. Dann wird ein Modell bzw. Schema zur Repräsentation der gefundenen Inhalte gewählt. Mit Data Mining-Verfahren findet dann die eigentliche Analyse statt. Data Mining liefert in den Daten enthaltene Muster durch Verfahren der Statistik und künstlichen Intelligenz. In der Evaluation werden gefundene Muster visuell aufbereitet und bewertet.

Typische Anwendungen von KDD sind Filterung von E-Mail-Spam, Kundensegmentierung (Aufteilung von Kund:innen in Gruppen mit ähnlichem Kaufverhalten) oder Prüfung der Kreditwürdigkeit von Klienten.

Wissen kann dabei aus strukturierten und unstrukturierten Datenquellen gewonnen werden. Strukturierte Daten liegen in einer Form vor, dass Computerprogramme direkt mit den repräsentierten Informationen arbeiten können. Unstrukturierte Daten wie Text, Sprache und Bilder müssen erst interpretiert und in ein Schema gebracht werden, damit Software mit dem Inhalt arbeiten kann.

Rechtliche Aspekte der Urheber

Rechte der Urheber des Datenmaterials, das bei Knowledge Discovery genutzt wird, machen die Verwertung von daraus gewonnenem Wissen rechtlich unsicher. Zu klären ist vor der Verwendung der Lizenzstatus und die Sicherstellung von Datenschutz bei Nutzung von personenbezogenen Daten. Die Ergebnisse, die künstlich intelligente Verfahren (auf Basis von rechtlich nutzbarem Datenmaterial) erzeugen, sind urheberrechtlich nicht geschützt. Produkte, die sich auf die Ergebnisse stützen, können wiederum einem Urheber zugeordnet und damit geschützt sein.