Einer problemlosen Erschließung des in den Daten verborgenen Wissens im Rahmen des KDD-Prozesses stehen noch einige Hindernisse entgegen. Das größte Hindernis stellen die massiven Datenmengen dar, die beim Data Mining üblicherweise zu handhaben sind. Sie bewirken erhebliche Laufzeiten bei der Ausführung von Ableitungsketten. Darüberhinaus eignen sich die Lernverfahren aufgrund ihrer Berechnungskomplexität nicht für die schnelle Analyse großer Datenmengen. Laufzeiten von mehreren Stunden oder gar Tagen sind keine Seltenheit. Für eine interaktive Arbeitsweise müssen aber die Antwortzeiten im Bereich des menschlichen Entscheidungsverhaltens liegen. Die Ausführung von Ableitungsketten im Rahmen des KDD-Prozesses wird so zum dominierenden Einflussfaktor und hat nicht nur Auswirkungen auf die Dauer des gesamten Prozesses, sondern schafft auch zusätzliche Randbedingungen hinsichtlich der überhaupt in Betracht kommenden Untersuchungsgegenstände.
Ein naheliegender uind wichtiger Ansatz zur Leistungssteigerung ist traditionell auch der Einsatz von Parallelität. In der hier vorliegenden Arbeit werden folgende Probleme untersucht:
Ziel der Arbeit ist die Entwicklung von Parallelisierungstechniken für einen interaktiven Wissensgewinnungsprozess auf parallelen Plattformen mit verteiltem Speicher und optimierter Kommunikation, die gegenwärtig in Form von Workstation Clustern, aber auch kommerziellen Komplettsystemen (wie z.B.IBM SP) verstärkt auftreten.
Kaufoptionen
Versandkostenfrei innerhalb Deutschlands |
Wollen auch Sie Ihre Dissertation veröffentlichen?