Sebastian Kirsch: Blog

Thursday, 10 February 2005

Kern-Methoden zur Extraktion von Informationen II

Filed under: — Sebastian Kirsch @ 18:15

Ich habe heute meinen Vortrag beim Hauptseminar “Information Extraction” am Institut für Kommunikationsforschung gehalten. Die Folien sind auch schon online verfügbar.

Im Rückblick war es vielleicht etwas vermessen, Computerlinguisten die Grundlagen von maschinellem Lernen, Support Vector Machines, Kern-Methoden und Kernen auf strukturierten Daten in 45 Minuten erklären zu wollen. Ich hoffe jedoch, dass ich zumindest die Ideen dahinter einigermassen verständlich machen konnte – für alles andere gibt es die Ausarbeitung.

In den Gesprächen mit Kommilitonen nach dem Vortrag habe ich festgestellt, dass für die meisten Studenten maschinelles Lernen immer noch gleichbedeutend mit neuronalen Netzen ist. Es scheint einen fast religiösen Glauben in die Fähigkeiten von neuronalen Netzen zu geben: sobald wir nur genügend Neuronen simulieren könnten, würden die Maschinen auf magische Weise menschenähnliche kognitive Leistungen vollbringen können.

Dabei scheint vergessen zu werden, dass neuronale Netze im Grunde genommen nur “Hardware” sind – eine reines Berechnungsmodell, ähnlich Von-Neumann-Rechnern oder Turing-Maschinen. Was damit berechnet wird, ist eine Frage der “Software” – im Fall des neuronalen Netzes eine Frage der Gewichte und der Übergangscharakteristik der einzelnen Einheuten. Der Glaube daran, dass grössere neuronale Netze plötzlich kognitive Leistungen erbringen können, scheint mir deshalb ähnlich zu dem Glauben, dass Intel nur einen Prozessor bauen müsste, der schnell genug ist, und auf magische Weise würden die Programme, die wir darauf ausführen, plötzlich viel mehr Funktionen haben.

Das Problem liegt also vielmehr in der “Software” – der Hypothese, die unser Lernverfahren errechnet. In diesem Gebiet ist die Support Vector Machine meiner Meinung nach dem neuronalen Netz weit voraus: Ein klassisches neuronales Netz sucht mit Gradientenabstiegsverfahren eine Hypothese, die eine lokales Minimum der Fehlerfunktion darstellt. Über die Güte der Hypothese und über die Generalisierungsfähigkeit wird keine Aussage gemacht. Die Wahl der Hypothese bei einer Support Vector Machine ist dagegen aus der statistischen Lerntheorie motiviert; sie wird so gewählt, dass sie unter den Annahmen der statistischen Lerntheorie die beste Generalisierungsfähigkeit bietet.

Der einzige Vorteil des neuronalen Netzes – Transformation des Ursprungsproblems in einen hochdimensionalen Raum, wodurch dieses linear separierbar ist – ist durch den Einsatz von Kern-Methoden ebenfalls gegeben. Hier sind Kern-Methoden sogar flexibler, da sie mehr Möglichkeiten der Transformation bieten und auch in extrem hochdimensionalen Räumen noch gute Regularisierung bieten.

Konnektionistische Verfahren haben sicherlich ihren Platz; insbesondere vom Aspekt der Selbstorganisation sind sie sehr interessant und verdienen weitere Untersuchung. Im Bereich des maschinellen Lernens spricht jedoch viel für die weitere Forschung im Bereich Kern-Methoden und Large Margin Classifiers.

Comments

No comments yet.

RSS feed for comments on this post.

Leave a comment

Sorry, the comment form is closed at this time.


Copyright © 1999--2004 Sebastian Marius Kirsch webmaster@sebastian-kirsch.org , all rights reserved.