Sebastian Kirsch: Blog

Sunday, 27 February 2005

Kochbücher: Die grosse Schule des Kochens

Filed under: — Sebastian Kirsch @ 15:13

Ich koche normalerweise relativ wenig nach Kochbüchern. Meistens koche ich aus dem Gedächtnis, oder koche etwas nach, was ich schon einmal gegessen habe – oder ich koche etwas ganz neues, von dem ich mir vorstellen kann, dass es gut zusammen passt. Manchmal klappt das gut, manchmal nicht …

Wenn ich doch mal ganz genau wissen will, wie man etwas kocht, oder Inspiration suche, habe ich natürlich auch ein paar Kochbücher, in die ich reinschaue. Ich will diese nach und nach hier vorstellen; den Anfang macht mein Standard-Kochbuch:

[cover]Die grosse Schule des Kochens (Anne Willan)

Dieses Buch ist ein Kochbuch im eigentlichen Sinn des Wortes, kein Rezeptbuch: Hier liegt der Schwerpunkt nicht auf einzelnen Rezepten, sondern auf der Vermittlung von Grundlagen über Zutaten, Kochtechniken und Grundrezepte. Dabei werden wirklich alle Bereiche abgedeckt: Angefangen von Kräutern und Aromazutaten über Milchprodukte, Fisch, Gemüse, Geflügel, Fleisch, Teigwaren, bis zu Desserts und Backwaren.

Der Inhalt der über 500 großformatigen und dicht bedruckten Seiten lässt sich nicht in ein paar Zeilen wiedergeben; ich glaube, alles was man jemals über das Kochen wissen möchte, findet sich in diesem Buch. Die Rezepte orientieren sich dabei hauptsächlich an der französischen und europäischen Küche, bei den Zutaten wird aber auch auf viele exotische Gemüse und Früchte eingegangen.

Die Auswahl der Techniken scheint sich nicht nur an einer Privatküche zu orientieren, sondern auch an der Gastronomie und am à la carte-Geschäft. So finden sich Beschreibungen, wie man praktisch jedes kleinere Geflügel, Fische, Krustentiere und Wildtiere zerlegt, wie man Gemüse tourniert und verarbeitet, wie man Braten zubereitet, wie man Schokolade und Zucker im Konditor-Bereich verarbeitet wird, … Die Fülle an Informationen ist einfach unbeschreiblich.

Ich benutze dieses Buch hauptsächlich als Nachschlagewerk – egal, welche exotische Zutat man gerade beim Chinese gesehen hat, für welches Standardgericht man ein Rezept braucht, über welche Gemüsesorten oder Fleischgerichte man einen Überblick will, hier findet man alles.

Saturday, 26 February 2005

Spiegel Online: Stöhnende Werbung

Filed under: — Sebastian Kirsch @ 12:27

Werbebanner auf Webseiten sind ja wahrlich nichts Neues mehr; genau wie bei Werbung in Zeitschriften haben die meisten Surfer inzwischen selektive Wahrnehmung entwickelt und bemerken sie gar nicht mehr.

Genau das scheint den Werbeitreibenden inzwischen auch aufgefallen zu sein. Und während die Möglichkeiten bei Printmedien begrenzt sind, die Aufmerksamkeit des Lesers auf sich zu ziehen, bietet das Internet da viel mehr Möglichkeiten: Durch blinkende Bildchen, grelle Farben, Töne und Musik ist es dort möglich, ein mentales Ausblenden der Werbung praktisch komplett zu verhindern.

Genau das ist mir kürzlich auch auf Spiegel Online aufgefallen, der Online-Ausgabe des Magazins “Der Spiegel". Dort war ein Banner im Flash-Format in der Zirkulation, der auf www.coole-bank.de hinwies – eine Kampagne der Hypovereinsbank, die wohl besonders junge Kunden anziehen soll. Das Banner war in grellen, blinkenden Neonfarben gehalten und spielte zudem noch Töne ab, die an einen billigen Spielautomaten in einer Bahnhofskneipe erinnerten.

Gerade bei einem seriösen Nachrichtenmagazin wie dem Spiegel hatte ich mit einem solchen Angriff auf den guten Geschmack und auf die Nerven der Leserschaft nicht gerechnet; vielmehr hatte der Spiegel Online bis jetzt etwas mehr darauf geachtet, dass die Werbung sich in das sonstige Erscheinungsbild der Seite einfügt. Besonders die Musik fand ich extrem störend: Bei einem halben Dutzend bis einem Dutzend offener Fenster dauert es eine Weile, bis man dasjenige gefunden hat, das die nervigen Töne abspielt.

Also schrieb ich einen Leserbrief an Spiegel Online, in dem ich mich in gebührendem Ton über diese Belästigung beschwerte, meinen Unmut ausdrückte, und die Hoffnung anlkingen liess, Spiegel Online möge doch in Zukunft bei der Auswahl der Werbepartner etwas mehr Sorgfalt walten lassen. So weit, so gut.

Als Antwort kam folgende Email – mit sämtlichen Rechtschreibfehlern so abgedruckt, wie ich sie erhalten habe:

Lieber Herr Kirsch,

Sie habe natürlich Recht, manchmal sind Werbebanner sicher etwas stöhnend - aber sie sind auch unsere Einzige Einnahmequelle. Daher ist es gut, dass sie zunehmend auftauchen!

Sie können uns glauben, dass wir bei der Buchung von Werbebannern sehr wohl auf unser Layout achten, können unseren Werbekunden jedoch nicht alles untersagen. Sie würden sicher von dieser Werbemöglichkeit wieder abstand nehmen. Dies wiederum können wir uns nicht leisten, da wir unseren Lesern weiterhin ein kostenloses Newsmagazin bieten möchten.

Mit freundlichen Grüßen

Ihre SPIEGEL ONLINE Redaktion
Ein Unternehmen der SPIEGEL-Gruppe

Nun ja, ein stöhnender Werbebanner ist mir beim Spiegel noch nicht untergekommen, auch wenn das auf anderen Webseiten natürlich Gang und Gäbe ist. Aber vielleicht ist das ja ein Ausblick darauf, was uns beim Spiegel Online noch erwartet – wird es bald auch Porno-Werbung in der Zirkulation geben? Man kann nie wissen …

Man muss natürlich froh darüber sein, nicht mit einem Standardbrief abgefertigt zu werden; etwas bessere Kenntnisse der deutschen Sprache und Rechtschreibung würde ich jedoch auch in der Leserbrief-Abteilung des Spiegel Online erwarten.

Und auf inhaltlicher Seite? Dass Werbebanner massgeblich zur Finanzierung eines solchen Angebots beitragen, ist mir natürlich auch klar. Aber genauso, wie sich die Werbung bei der Print-Ausgabe an das Niveau der Zeitschrift anpasst, sollte auch bei der Online-Ausgabe darauf geachtet werden, die Leser nicht mit unpassenden und störenden Werbebannern vor den Kopf zu stossen. Sonst stimmen sie womöglich mit den Füssen ab, und das animiert Werbetreibende sicher auch nicht zum Schalten von Anzeigen.

Und ich? Ich habe dieser Email nichts mehr zu entgegnen. Ich habe mich entschlossen, auf meiner Seite entsprechende Massnahmen zu ergreifen. Da solche Werbung nur im Flash-Format ausgeliefert, hab ich mir ein Zusatzprogramm namens flashblock für meinen Internet-Browser Firefox installiert. So werden Inhalte im Flash-Format von vornherein abgeblockt und durch ein Symbol ersetzt. Durch Klicken auf dieses Symbol kann man im Nachhinein die Flash-Animation starten – sollte man sich doch einmal auf einer Seite befinden, die Flash zu sinnvollen Zwecken und nicht nur zur Störung ihrer Leserschaft einsetzt.

Lieber Spiegel Online, ich verstehe die Situation, ein kostenloses Angebot durch Werbung zu finanzieren. Ich habe deshalb bis jetzt darauf verzichtet, Werbebanner mit technischen Mitteln abzublocken. Mit den Bannern der HVB war meine Schmerzgrenze jedoch erreicht – ab jetzt werde ich auf der Spiegel Online-Seite gar keine Werbung mehr sehen. Ich überlasse es Ihnen, diese Tatsache Ihren Werbetreibenden verständlich zu machen.

Friday, 25 February 2005

Hähnchen Sezuan

Filed under: — Sebastian Kirsch @ 12:21

Letzten Mittwoch habe ich einen Bekannten eingeladen und mich entschieden, Hähnchen Sezuan zu machen. Das Rezept stammt wie immer aus meinem französischen Kochbuch:

  • Cashewnüsse
  • Hähnchenbrust
  • ein Eiweiss
  • Maisstärke
  • eine Frühlingszwiebel
  • frischer Ingwer
  • zwei rote Chilischoten
  • eine grüne Paprika
  • ein Esslöffel Hoisin-Soße
  • ein Teelöffel fermentierte schwarze Bohnen
  • ein Esslöffel Reiswein
  1. Die Cashewnüsse im Wok anrösten und beiseite stellen.
  2. Das Hähnchen in kleine Würfel schneiden; die Stärke mit etwas Wasser verrühren und mit dem Eigelb verschlagen. Das Hähnchen dazugeben und gut untermischen.
  3. Hoisin-Soße, Bohnen und Reiswein zu einer Marinade verrühren. (Je mehr Bohnen man nimmt, desto schärfer wird die Marinade.)
  4. Das Hähnchen im Wok mit Öl anbraten, bis es die Farbe gewechselt hat. Dann aus dem Wok entfernen und mit der Marinade vermischen.
  5. Frühlingszwiebeln, Ingwer und Chilischoten in kleine Würfel schneiden. (Vorsicht! Sich nicht die Augen reiben, nachdem man die Chilischoten geschnitten hat! Auch Händewaschen reicht meistens nicht, um die Chili-Öle zu entfernen.)
  6. Die grüne Paprika ebenfalls in Würfel schneiden.
  7. Zwiebeln, Ingwer und Chilischoten im Wok mit etwas Öl anbraten, dann die Paprika dazugeben. Nach einer Minute das marinierte Hähnchen und die gerösteten Cashews dazugeben und ein paar Minuten weiterbraten.

Dazu gab es Basmati-Reis, einen leichten Rotwein (Santa Maddalena aus Tirol) und Lassi (da mein Gast befürchtete, es könnte ein bisschen zu scharf werden.)

Tuesday, 22 February 2005

Managing BibTeX databases

Filed under: — Sebastian Kirsch @ 19:03

Like many people who write in LATEX, I use BibTeX for automatically generating bibliographies. I used to manage the databases by hand, but after writing several papers that needed similar references and dozens of papers in the database, this gets a bit unwieldy.

A search on freshmeat.net found a number of frontends for BibTeX, but the most advanced seemed to be JabRef. It’s written in Java and is the successor of both JBibTeXManager and BibKeeper.

JabRef has a rather friendly interface, can manage several databases at once, copy between databases, and can import and export a number of formats. It can also import data from CiteSeer and PubMed. This means that once you have researched a paper on either of those two repositories, you can import the bibliography data by simply entering the reference in JabRef. You can also copy the citation command to the clipboard, or insert it directly into LyX.

The entry format is customizable, so you can add new entry types or add new fields to existing types. If you enter a URL for a paper, you can open it in the web browser with one click; if you enter the path name of the corresponding PDF file, you can open that in a viewer. This makes it the poor man’s document management system.

I usually don’t rely on GUI tools very much, but in this case, it seems worth it. I think JabRef is going to make managing my references a lot easier.

Monday, 21 February 2005

Hunter S. Thompson kills himself

Filed under: — Sebastian Kirsch @ 13:58

The author and journalist Hunter S. Thompson was found dead last night (Reuters story). A news overview is on Google Groups.

Thompson is best known for Fear and Loathing in Las Vegas, in which he describes a booze- and drug-filled journey to Las Vegas, undertaken by Thompson’s alter ego Raoul Duke, and his attorney Dr. Gonzo. It was made into a major feature film, starring Johnny Depp as Raoul Duke.

A fitting end for a great writer.

Sunday, 20 February 2005

Rezepte: Jetzt in Farbe – und bunt!

Filed under: — Sebastian Kirsch @ 21:41

Zu ein paar der Rezepte gibt es jetzt auch Bilder; ich werde versuchen, zu den anderen Einträgen nach und nach Bilder nachzutragen, wenn ich die Gerichte mal wieder koche. Und bei neuen Gerichten werde ich auch fleissig Bilder machen – wenn etwas präsentables dabei rauskommt. Ich hoffe, damit noch ein bisschen mehr Appetit machen zu können und vielleicht zum Nachkochen animieren zu können.

Ein Anklang von Indonesien

Filed under: — Sebastian Kirsch @ 21:36

Nachdem ich in den letzten zwei Wochen eher wenig Zeit zum Kochen hatte, habe ich mir heute etwas Zeit genommen, um mal wieder ein bisschen aufwändiger zu kochen. Und weil gerade noch passende Zutaten im Kühlschrank waren, habe ich mich entschlossen, in Richtung Indonesien zu gehen:

Satéspiesse mit Bami Goreng

Die Saté-Sosse stammt aus einem früheren Blog-Eintrag. Für die Spiesse habe ich Hähnchenbrust in Stücke geschnitten, auf Schaschlikspiesse aufgespiesst und etwa eine Stunde in einer Mischung aus Honig und Sojasosse mariniert.

Für das Bami Goreng habe ich zuerst asiatische Nudeln gekocht, abgeschreckt, abtropfen lassen und mit etwas Öl vermischt, damit sie nicht zusammenkleben.

Dann kamen in Streifen geschnittene Zwiebeln, Karotten, Paprika, Zucchini und Sojasprossen in den heissen Wok und wurden in etwas Öl angebraten. Das Ganze wurde mit Sojasosse abgelöscht und mit etwas Sambal Olek gewürzt. Raus aus dem Wok damit und die Nudeln stattdessen rein, und anbraten. (Deshalb heisst es Bami Goreng: Bami = Nudeln, Goreng = gebraten.) Nach einer Weile das Gemuese wieder dazu, weiterbraten, und noch etwas Sojasosse dazu.

Währenddessen kamen die Spiesse in eine Pfanne mit etwas Öl und wurden von allen Seiten angebraten. Nachdem sie einigermassen fertig waren, kamen sie auf die Seite, und ich habe in der Pfanne noch ein Spiegelei gemacht. (Auf beiden Seiten gebraten; ich mag es nicht, wenn das Eigelb noch ganz flüssig ist.)

Das Ergebnis sah dann so aus:

Den indonesischen Geschmack kriege ich leider trotz diverser Kochbücher und Experimente immer noch nicht richtig hin. Das beste indonesische Essen habe ich bis jetzt bei Kantjil & de Tijger in Amsterdam gegessen. Wenn man das erste Mal da ist, sollte man sich gar nicht erst mit den Einzelgerichten aufhalten und gleich eine der Reisplatten bestellen; die sind zwar nicht ganz billig, aber sehr, sehr reichlich, und mit sehr vielen verschiedenen Gerichten: mehrere Fleischsorten, Beilagen, Salat, und einige Sachen, die ich bis jetzt nicht identifizieren konnte – die aber sehr lecker waren. Alles in Allem sehr empfehlenswert. Mir läuft immer noch das Wasser im Mund zusammen, wenn ich an das Essen dort denke.

Saturday, 19 February 2005

Jasper Fforde: The Well of Lost Plots

Filed under: — Sebastian Kirsch @ 18:23

I actually finished this book a couple of days ago, but the last week (and the week before) were murderous, work-wise, so I didn’t have the time and patience to write a review.

Fforde reminds me of Douglas Adams and Terry Prattchett at their best – the same boundless creativity. The difference is that whereas Adams and Prattchett write in the science fiction or fantasy genre, Fforde practices a kind of literary navel-gazing: He writes about the fictional “BookWorld” that exists only in books. In this world, the inhabitants of the books enact the scenes in a book for the readers. An Outlander (from our, “real” world) transfers to a detective novel that is in the process of being written for some holidays; but since she is no ordinary mortal, but a literary detective and member of the JurisFiction (the BookWorld police), she has to manage all kinds of adventures and save the day before she can get her well-deserved rest.

The book is the third in a series, but the story didn’t depend crucially on the events of the first two books. The BookWorld is wonderfully described, and the author is very inventive as regards the details of life inside a book. Numerous characters make guest appearances, for example Heathcliff from Wuthering Heights, Falstaff, the Cheshire Cat, the Red Queen from Alice in Wonderland.

I think I’ll go to the bookstore on monday to get the other two books in the series.

Wednesday, 16 February 2005

New HHGTTG trailer

Filed under: — Sebastian Kirsch @ 21:50

There’s a new trailer (in Flash format) on the amazon.com front page at the moment for the upcoming Hitchhiker’s Guide to the Galaxy movie. It’s looking very good, I’m definitely looking forward to it. The only irritating thing for me is going to be the large number of American accents in the movie; I’m so used to the radio play, which has exclusively British accents. Still …

SHA-1 Broken

Filed under: — Sebastian Kirsch @ 11:26

Bruce Schneier reports that SHA-1 has been broken. SHA-1 is the Secure Hash Algorithm, a 160-bit hash function designed by the National Security Agency in 1995. Schneier’s entry is scarce on details, as the original paper has not yet been published. The attack was devised by Xiaoyun Wang, Yiqun Lisa Yin and Hongbo Yu from Shandong University in China, who previously published attacks on the MD-5 hash algorithm.

Of course, one has to take into account that a cryptographer’s “broken” is different from anyone else’s “broken". For one, it doesn’t mean that all applications using SHA-1 will magically stop working, or will suddenly be insecure.

The attack on SHA-1 is a collision attack, not a preimage attack. A collision attack is an attack in which two different data streams are produced that hash to the same value – and therefore can be used interchangeably as far as the hash value is concerned. In difference, a preimage attack would allow the generation of a data stream that hashes to a specific hash value. Because the attack on SHA-1 is a collision attack, it cannot be used when SHA-1 is used as a message authentication code. It only affects its use as a digital signature algorithm.

Another thing is the scale of the attack. It reduces the number of hash computations needed to find two data streams with the same hash value from (theoretical, brute force) 280 to 269. This is factor of about 2000. The practical effect of this is rather negligible, as 269 is still a pretty large number.

So the attack on SHA-1 is noteworthy primarily because it dispels the belief that SHA-1 is just as secure as a random function and can only be attacked by brute force. This in itself is not surprising – in fact, it is the basic premise of cryptoanalysis: That a better method than brute force is possible. The “major, major cryptoanalytic result” touted by Schneier seems to be that attacks on the SHA family of hash functions were not previously known.

So, what to do now, since SHA-1 is “broken"? As a software developer, I would not be too alarmed by this result. As detailed above, the hypothetical attack only concerns digital signatures – all the other areas where SHA-1 is used are still safe (for example, password hashing or integrity checking for files.) And even then, the required effort is still too large for casual usage.

As a cryptoanalyst, I would look forward to the publication of the paper. And as everyone else, I would start a bet on the time of the first attack on the lesser-known hash algorithms like RIPEMD-160.

Tuesday, 15 February 2005

Cat owners beware

Filed under: — Sebastian Kirsch @ 17:07

If you play with your cat using a laser pointer, you may be violating patent no. 5443036, granted in 1995 by the U.S. Patent and Trademark Office. And we thought that software was the only subject prone to patents on trivial “inventions".

Sunday, 13 February 2005

Ingo Börchers: Das Blaue vom Himmel

Filed under: — Sebastian Kirsch @ 00:20

Heute abend habe ich am Atelier-Theater als Techniker gearbeitet; auf dem Programm stand diesmal Ingo Börchers. Rosa Wirtz hat ihn treffend als “Rakete” angekündigt, und das war wörtlich zu nehmen: Auf der Bühne ist sein Mundwerk nicht zu stoppen. Das Programm bedient sich freizügig aus den Erkenntnissen der Physik und ihren Auswirkungen auf Politik und Alltagsleben: So lässt sich die Relativitätstheorie laut Börchers ganz einfach nachvollziehen, wenn man sich vor Augen hält, dass die Länge einer Minute zum Beispiel davon abhängt, auf welcher Seite der Klotür man sich befindet. Garniert wird das ganze mit einer Unmenge an nutzlosem Wissen, das in atemberaubender Geschwindigkeit vorgetragen wird, und einigen ausgewählten physikalischen Versuchen.

Mir hat der Abend sehr gut gefallen; den Förderpreis des deutschen Kabarettpreises hat Ingo absolut zu Recht bekommen. Die Zusammenarbeit war ebenfalls sehr angenehm und entspannt – besser kann man es sich kaum wünschen.

Wer ihn spontan sehen will: Am Dienstag, den 15.2., und Mittwoch, den 16.2., ist er im Haus der Springmaus in Bonn zu Gast.

Saturday, 12 February 2005

Gerhard Richter exhibition in Düsseldorf

Filed under: — Sebastian Kirsch @ 14:05

A Gerhard Richter exhibition opens today in Düsseldorf at the Kunstsammlung Nordrhein-Westfalen. The exhibition is open till May 16th.

AuthImage: CAPTCHA! Gotcha!

Filed under: — Sebastian Kirsch @ 13:55

I added CAPTCHA support to my blog now, to curb blog spam. A CAPTCHA is a kind of reverse turing test: It is intended to allow humans to access a certain function, but keep out automated programs. (For example programs that deposit spam in the comments section of a blog.) Nowadays, this is usually done with an image that contains a short word, or a some characters, but twisted, distorted and with a distracting background. This is an attempt to foil OCR (optical character recognition) programs.

I used the AuthImage plugin for Wordpress, by Gudlyf. The installation was relatively straight-forward, but I had to make a couple of changes:

  • authimage-inc/image.veriword.php: This file used the tag <? to introduce PHP sections instead of the more common <?php; this prevented my web server from processing it properly.
  • authimage-inc/class.veriword.php: I added cache control headers to the outputImage method to prevent caching of the image.
  • The README.txt file mentions wp-comments.php and wp-comments-popup.php as places where to add the CAPTCHA section, but forgets wp-comments-reply.php.

I also added a short explanatory text, explaining how to get a new image if you can’t decipher the current image, and that a comment with the wrong code will still appear on the web site, it may simply take a while. This way, people who enter the right code get instant gratification, and those who can’t decipher the image will still get their comment posted. (And the CAPTCHAs from this system can be really hard.)

A short anecdote from the history of CAPTCHAs: A couple of years ago, German email provider web.de had a free SMS gateway. They tried to limit abuse of this system by providing a simple CAPTCHA: An image with a word (without distortion or background noise) that one had to enter in order to send the SMS. It turned out that this system could be defeated with a 60-line shell script, using lynx and the free OCR system gocr. The complete details are here.

Still more of the same theme

Filed under: — Sebastian Kirsch @ 00:54

Three weeks ago, I remarked that all the books I was reading at that time seemed to be about mental illnesses.

Well, I went to the bookstore today to pick up a few novels. I had just finished my seminar and felt in the mood for buying some light reading to distract myself. And promptly, I gravitated towards The Curious Incident of the Dog in the Night-Time by Mark Haddon. After finding out that the protagonist is suffering from Asperger’s syndrome (which is a mild form of autism), I put it down again – and picked up Will Self’s Dr. Mukti. Reading something about psychoses on the cover, I put that one back as well.

And I already have Andy Behrman’s Electroboy on my amazon wishlist, which is about manic depression. (Behrman has also been nicknamed “the real American Psycho".)

As this theme of mental illnesses keeps reoccurring, perhaps I should just give in and reserve one bookself for my “psychotic department". And try to read the books one after the other, just not four of them at the same time.

What did I buy in the end? I did find something lighter: The Well of Lost Words by Jasper Fforde. My bookstore was offering a pack of three of Fforde’s books for €14.80, but I chickened out and bought just one of them. That probably means that I’ll pay more for the other two …

Friday, 11 February 2005

Python string handling

Filed under: — Sebastian Kirsch @ 01:30

LUUSA runs the feed aggregator PlanetPlanet! on planet.luusa.org, which also subscribes to my weblog’s feed.

PlanetPlanet is written in Python, and we got bitten by some peculiarities in Python string handling, specifically the conversion between byte strings and unicode strings.

For some reason, it appears that the feed parser puts all parts of the content into byte strings (even if they contain unicode characters), but sometimes, very rarely, constructs unicode strings. These typically contain hyperlinks with, let’s say, “strange” URLs, for example URLs with query strings. In this case, it was the URL http://ithaka.ikp.uni-bonn.de/cgi-bin/lv/view.pl?lvNummer=3919&semDir=winter0405. I haven’t been able to identify the exact cause yet.

When it tries to merge the byte strings and the unicode strings, this error occurs and causes the offending feed to be ignored.

I found a very strange workaround for this problem: By converting all unicode strings to byte strings (unicodestring.encode("utf-8″)) and all byte strings to unicode (bytestring.decode("utf-8″, “ignore")), I was able to make the error disappear. I still don’t know what caused it, and why this method caused it to disappear.

Our version of PlanetPlanet uses feedparser.py 2.7.6 by Mark Pilgrim; the error occurs in the output method of the class BaseHTMLProcessor of feedparser.py. There’s a version 3.3 of feedparser on sourceforge; we’ll have to see whether it’s a drop-in replacement for our version, and whether it fixes the problem.

Mark Pilgrim, the author of feedparser, also has a few choice words to say about Python and unicode:

I had a flash of insight and suddenly the entirety of Python’s Unicode support became clear to me. I coded madly for several hours until it faded. It’s entirely possible that that’s just the LSD talking, but thanks to the magic of open source, everyone can now share in my good trip.

Thursday, 10 February 2005

Kern-Methoden zur Extraktion von Informationen II

Filed under: — Sebastian Kirsch @ 18:15

Ich habe heute meinen Vortrag beim Hauptseminar “Information Extraction” am Institut für Kommunikationsforschung gehalten. Die Folien sind auch schon online verfügbar.

Im Rückblick war es vielleicht etwas vermessen, Computerlinguisten die Grundlagen von maschinellem Lernen, Support Vector Machines, Kern-Methoden und Kernen auf strukturierten Daten in 45 Minuten erklären zu wollen. Ich hoffe jedoch, dass ich zumindest die Ideen dahinter einigermassen verständlich machen konnte – für alles andere gibt es die Ausarbeitung.

In den Gesprächen mit Kommilitonen nach dem Vortrag habe ich festgestellt, dass für die meisten Studenten maschinelles Lernen immer noch gleichbedeutend mit neuronalen Netzen ist. Es scheint einen fast religiösen Glauben in die Fähigkeiten von neuronalen Netzen zu geben: sobald wir nur genügend Neuronen simulieren könnten, würden die Maschinen auf magische Weise menschenähnliche kognitive Leistungen vollbringen können.

Dabei scheint vergessen zu werden, dass neuronale Netze im Grunde genommen nur “Hardware” sind – eine reines Berechnungsmodell, ähnlich Von-Neumann-Rechnern oder Turing-Maschinen. Was damit berechnet wird, ist eine Frage der “Software” – im Fall des neuronalen Netzes eine Frage der Gewichte und der Übergangscharakteristik der einzelnen Einheuten. Der Glaube daran, dass grössere neuronale Netze plötzlich kognitive Leistungen erbringen können, scheint mir deshalb ähnlich zu dem Glauben, dass Intel nur einen Prozessor bauen müsste, der schnell genug ist, und auf magische Weise würden die Programme, die wir darauf ausführen, plötzlich viel mehr Funktionen haben.

Das Problem liegt also vielmehr in der “Software” – der Hypothese, die unser Lernverfahren errechnet. In diesem Gebiet ist die Support Vector Machine meiner Meinung nach dem neuronalen Netz weit voraus: Ein klassisches neuronales Netz sucht mit Gradientenabstiegsverfahren eine Hypothese, die eine lokales Minimum der Fehlerfunktion darstellt. Über die Güte der Hypothese und über die Generalisierungsfähigkeit wird keine Aussage gemacht. Die Wahl der Hypothese bei einer Support Vector Machine ist dagegen aus der statistischen Lerntheorie motiviert; sie wird so gewählt, dass sie unter den Annahmen der statistischen Lerntheorie die beste Generalisierungsfähigkeit bietet.

Der einzige Vorteil des neuronalen Netzes – Transformation des Ursprungsproblems in einen hochdimensionalen Raum, wodurch dieses linear separierbar ist – ist durch den Einsatz von Kern-Methoden ebenfalls gegeben. Hier sind Kern-Methoden sogar flexibler, da sie mehr Möglichkeiten der Transformation bieten und auch in extrem hochdimensionalen Räumen noch gute Regularisierung bieten.

Konnektionistische Verfahren haben sicherlich ihren Platz; insbesondere vom Aspekt der Selbstorganisation sind sie sehr interessant und verdienen weitere Untersuchung. Im Bereich des maschinellen Lernens spricht jedoch viel für die weitere Forschung im Bereich Kern-Methoden und Large Margin Classifiers.

Tuesday, 08 February 2005

Guardian Unlimited on tag-based information sharing

Filed under: — Sebastian Kirsch @ 18:28

The Guardian has an article on tag-based information sharing under the title “Steal this bookmark!” (though I don’t know what tagging has to do with Abbie Hoffmann.) They write about del.icio.us, Flickr and 43 Things, as well as the tag-tracking studies by Technorati. They also make a good job of describing the problems with tags – namely, that they are a complete nightmare to AI researchers who try to fit the whole world into a carefully constructed, strictly hierarchical, redundancy-free and consistent semantic network. On the other hand, tags seem to work, whereas carefully constructed … etc. don’t.

Saturday, 05 February 2005

Main Hoon Na (Zutaten für einen Bollywood-Nachmittag)

Filed under: — Sebastian Kirsch @ 22:44

Nachdem die Bonner Kinemathek, das Programmkino in der Brotfabrik in Bonn-Beuel, letztes Jahr schon mit Bollywood-Filmen experimentiert hatte, wollen sie jetzt regelmässig aktuelle Streifen aus Indien zeigen.

Den Auftakt machte Main Hoon Na, letztes Jahr in Indien veröffentlicht, und natürlich, unvermeidlicherweise, mit Shah Rukh Khan in der Hauptrolle. Die Regie führte Farah Khan, die sonst eher als Choreographin in Bollywood in Erscheinung getreten ist.

Wie üblich ist der Film drei Stunden lang, was im westlichen Kino höchstens von der Herr-der-Ringe-Trilogie erreicht wird, im indischen Kino aber absolut normal ist. Dies gibt den Produzenten genügend Zeit, so ziemlich jedes Genre unterzubringen: Action, Romanze, Drama, Komödie, und natürlich viel, viel Tanz und Gesang.

Für mich war das der erste Bollywood-Film mit signifikantem Action-Anteil; aber auch in diesen Passagen war man sich nicht zu schade, in einem Aufwasch sowohl das gesamte Hollywood-Actionkino als auch sich selbst kräftig auf die Schippe zu nehmen. Starke Anleihen an Mission Impossible und Matrix waren nicht zu übersehen, von zahlreichen Explosionen über Verfolgungsjagden mit Rikschas, vielen weissen Tauben, die unmotiviert durchs Bild flatterten, bis zu in der Luft schweben bleibenden Akteuren à la Matrix. In einer Szene kippt Shah Rukh Khan gar wie Neo hinten über und richtet sich danach wieder aus – um den Spucketropfen eines Charakters auszuweichen, der eine sehr feuchte Aussprache hat. Solche Szenen wurden im Kino mit lauten Rufen und Klatschen begrüsst.

Die Story ist wie immer relativ hanebüchen, deshalb lohnt es nicht, sie hier widerzugeben. Indische Filme leben von grossen Gefühlen, viel Tanz und Choreografie und grandiosen Bildern – dass das auf Kosten der Story geht, muss man eben verschmerzen.

Interessanterweise bildet der Kaschmir-Konflikt zwischen Indien und Pakistan diesmal den Hintergrund des Filmes: Ein General der indischen Armee startet Project Milaap, um 50 pakistanische Gefangene freizulassen. Ein Terrorist, dessen Sohn in Kaschmir getötet wurde, versucht dies zu verhindern und nimmt dazu die Tochter des Generals mitsamt ihrer gesamten Schule als Geisel. Nach der Geiselnahme einer Schule in Beslan im September 2004 fand ich diesen Teil der Story eher unpassend; ich nehme an, zum Zeitpunkt, an dem dieser Film gedreht wurde, konnte dies noch niemand wissen.

In der Pause wurde im Restaurant in der Brotfabrik noch indischen Speisen und Getränke gereicht – damit man auch genügend Kraft hatte, den zweiten Teil zu überstehen.

Alles in allem gutes Popcorn-Kino: Man geniesst es am besten, indem man seinen Verstand an der Kasse abgibt, einfach drei Stunden lang die Wirklichkeit vergisst und sich an den wunderbaren Bildern, der Action und den grossen Gefühlen erfreut. Kino fürs Herz und für die Augen.

Friday, 04 February 2005

Kern-Methoden zur Extraktion von Informationen

Filed under: — Sebastian Kirsch @ 11:17

Eine Vorabversion meiner Seminararbeit zum Thema “Kern-Methoden zur Extraktion von Informationen” ist jetzt verfügbar (PDF-Format).

Der Text versucht eine kurze Einführung in den Bereich maschinelles Lernen zu geben, mit besonderem Augenmerk auf Kern-Methoden, Support vector machines und Voted perceptron, sowie Kernfunktionen auf strukturierten Daten wie Bäumen. Ich habe versucht, die Beschreibungen praxisnah und nicht-technisch zu halten; so versuche ich, Computerlinguisten den Einstieg in dieses Thema zu erleichtern. Der praktische Teil stützt sich auf die Arbeiten von Dmitri Zelenko aus dem Jahre 2004 zu “relation extraction".

Den dazugehörigen Vortrag werde ich am 10.02.2005 im Blockseminar Information Extraction am Institut für Kommunikationsforschung und Phonetik der Uni Bonn halten.

Following

Filed under: — Sebastian Kirsch @ 11:01

I went to the cinema yesterday evening, to the sneak preview, and they were showing Following. It’s a film noir by Memento’s Christopher Nolan. A rather unusual movie, but the clues (70 minutes, thriller, rated R) made the choice clear; it had also been shown in Bremen (according to sneak.de) a few weeks ago. A friend tipped me off (thanks, Mira!), and so I won a t-shirt, because I was one of three people who correctly guessed the title.

And what about the movie itself? It was short, it was black and white, it was in English with German subtitles – better suited to my tastes than I’d expected. The storytelling was reminiscent of 21 Grams in that it was highly non-linear: The very first scene is set at the very end of the storyline, and the movie wraps up with the continuation of the first scene. In-between, the movie follows two different timelines with heavily interleaved scenes, and in the end one realizes that the one picked up where the other ends. The viewer is left to piece together the scenes and predict the course of the story from the hints.

Overall, it is a good movie. Shorter and more minimalistic than 21 Grams, but definitely worth seeing.

Tuesday, 01 February 2005

David Sedaris: Naked

Filed under: — Sebastian Kirsch @ 23:29

Another collection of essays, basically the same as “Me talk pretty one day”. Same comments apply. On the upside, I didn’t spend much time on this one.


Copyright © 1999--2004 Sebastian Marius Kirsch webmaster@sebastian-kirsch.org , all rights reserved.