Wie funktioniert der Turing-Test?

Auf meiner Suche nach Sinn und Bedeutung des Turing-Tests schaue ich mir in diesem Beitrag an, wie der Turing-Test funktioniert.
Was für Tests hat Alan Turing genau beschrieben? Welcher davon ist der „richtige“ Turing-Test? Was prüfen diese Tests eigentlich? Ist der Test eine Art „Beweis“ für die Intelligenz von Maschinen?

Was ist der Turing-Test?

Als „(Standard) Turing-Test“ wird ein bestimmter Test verstanden, bei dem eine Maschine versucht, in einer text-basierten Konversation, einen Menschen davon zu überzeugen, dass sie (die Maschine) ein Mensch und keine Maschine ist.

Standard Turing Test
„(Standard) Turing-Test“: Eine fragende Person unterhält sich mit einem Menschen und einer Maschine über Text-Nachrichten und muss am Ende entscheiden, wer Mensch ist und wer Maschine.

Es gibt allerdings auch andere Varianten des „Turing-Test“, zum Beispiel das sogenannte „Imitation Game“. Bei diesem konkurrieren ein Mann und eine Maschine darum, wer von beiden besser in der Lage ist, einen anderen Menschen davon zu überzeugen, in Wirklichkeit eine Frau zu sein.

Turing's Imitation Game
„Imitation Game“: Ein Fragender unterhält sich mit einem Mann und einer Frau (bzw. einer Maschine und einer Frau) und muss am Ende jeder Konversation entscheiden, wer von beiden die Frau ist. Wer schneidet besser ab, der Mann oder die Maschine?

Beide Varianten gehen auf einen 1950 veröffentlichten Artikel von Alan Turing zurück [1]Turing, Alan M. (1950): Computing machinery and intelligence. In: Mind 59 (236), S. 433–460.. Er setzte als Ausgangspunkt die Frage „Can machines think?“ („Können Maschinen denken.“). Rasch verwirft er im Artikel diese allzu schwammige Frage aber wieder und stellt statt dessen das „Imitation Game“ vor (aus dem später der „(Standard) Turing-Test“ hervorgehen sollte) um sich mit einem konkreten Experiment der Frage anzunähern. Der Artikel von Alan Turing ist sehr verständlich geschrieben und eine Lektüre absolut empfehlenswert (der Originaltext ist im Internet leicht zu finden).

Was zeigen die Varianten des Tests?

Was die oben genannten Tests auf jeden Fall nicht verlangen ist, dass die Maschine wie ein Mensch aussieht oder irgendwie dem Bild eines Menschen entspricht.

Die Maschine, die an diesem Test teilnehmen soll, muss aber in der Lage sein in menschlicher Sprache zu interagieren (Sprach-Eingabe, Sprach-Ausgabe; allerdings zunächst nur in Text-Form). Auch eine Art von Konversation muss die Maschine führen können. Damit entspricht diese Maschine recht genau dem, was man heute als „Chatbot“ bezeichnet. Mit ELIZA, dem ersten bekannten Chatbot, gewann der Test daher erstmals eine sehr praktische Dimension[2]Weizenbaum, Joseph (1966): ELIZA — a Computer Program for the Study of Natural Language Communication Between Man and Machine. In: Commun. ACM 9 (1), S. 36–45. DOI: 10.1145/365153.365168..

Beide Varianten von Turing’s Test bewerten das Verhalten einer Maschine im Gegensatz zu einem Menschen. Damit vermeidet Turing eine genauere Definition von „Denken“ oder „Intelligenz“. Man stellt stattdessen einfach eine Maschine einem Menschen direkt gegenüber und schaut wie beide abschneiden. Bloß, welche Fähigkeiten werden hier geprüft?

In beiden oben genannten Varianten soll die Maschine einen Menschen täuschen, also ganz offengesagt: belügen. Ist das wirklich ein Gradmesser für menschliche Intelligenz? Man kann aber auch sagen: die Maschine soll überzeugend an menschlicher, sozialer Interaktion teilnehmen, ein Gespräch führen wie ein Mensch. Damit kann ich schon mehr anfangen, denn soziale Interaktion unterscheidet für mich doch sehr deutlich Mensch von, sagen wir mal Katze oder Computer.

Im „(Standard) Turing-Test“ soll eine Maschine sich als Mensch ausgeben (und zwar mindestens so überzeugend wie ein Mensch das tun würde). Der Mensch im Test ist dagegen nicht herausgefordert – sie oder er soll sich hier normal verhalten.

Im „Imitation Game“ dagegen versucht nicht nur die Maschine zu täuschen, sondern auch der Mensch. Es wird also eine bestimmte Fähigkeit von Mensch und Maschine verglichen (wer kann besser lügen). Während beim „(Standard) Turing-Test“ also nur die Maschine herausgefordert ist, ihre Fähigkeit unter Beweis zu stellen, sind hier beide Seiten herausgefordert. Das „Imitation Game“, wie es von Turing vorgeschlagen wurde mag wenig praxisrelevant erscheinen (oder wann hast Du zum letzten Mal versucht als ein anderes Geschlecht durchzugehen?), aber es ist leicht vorstellbar, dass auch andere Fähigkeiten geprüft werden könnten.

Der schwierige „Intelligenz“-Begriff

Der Turing-Test wird von vielen als hinreichende, aber nicht notwendige Bedingung für menschliche Intelligenz betrachtet[3]Moor, James H. (1976): An analysis of the Turing test. In: Philosophical Studies 30 (4), S. 249–257.. Anders ausgedrückt: Wenn eine Maschine den Turing-Test besteht, soll dies ein gutes Indiz sein für menschenähnliche Intelligenz (hinreichende Bedingung). Es kann aber auch intelligente Maschinen geben, die den Test nicht bestehen können (nicht notwendige Bedingung).

Das Problem bei der Messung von menschlicher Intelligenz ist, dass man sie nicht als etwas eindimensionales betrachten kann, das sich beispielsweise mit einem einzigen IQ-Test messen ließe. Wie oben gesagt, vermeidet der Turing-Test eine quantitative Intelligenz-Messung dadurch, dass die Maschine einfach mit einem Menschen verglichen wird.

Vielleicht kann man dies ja als das „geniale“ am Vorschlag von Alan Turing beschreiben: Er schaffte ein operables (eindeutig prüfbares) Kriterium für Intelligenz von Maschinen, ohne allzu klar zu definieren, was Intelligenz eigentlich ist.

Diskussion des Turing-Tests

An dieser Stelle möchte ich mir ein (vorläufiges) Urteil erlauben. Für mich hat der Turing-Test (aus heutiger Perspektive) deutliche Schwächen. Mal ein paar Beispiele:

  • Turing hat den Test bleibt an vielen Stellen in seinem Artikel vage. Der genaue Ablauf des Tests bleibt reichlich unklar. Wie lange soll eine Unterhaltung dauern, bis entschieden wird ob der Test erfolgreich bewältigt wurde? Wie viele Tests müssen bestanden werden (ein einzelner bestandener Teste könnte ja ein Ausreisser sein)? Was sind Anforderungen an die fragende Person?
  • Der Test misst die Fähigkeit einer Maschine zu lügen. Das empfinde ich als zweifelhaften Gradmesser. Vielmehr erwarte ich von einer „Intelligenz“ die Fähigkeit zu Kooperation und auch moralische Qualitäten. Die Fähigkeit zu lügen steht dem eher entgegen (wenn ich auch zugebe, dass die Fähigkeit zur Täuschung eine Facette von Intelligenz sein kann).
  • Selbst die hochentwickeltsten Chatbots von heute sind immer noch erstaunlich dumm – nur weil sie gut Small-Talk können, werde ich ihnen kaum Intelligenz zusprechen.
  • Wir reden heute über viele verschiedene Arten von sogenannter „künstlicher Intelligenz“. Diese ist in der Anwendung in vielen Bereichen des Lebens bereits stark integriert. Da erscheint mir ein 70 Jahre alter „Turing-Test“ zunehmend aus der Zeit gefallen.

Das ist nur meine persönliche Meinung.
Wie aber wurde der Turing-Test in der Fachwelt diskutiert? Ist der Test dort noch aktuell? Wie nützlich war und ist der Test? Dazu schaue ich mir einige Publikationen zum Turing-Test an und beschreibe in einem Folgeartikel, wie sich die Diskussion über den Turing-Test in der Fachwelt entwickelt hat.

Titelbild: Robert Anderson (Unsplash)

References

References
1 Turing, Alan M. (1950): Computing machinery and intelligence. In: Mind 59 (236), S. 433–460.
2 Weizenbaum, Joseph (1966): ELIZA — a Computer Program for the Study of Natural Language Communication Between Man and Machine. In: Commun. ACM 9 (1), S. 36–45. DOI: 10.1145/365153.365168.
3 Moor, James H. (1976): An analysis of the Turing test. In: Philosophical Studies 30 (4), S. 249–257.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert