Zusammenfassung - Universität Ulm

January 14, 2018 | Author: Anonymous | Category: Kunst & Geisteswissenschaften, Schreiben, Grammatik

Short Description

Download Zusammenfassung - Universität Ulm...

Description

Neuronal Grammar Phillipp Hehrmann [email protected]

Stefan Scherer [email protected]

Fakulta¨t fu ¨r Informatik Universität Ulm

Zusammenfassung Es wird ein neurowissenschaftlich motiviertes Modell der menschlichen Sprachverarbeitung vorgestellt. Functional Webs, speziell organisierte Verb¨ unde von Neuronen, werden als grundlegende funktionale Einheit der Informationsrepr¨ asentation und -verarbeitung im Gehirn vorgestellt. Aus verschiedenen, spezialisierten Formen von Functional Webs wie etwa Word Webs zu Repr¨ asentation von Worten oder Sequence Sets zur Erkennung von Wortfolgen wird schließlich ein Modell zusammengesetzt, welches – abseits der Pfade gängiger, linguistischer Syntax-Theorien – das Verst¨ andnis komplexer grammatikalischer Abh¨ angigkeiten erm¨ oglichen k¨ onnte.

8. Februar 2005

Inhaltsverzeichnis 1

Grundlegende Syntax

4

1.1

Ersetzungsregeln

4

1.2

Zentrale Einbettung

5

1.3

Diskontinuierliche Satzbestandteile und verteilte W¨ orter

6

1.4

Abhängigkeitsgrammatiken

7

1.5

Fragen zu einer neuronalen Grammatik

8

2

Grundlagen zur Sprachverarbeitung im Gehirn

8

2.1

Modellierung von Nervenzellen

9

2.1.1

Nat¨ urliche Neurone

9

2.1.2

K¨ unstliche Neuronenmodelle

2.2

2.3

11

Worte im Gehirn

13

2.2.1

Die Topologie des Kortex

13

2.2.2

Functional Webs

16

2.2.3

Word Webs

19

Neuronale Mechanismen zur Repr¨ asentation serieller Ordnung

21

2.3.1

¨ Grundsätzliche Uberlegungen anhand k¨ unstlicher Neurone

21

2.3.2

Synfire Chains

24

2.3.3

Neuronale Sequenzdetektoren

26

3

Neuronale Grammatik

28

3.1

Erregungszustände von funktionellen Netzen

28

3.2

Neuronale Sets

29

3.3

Schwellwertkontrolle

30

3.4

Sequenzdetektion in Netzwerken von neuronalen Sets

31

3.5

Sequenzerkennung

31

2

3.6

Lexikale Kategorien in neuronalen Sets

33

3.6.1

Warum lexikale Kategorien?

33

3.6.2

Lexikale Kategorien als Mengen von Sequenz-Sets

33

3.6.3

Lexikale Unterscheidungen durch Sequenz-Sets

34

3.6.4

Anforderungen an eine neuronale ’Grammar Machine’

34

Literatur

35

3

1

Grundlegende Syntax

In diesem Kapitel wird dargestellt, wie man Sprache auf formale Weise definieren kann. Es werden die so genannten Phrasenstruktur-Grammatiken 1 und die Abhängigkeitsgrammatiken behandelt. Außerdem geht dieses Kapitel darauf ein, welche Beschränkungen es bez¨ uglich Sprachen bei neuronalen Netzen gibt und was neuronale Netze bieten, was formalen Grammatiken fehlt.

1.1 Ersetzungsregeln Eine einfache Methode um eine formale Syntax zu definieren sind die Ersetzungsregeln 2 . Eine Ersetzungsregel ist eine Formel, die ausdr¨ uckt, dass etwas ersetzt werden kann durch etwas anderes. Eine Menge solcher Regeln wird auch als Phrasenstruktur-Grammatik bezeichnet, wenn auf der linken Seite des Pfeils immer nur ein Symbol und auf der rechten beliebig viele stehen, wird diese Grammatik auch als kontextfreie Grammatik bezeichnet. Der Pfeil x → y kann so gelesen werden: x wird ersetzt durch y, was auch den Namen der Regeln erläutert. Eine Menge solcher Regeln wird nun als Grammatik bezeichnet. Diese Grammatik hat die Einschränkung, dass sie die Bedeutung von Wörtern völlig außer Acht lässt und nur auf die Syntax achtet. Nun folgt ein Beispiel einer solchen Grammatik. In diesem Beispiel werden einige Abk¨ urzungen bzw. Symbole benutzt, die f¨ ur gewisse syntaktische Kategorien stehen. S bezeichnet das Startsymbol, NP die Nominalphrase, VP die Verbalphrase, Det ist der Artikel und V das Verb. Ausdr¨ ucke in runden Klammern sind nicht obligatorisch und Ausdr¨ ucke in geschweiften Klammern sind dann die eigentlichen Wörter im Satz. (1) (2) (3) (4) (5) (6)

S → NP VP NP → (Det) N N → V (NP) N → {Betty, machine} V → {laughs, cleans, switches} Det → {the, a}

Mit dieser kleinen Grammatik können sowohl sinnvolle als auch unsinnige Sätze gebildet werden, die aber vom syntaktischen Aspekt betrachtet durchaus richtig sind: (1) Betty cleans the machine. (2) The Betty laughs machine. 1 2

Phrase structure grammars Rewriting rules

4

Zu diesem Zeitpunkt könnte man sich eigentlich fragen, ob ein neuronales Netz, das eine neuronale Grammatik 3 beinhaltet, nicht gleichermaßen wie eine solche Phrasenstruktur-Grammatik fähig ist, dieses Problem zu lösen. Das folgende Teilkapitel wird jedoch zeigen, dass dem nicht so ist.

1.2 Zentrale Einbettung

Der Vorteil, den kontextfreie Grammatiken besitzen, ist, dass die Regeln rekursiv anwendbar sind und so Sätze gebildet werden können, die syntaktisch korrekt und sehr komplex sind. Es wurde bewiesen[2], dass neuronale Netze äquivalent zu regulären Grammatiken sind, die jedoch nicht so mächtig sind wie kontextfreie. Kontextfreie Grammatiken ermöglichen es Sätze zu bilden, in denen andere Sätze eingebettet sind. Diese Einbettung von Sätzen wird auch zentrale Einbettung 4 genannt. Nun folgen zwei Beispiele solcher Sätze 5 : (1) The rat (the cat (the dog chased) killed) ate the malt. (2) Anyone (1 who feels (2 that (3 if so many more students (4 whom we haven’t actually admitted )4 are sitting in on the course (4 than ones we have )4 (4 that the room had to be changed )4 )3 then probably auditors will have to be excluded )2 )1 is likely to agree that the curriculum needs revision. Was diese Beispiele jedoch auch zeigen, dass es wahrscheinlich gar nicht nötig ist, dass man unendlich komplexes bzw. tiefes zentrales Einbetten von Sätzen in einer neuronalen Grammatik ermöglichen muss, um Sprache sinnvoll verstehen zu können, da das menschliche Gehirn es auch nicht ohne Hilfe und langes Nachdenken schafft, vor allem den zweiten Beispielsatz zu verstehen. Es scheint also irgendwo eine Art Grenze der verständlichen Komplexität zu geben. Diese Grenze wurde von einigen Wissenschaftlern bei drei eingebetteten Sätzen festgelegt[3]. Um einen Satz wie den ersten Beispielsatz sprechen zu können, ist es nötig im Speicher bzw. im Gehirn die Information des bereits Gesprochenen zu behalten und zwar Reihenfolge und fehlende Teile. Kontextfreie Grammatiken sind dazu in der Lage, da bewiesen wurde, dass sie äquivalent zu einem Kellerautomaten, der unendlich viel Speicherplatz besitzt, sind. Dieser Automat funktioniert nach dem first-in last-out Prinzip und speichert so ein ’Spiegelbild’ des bereits Gesprochenen. Der Satz ist dann fertig, wenn der Speicher wieder leer ist. 3

Neuronal grammar Center embedding 5 Die Klammern wurden zur Verdeutlichung des Einbettens und zur Vereinfachung des Verständnisses eingef¨ ugt 4

5

Da es in vielen Sprachen vorkommt, dass zentral eingebettete Sätze benutzt werden, muss man neuronale Netze anpassen und verändern, um dieser Begebenheit gerecht zu werden. Eine Möglichkeit, die Tatsache, dass ein neuronales Netz mit endlich vielen Neuronen nur endlich viele Zustände besitzt zu umgehen, wäre z.B. ein Wachstum des Netzes zu erlauben[4]. Dieses Wachstum ist jedoch nicht unbedingt sehr realistisch, wenn man interne Prozesse des Gehirns beschreiben will, da ein unendliches Wachstum des Gehirns alleine durch den Schädelknochen beschränkt ist. Wie schon gesagt, ist dies aber auch nicht unbedingt nötig, da Sprache nur bis zu einer gewissen Komplexität verständlich ist.

1.3 Diskontinuierliche Satzbestandteile und verteilte Wörter Die vorher definierte Grammatik besteht aus sechs Ersetzungsregeln, die alle nicht eine relativ häufig auftretende grammatikalische Besonderheit beschreiben. Diese Besonderheit wird auch ein verteiltes Wort 6 genannt. ’Betty switches the machine on.’ ist ein Beispiel f¨ ur dies. Es m¨ usste mindestens eine Regel verändert werden um dem verteilten Wort ’switches ... on’ gerecht zu werden. (1) VP → V (NP) (on) ¨ Diskontinuierliche Satzbestandteile 7 sind ein Uberbegriff f¨ ur solche verteilten Wörter, die grammatikalisch gesehen eng miteinander verbunden sind, jedoch in geschriebener Sprache durch den Raum bzw. in gesprochener Sprache durch die Zeit getrennt sind. Die Problematik besteht darin, dass dieser Abstand unterschiedlich lange sein kann, wie folgende Beispiele zeigen: (1) Betty switched it on. (2) Betty switched the coffee machine on. (3) Betty switched the nice brown coffee machine on. Um nun solche Sätze produzieren bzw. verstehen zu können, muss man Informationen u ¨ber die vorherigen Wörter speichern und das u ¨ber einen unbestimmten Zeitraum. Eine weitere Schwierigkeit besteht darin, dass Wörter wie ’switch’ und ’switch ... on’ zwar den selben Wortstamm teilen jedoch eine völlig unterschiedliche Bedeutung besitzen, d.h. also, dass die Bedeutung des Wortes möglicherweise erst am Ende des Satzes eindeutig bestimmt werden kann. Eine Grammatik wie: 6 7

Distributed word Discontinuous constituents

6

(1) (2) (3) (4)

a→Ab b → switches c c→Bd d → C (on),

ermöglicht es zwar, das verteilte Wort ’switches ... on’ zu schreiben, ist jedoch nicht korrekt im eigentlichen Sinne, da in (2) schon entschieden werden muss, welches der beiden wortstammgleichen Wörter gewählt wird. Um dies zu lösen, wurde vorgeschlagen die Wörter genauer zu unterscheiden und mehr lexikale Untergruppen zu benutzen, wie z.B. ’switch ... on’ in die Gruppe der transitiven Verben mit Partikel zu stecken und das Wort ’switch’ in die Gruppe der transitiven Verben ohne Partikel. Eine Grammatik, die das ber¨ ucksichtigt wäre z.B.: (1) (2) (3) (4) (5) (6)

b → switches1 c1 c1 → B d1 d1 → C on b → switches2 c2 c2 → B d2 d2 → C

Hierbei wird sichergestellt, dass falls ’switches1 ’ gewählt wird, der Partikel ’on’ am Ende gesetzt werden muss. Ein Nachteil dieser Lösung f¨ ur das Problem der diskontinuierlichen Satzbestandteile ist jedoch die höhere Komplexität der Grammatik: Wenn angenommen wird, dass die Zahl der diskontinuierlichen Satzbestandteile n ist, dann w¨ urde die Zahl der Ersetzungsregeln mit 2n erhöht werden.

1.4 Abhängigkeitsgrammatiken Ein anderer Ansatz, um Grammatiken zu beschreiben, ist, Wörter in ihre lexikalen Kategorien einzuteilen und sie in Abhängigkeiten zu ihren Komplementen - die notwendigen Zusätze f¨ ur diese Wörter - zu stellen. Solche Abhängigkeitsgrammatiken 8 können mit Abhängigkeitsregeln beschrieben werden, deren Notation folgendermaßen erfolgt: Auf der linken Seite einer runden Klammer steht die Kategorie des Wortes, das gerade behandelt wird. In den Klammern befindet sich ein Stern-Symbol /*/, welches den Platz des aktuellen Wortes besetzt. Links davon stehen eine bzw. mehrere abhängige lexikale Kategorien, die im Satz zeitlich bzw. räumlich vor dem aktuellen Wort stehen und analog hierzu stehen auf der rechten Seite eine bzw. mehrere lexikale Kategorien, die danach auftreten. Eine Beispielgrammatik wäre nun: 8

Dependency grammars

7

(1) (2) (3) (4) (5) (6) (7) (8) (9) (10)

V14par (N1 /*/ N4 Par) V14 (N1 /*/ N4) V1 (N1 /*/) N1 ((Det) /*/) N4 ((Det) /*/) V14par {switches} V14 {cleans} V1 {laughs} V14par {Betty, machine} Par {on},

wobei V14par ein transitives Verb mit Partikel, V14 ein transitives Verb, V1 ein intransitives Verb, N1 ein Nomen im Nominativ, N4 ein Nomen im Akkusativ und Par einen Partikel bezeichnen. Beispielsätze, die mit dieser Grammatik gebildet werden können, sind: (1) Betty cleans the machine. V14 (N1 /*/ N4 (Det /*/)) (2) Betty switched the machine on. V14par (N1 /*/ N4 (Det /*/) Par) 1.5 Fragen zu einer neuronalen Grammatik Nachdem nun gezeigt wurde, wie man mit formalen Grammatiken diverse Begebenheiten verschiedener Sprachen lösen kann stellen sich nun einige sehr bedeutende Fragen zu neuronalen Grammatiken: (1) Wie lässt sich die zentrale Einbettung realisieren bzw. wie kann kann man solche Sätze repräsentieren? (2) Wie können diskontinuierliche Satzbestandteile bzw. verteilte Wörter realisiert werden? (3) Wie kann der wiederholte Gebrauch ein und desselben Wortes in einem Satz gespeichert werden? (4) Wie können lexikale Kategorien repräsentiert werden? Zu all diesen Fragen versuchen wir in den folgenden Kapiteln Antworten bzw. Lösungsvorschläge zu finden.

2

Grundlagen zur Sprachverarbeitung im Gehirn

In diesem Abschnitt werden – ausgehend von neurophysiologischen Beobachtungen – mögliche Modelle zur Repräsentation und Verarbeitung von Infor8

mationen und Strukturen vorgestellt, wie beim Verständnis und bei der Produktion nat¨ urlicher Sprache auftreten. Zunächst wird ein vereinfachtes Neuro¨ nenmodell vorgestellt, das die Grundlage aller weiteren Uberlegungen bildet. Im zweiten Abschnitt wird diskutiert, wie Wörter und ihre Semantik im Gehirn repräsentiert werden könnten. Zuletzt werden wir einige Mechanismen betrachten, die darauf aufbauend das Verständnis grammatikalischer Strukturen ermöglichen. Der Schwerpunkt liegt auf einer konzeptuellen Darstellung, die die Entwicklung eines konkreten Modells in Abschnitt 3 vorbereiten und als dessen biologische Rechtfertigung dienen soll. 2.1 Modellierung von Nervenzellen 2.1.1 Nat¨ urliche Neurone Hauptinformationsträger und -prozessor des menschlichen Gehirns sind Neurone – grob geschätzt 1011 dieser hochspezialisierten Zellen beinhaltet unser Zentralnervensystem. Zwar finden sich in unserem Nervensystem daneben auch noch andere Zelltypen wie etwa Glia-Zellen (Astrozyten, Schwann’sche Zellen u.a.). Jedoch dienen diese heutigem Wissen nach vor allem der Aufrechterhaltung des Stoffwechselhaushalts sowie als mechanisches St¨ utzger¨ ust der informationsverarbeitenden Nervenzellen.

A.

B. Abbildung 1. A. Schematische Darstellung eines Neurons (nach [8]). B. Synaptische Kontakte (aus [6])

9

¨ Spezialisiert sind Neurone hinsichtlich der Erzeugung und Ubertragung elektrischer Impulse in Reaktion auf elektrochemische Reize aus ihrer Umgebung. Abbildung 1 zeigt vereinfacht die Anatomie einer solchen Zelle. Zur Aufnahme externer Reize dienen dem Neuron die Dendriten, ein oftmals baumartig verzweigter Zellauswuchs bestehend aus Nervenfasern. Die Erzeugung eines eigenen Reizimpulses (Aktionspotenzials) erfolgt – unter bestimmten Bedin¨ gungen, s.u. – am Axonh¨ ugel, dem Ubergang zwischen Zellkörper (Soma) und Axon. Das Axon ist ein weiterer, faserartiger Auswuchs der Zelle, welcher der ¨ Ubertragung der am Axonh¨ ugel erzeugten Aktionspotenziale an andere Neurone dient. Die Impulsleitung erfolgt je nach Zelltyp mit Geschwindigkeiten zwischen 1 und 100 m/s. Auch das Axon ist oftmals stark verzweigt. Am Ende eines jeden Astes befindet sich eine Kontaktstelle zu einer dendritischen Faser eines weiteren Neurons. An diesen sog. Synapsen können elektrische Impulse von Zelle zu Zelle u ¨bertragen werden: bei Eintreffen eines präsynaptischen (axonalen) Impulses werden chemische Botenstoffe – sog. Neurotransmitter – freigesetzt. Durch spezifische Rezeptoren kann die postsynaptischen Zelle nun auf den Impuls reagieren. Das Eintreffen eines chemischen Reizes beeinflusst die Wahrscheinlichkeit, mit der am postsynaptischen Dendrit wiederum ein elektrischer Impuls erzeugt wird, der dann entlang der dendritische Faser bis zum Zellkörper der postsynaptische Zelle wandert. Erhöhen die Impulse an einer Synapse die Wahrscheinlichkeit einer postsynaptischen Impulserzeugung, so nennt man die Synapse erregend oder exzitatorisch. Verringert sie hingegen die Wahrscheinlichkeit, so spricht man von einer hemmenden oder auch inhibitorischen Synapse. Die Bedingung f¨ ur die Erzeugung eines Impulses am Axonh¨ ugel schließlich ist das gleichzeitige Eintreffen ausreichend vieler Impulse aus den Dendriten der Zelle. Wird hierbei eine bestimmt Schwelle u ¨berschritten, so feuert die Zelle und der Impuls wandert entlang des Axons zu den Dendriten weiterer Zellen und so weiter und so fort. Soweit ist das Funktionsprinzip einer einzelnen Nervenzelle – trotz aller hässlichen, biochemischen Details, versteht sich – vergleichsweise einfach. Die große Leistungsfähigkeit unseres Nervensystems entsteht aus dem hohen Vernetzungsgrad der Neurone untereinander: jede der 1011 Zellen steht mittels synaptischer Verbindungen in Kontakt mit durchschnittlich 1.000–10.000 weiteren Zellen. Dabei entstehen zahllose R¨ uckkopplungsschleifen, fernerhin sind die Einflussstärken der Zellen aufeinander variabel. Eine zentrale Frage ist daher die nach den Mechanismen neuronaler Plastizität, d.h. nach welchen Regeln sich die Verbindungsstärken zwischen einzelnen Neuronen im Laufe der Zeit verändern. Obwohl die Details dieser Vorgänge auch heute noch teilweise unklar sind, so scheint sich doch die fr¨ uhe Hypothese des amerikanischen Psychologen Donald Hebb prinzipiell bestätigt zu haben: Wenn ein Axon der Zelle A einer Zelle B nahe genug ist, diese zu erregen und sich wiederholt und dauerhaft an deren Impulserzeugung beteiligt, so geschieht ein Wachstumsprozess oder eine metabolische Veränderung in ei10

ner oder beiden Zellen, wodurch sich die Effizienz von A bez¨ uglich ihrer Wirkung auf B erhöht. D. Hebb, 1949 Besteht also eine hohe, positive Korrelation zwischen der Aktivität von Zelle A und Zelle B, so wird die Verbindung der beiden langfristig Verstärkt. Dieser Prozess wird auch als long-term potentiation, kurz: LTP, bezeichnet. Dar¨ uber hinaus hat man durch Zellstimulationsexperimente auch noch einen gegenteiligen Prozess festgestellt: besteht keine oder nur geringe Korrelation zwischen der Aktivität von A und B, so nimmt die Verbindungsstärke ab. Man spricht hierbei analog von LTD, long-term depression, oder auch anti-Hebb´schem Lernen. Da die Feuerfrequenz einer Zelle nie negativ ist, gilt die Hebb‘sche Regel in dieser Formulierung allerdings höchstens f¨ ur erregende Synapsen. Zwar ließe sich die Regel problemlos f¨ ur hemmende Synapsen umformulieren. Die Faktenlage ist jedoch in diesem Fall spärlicher und weit weniger eindeutig([11]), so dass eine solche Behauptung aus neurophysiologischer Sicht noch nicht ausreichend gest¨ utzt wäre.

2.1.2 K¨ unstliche Neuronenmodelle Bei näherer Betrachtung liegen der neuronalen Reizleitung – im vorigen Abschnitt weitestgehend u ¨bergangen – komplexe bio- und elektrochemische Prozesse zu Grunde. Zwar sind biologisch realistische mathematische Beschreibungen dieser Prozesse bekannt. Will man aber das Verhalten eines Neurons auf diese Weise simulieren, so kommt man nicht umhin, ein verschachteltes System von Differentialgleichungen zu berechnen – der Rechenaufwand u ¨berschreitet bei wachsender Anzahl zu simulierender Neurone schnell die Grenzen des Machbaren. Daher sind vereinfachte Modelle notwendig, die die Simulation einer großen Anzahl von Neuronen erlauben. Das älteste dieser abstrakten Neuronenmodelle ist die McCulloch-Pitts-Zelle. Eine solche Zelle hat n binäre Eingangsleitungen x = x1 . . . xn (entsprechend den Dendriten) sowie einen ebenfalls binären Ausgang (analog zum Axon), dessen Wert sich als Funktion f (x) der Eingänge berechnet. Des weiteren ist jeder Eingang mit +1 oder −1 gewichtet (entsprechend erregenden und hemmenden Synapsen), zusammengefasst als bipolarer Gewichtsvektor w = w1 . . . wn . Zur Berechnung der ¨ Ausgabe werden die gewichteten Eingangssignale summiert. Uberschreitet die Summe einen bestimmten Schwellwert θ ∈ R, so ist die Ausgabe 1, andernfalls 0. Es ist also

f (x) =

   1,   0,

falls

Pn

i=1

w i xi ≥ θ sonst 11

(1)

Abbildung 2 zeigt beispielhaft McCulloch-Pitts-Zellen f¨ ur die booleschen Funktionen UND, ODER und NICHT. Offenbar kann man diese genau wie herkömmliche logische Gatter parallel und in Reihe schalten und so jede beliebige boolesche Funktion berechnen – auch wenn ein einzelnes Neuron nur linear trennbare Funktionen berechnen kann. Lässt man – im Gegensatz zu reinen

Abbildung 2. UND, ODER und NICHT Neurone

Feed-Forward-Architekturen – R¨ uckkopplungsschleifen zu, so existiert zu jeder regulären Sprache ein McCulloch-Pitts-Netz, welches diese erkennt. Genauer gesagt sind McCulloch-Pitts-Netze (mit endlicher Neuronenzahl) und endliche Automaten als Berechenbarkeitsmodell genau gleich mächtig. Die Mächtigkeit des McCulloch–Pitts–Modells ändert sich auch dann nicht, wenn man als Gewichte wi anstelle von ±1 beliebige reelle Zahlen zulässt. Abbildung 3 demonstriert, wie sich ein Neuron mit reellwertigen Gewichten in ein äquivalentes Neuron mit bipolaren Gewichten umwandeln lässt. In Anbetracht der Dis-

¨ Abbildung 3. Uberf¨ uhrung reeller in bipolare Gewichte

kussion um Hebbs Regel in Abschnitt 2.1.1 ist es jedoch offensichtlich, dass ohne eine derartige Erweiterung des Gewichtsvektors eine biologisch plausible Modellierung synaptischer Plastizität nicht gelingen kann. Auch hat sich neben der hier vorgestellten, binären Schwellwertfunktion eine Vielzahl anderer Ausgabefunktionen eingeb¨ urgert, darunter beispielsweise die Sigmoide x 7→

1 1 + e−x

(2)

oder lineare Funktionen mit Schwellwert (siehe Abb. 4): x 7→

   c(x − θ), falls x ≥ θ   0,

(3)

sonst

Dadurch ändert sich auch die Interpretation des Ausgabewertes in Bezug auf den Aktivitätszustand des Neurons. Anstelle einzelner Impulse repräsentiert 12

Abbildung 4. verschiedene neuronale Ausgabefunktionen: A. Bin¨ ar mit Schwellwert, B. Sigmoid, C. Linear mit Schwellwert (aus [7])

der Ausgabewert bei diesen Funktionen vielmehr die Impulsfrequenz, gemittelt u ¨ber einen gewissen Zeitraum – im Falle der Sigmoiden zusätzlich normiert, wobei ein Ausgabewert von 1 der maximalen Feuerfrequenz der Zelle entspräche, unabhängig von deren absolutem Wert. Der Vollständigkeit halber sei an dieser Stelle noch angedeutet, wie Hebb’sches (LTP) und anti-Hebb’sches (LTD) Lernen auf k¨ unstliche Neuronen u ¨bertragen werden kann (vgl. Anschnitt 2.1.1) . Eine einfache Form von LTP lässt sich folgendermaßen formulieren: Sei wij ∈ R das Gewicht der Verbindung von Neuron i zu j, und seien ai und aj deren Aktivität zum Zeitpunkt des Lernschrittes. Dann beträgt die Veränderung des Gewichtes ∆wij = ηai aj ,

(4)

mit Lernrate η. Da ai und aj in natura immer positiv sind (und auch bei allen hier vorgestellten Ausgabefunktionen), kann wij nur ständig größer werden. Ausgekl¨ ugeltere Lernregeln ermöglichen sowohl LTP als auch LTD, auch bei rein positiven Ausgabefunktionen. Beispiele hierf¨ ur sind u.a. Sejnowskis Kovarianz-Regel, Ojas Regel oder die BCM-Regel, siehe [5] f¨ ur einen umfas¨ senden Uberblick. 2.2 Worte im Gehirn 2.2.1 Die Topologie des Kortex Der f¨ ur Sprachproduktion und -verständnis entscheidende Teil des Gehirns ist elektrophysiologische, bildgebenden sowie Läsionsstudien zufolge die Rinde des Großhirn, der cerebrale Kortex. Daneben ermöglicht der Kortex noch zahlreiche weitere Formen höheren Denkens“ wie z.B. alle Formen bewusster ” sinnlicher Wahrnehmung und bewussten Handelns sowie Lang- und Kurzzeitgedächtnis. Der Kortex ist in zwei Hälften (Hemisphären) geteilt, die nur u ¨ber die Nervenfasern des sog. Balkens (Corpus callosum) miteinander verbunden sind. Dabei ist eine der beiden Hemisphären – bei ca. 90% der Menschen die 13

Abbildung 5. Die vier Lappen des Großhirns sowie die prim¨ are Areale des motorischen, somatosensorischen, visuellen und auditorischen Kortex

linke – bei der Sprachverarbeitung stärker beteiligt als die andere. Erstere wird als die dominante Hemisphere bezeichnet. Ausgebreitet beträgt die Fläche der Großhirnrinde etwa 0.2m2 . Notwendigerweise ist sie daher stark gefaltet und gliedert sich in vier von Furchen (Sulci ) und Windungen (Gyri ) durchzogene Lappen. Aufgrund genauer Betrachtung der neuroanatomischer Eigenschaften lassen sich pro Hemisphere rund 50 verschiedene Areale unterscheiden. Leicht auszumachen sind z.B. der primäre motorische Kortex und der primäre somatosensorische Kortex unmittelbar vor bzw. hinter der Zentralfurche (siehe Abb. 5). Beide dieser Areale sind topographische Karten des Körpers - benachbarte Köperregionen werden abgebildet auch benachbarte Verb¨ unde von Nervenzellen. Aktivität im motorischen Kortex ruft Muskelkontraktionen in der entsprechenden Körperregion hervor, während Aktivität im somatosensorischen Kortex Ber¨ uhrungs- oder Schmerzwahrnehmungen aus der entsprechenden Region erzeugt – auch wenn diese gar nicht durch einen tatsächlichen Ber¨ uhrungsreiz hervorgerufen wurde. Abb. 6 zeigt beispielsweise die Abbildung der Körperoberfläche auf den motorischen Kortex, die Abbildung des somatosensorischen Kortex sieht dieser weitgehend ähnlich. Es ist erkennbar, dass sich die sprachrelevanten Muskelgruppen (Gesicht, Kehle, Zunge) am unteren Ende des motorischen u. sensorischen Kortex wiederfinden. Damit liegen sie u.a. in direkter Nachbarschaft zum primären und sekundären auditorischen Kortex (siehe Abb. 5), ungefähr da, wo die Zentralfurche auf die Sylvische Furche trifft. Zum Verständnis der neuronalen Verbindungsstruktur zwischen und innerhalb der einzelnen Hirnareale ist es sinnvoll, sich zunächst eine anatomische Besonderheit der kortikalen Neurone vor Augen zu f¨ uhren. Der häufigste Neuronentyp im Kortex ist mit einem Anteil von ca. 80% die Pyramidenzelle ([9]). Deren dendritischer Baum ist zweigeteilt, man unterscheidet den basalen und den apikalen Dendriten. Der basale Dentrit umfasst ein Fasergeflecht, das den Zellkörper des Neurons umgibt und daher Verbindungen zu lokalen Axon14

Abbildung 6. Projektion des Körpers auf den motorischen Kortex – der motorische Homunkulus

Abbildung 7. Anatomie einer kortikalen Pyramidenzelle mit basalem und apikalem Dendrit, Axon und Axonkollateralen (aus [5])

verästelungen (Axonkollateralen) benachbarter Zellen ermöglicht. Der apikale Dendrit hingegen ist ein langgestreckter Ast, der es der Zelle erlaubt, synaptischen Kontakt zu weiter entfernt verlaufenden Axonen aufzubauen (siehe Abb. 7). Die basalen Verbindungen f¨ uhren zu einem hohen Vernetzungsgrad von Neuronen innerhalb eines Areals – Schätzungen f¨ ur die Verbindungswahrscheinlichkeit zweier benachbarter Neurone liegen zwischen 10% und 80%. Zwischen diesen Neuronen besteht also ein reger, lokaler Informationsaus¨ tausch, der auch mit a¨hnlichen funktionellen Eigenschaften einhergeht. Uber apikale Verbindungen entstehen Kontakte zwischen den verschiedenen lokalen Arealen. Ungefähre Anhaltspunkte f¨ ur deren Konnektivität bieten neuroanatomische Studien bei Katzen und Affen. Es hat sich gezeigt, dass benachbarte kortikale Areale mit Wahrscheinlichkeiten von u ¨ber 70% miteinander verbun15

den sind. F¨ ur nichtbenachbarte Areale beträgt die Wahrscheinlichkeit nur noch 15–30%. Dabei ist zu beachten, dass fast alle Verbindungen zwischen verschiedenen Arealen – sofern sie denn existieren – wechselseitig sind, Informationen also jeweils sowohl empfangen wie auch gesendet werden. Eine weitere Beobachtung ist, dass die primären Areale untereinander nicht direkt verbunden sind - der motorische und der somatosensorische Kortex bilden hierbei die einzige Ausnahme. Die u ¨brigen Verbindung bestehen allenfalls indirekt u ¨ber Umschaltneurone in nicht-primären Arealen. Dadurch werden aber gleichzeitig auch komplexere Verschaltungen und damit Informationsverarbeitungsschritte möglich – ähnlich wie beispielsweise Perzeptrone mit zwei Berechnungsschichten komplexere Funktionen berechnen können also solche mit nur einer.

2.2.2 Functional Webs Zieht man nun zu diesen grundlegenden Beobachtungen u ¨ber die Verbindungsstrukturen innerhalb des Kortex die in Abschnitt 2.1.1 vorgestellten Mechanismen synaptischer Plastizität – LTP und LTD – in Betracht, so wird man erwarten, dass häufig auftretende Aktivitätsmuster zur Stärkung der Gewichte zwischen den beteiligten Neuronen f¨ uhren. Dies kann sowohl innerhalb einzelner Areale geschehen, durch die apikalen Verbindungen aber auch in räumlich getrennten Regionen. Sogar die indirekte Verbindung zweier häufig koaktivierter Neurone aus unterschiedlichen primären Arealen könnte auf diese Weise verstärkt werden – durch Verstärkung der jeweiligen Verbindungen zu einem gemeinsamen Umschaltneuron. Korrelation zwischen der Aktivität benachbarter Neurone ist aufgrund der allgemein verbreiteten, topographischen Form der Repräsentation zu erwarten: benachbarte Neurone innerhalb eines der Wahrnehmungsareale beispielsweise reagieren auf ähnliche Reize. Aber auch selektive Korrelationen zwischen Neuronen verschiedener Areale sind leicht vorstellbar: jedes Mal zum Beispiel, wenn wir durch Aktivität im motorischen Kortex unsere Stimmbänder aktivieren, entstehen im somatosensorischen Kortex Empfindungsreize durch die hervorgerufenen Vibrationen. Und mit zeitlicher Verzögerung schlägt sich die Schallwahrnehmung des eigenen Lautes als Aktivität im auditorischen Kortex nieder. Vergleichbare Beispiele lassen sich auch f¨ ur viele weitere Sinnesmodalitäten finden, wie etwa gemeinsam auftretenden Geschmacks- und Konsistenzempfindungen beim Essen und vieles andere mehr. Auf diese Weise kann es zur Bildung von u ¨ber den Kortex verteilten Netzwerken kommen, die häufig zusammen auftretende Aktivitäts- oder Reizmuster repräsentieren. Im folgenden werden Netze dieser Art als Functional Web bezeichnet. Zusammengefasst sind Functional Webs definiert als eine Gruppe von Neuronen, die (1) untereinander hochgradig vernetzt sind (2) u ¨ber mehrere kortikale Hirnareale verteilt sind (3) zusammen als funktionale Einheit wirken 16

(4) voneinander funktional abhängig sind in dem Sinne, dass jedes einzelne f¨ ur das optimale Funktionieren des Netzes notwendig ist. Abgesehen davon, dass sich dieses Modell kortikaler Repräsentation auf nat¨ urliche Weise aus den bereits vorgestellten Prinzipien neuronaler Plastizität und kortikaler Konnektivität ergibt, bringt sie auch aus theoretischer Sicht eine Reihe von Vorteilen mit sich. Ein Vorteil der Functional Webs liegt in der stochastischen Natur des Feuerverhaltens einzelner Neurone begr¨ undet. Da Neurone unabhängig von externer Stimulation immer wieder spontan Aktionspotentiale erzeugen, haben sie f¨ ur sich genommen ein schlechtes SignalRausch-Verhältnis. Durch Mittelung der Signale mehrerer Neurone lässt sich dieses Verhältnis entscheidend verbessern. Das Rauschen hebt sich mit wachsender Anzahl von Neuronen gegenseitig, während das Signal erhalten bleibt. Ebenso ist es eine w¨ unschenswerte Eigenschaft, dass der Verlust eines einzelnen Neurons nicht den Verlust einer gesamten Repräsentation nach sich zieht. Wichtig ist es auch, dass zwei Functional Webs nicht aus disjunkten Mengen von Neuronen bestehen m¨ ussen, eine Neuron also Teil mehrerer Functional Webs sein. Dies zieht einige Konsequenzen nach sich. Zum einen wird es durch ¨ den Uberlapp schwierig zu bestimmen, welche Neurone tatsächlich Teil eines gegebenen Functional Webs sind. Diese Form der Repräsentation beinhaltet also zwangsläufig eine gewisse Unschärfe (Fuzziness). Zum zweiten gilt es zu vermeiden, dass sich die Functional Webs im Cortex durch ihren wechselseiti¨ gen Uberlapp nach und nach alle gegenseitig aktivieren. Hierzu bedarf es eines Regulationsprozesses, der sicherstellt, dass der gemittelte kortikale Aktivierungsgrad bestimmt Ober- und Untergrenzen nicht u ¨berschreitet (ein völliges Aussterben jeglicher Aktivität wäre nat¨ urlich ebenso unerw¨ unscht). Prinzipiell lässt sich dies durch zusätzliche, inhibitorische Verbindungen der Neurone untereinander erreichen, so dass nach dem Winner–Takes–All“–Prinzip nur ” wenige, maximal aktivierte Functional Webs ihre Aktivität aufrecht erhalten können. Ein genaueres Modell f¨ ur einen derartigen Mechanismus unter Einbeziehung anatomisch bekannter, subkortikaler R¨ uckkopplungswege findet sich in [1]. Was nun sind die bislang weitgehend u ¨bergangenen, funktionalen Eigenschaften von Functional Webs? Was außer einer etwas stabileren Repräsentation gewinnt man durch sie gegen¨ uber einzelnen Neuronen? Kurz gesagt liegt der entscheidende Vorteil von Functional Webs in ihrer größeren Anzahl qualitativ verschiedener Aktivitätszustände. Betrachten wir zunächst ein solches Netz, bei dem ein ausreichend großer Anteil von Neuronen extern stimuliert wird. Durch die die wechselseitigen, erregenden Verbindungen innerhalb des Netzes kommt es zur Ausbreitung und gegenseitigen Verstärkung der Aktivität im gesamten Netz, bis schließlich alle enthaltenen Neurone maximal Aktiviert sind. Dieser Vorgang wird als Ignition“ (Z¨ undung) des Netzes bezeichnet. ” N¨ utzlich ist dies zur automatischen Ergänzung unvollständiger Repräsentati17

Abbildung 8. Verlauf der Aktivität eines Neurons aus dem temporalen Kortex eines Makaken während eines visuellen Ged¨ achtnistests(aus [12])

onsmuster: man stelle sich beispielsweise ein Functional Web vor, das das semantische Konzept M¨ ucke“ repräsentiert. Allein die Wahrnehmung des sum” menden Fluggeräusches könnte dann ausreichen, um uns durch Ignition des Netzes sofort alle semantischen Aspekte einer M¨ ucke ins Bewusstsein zu rufen, vom Aussehen eines Facettenauges bis hin zur Abneigung gegen den Juckreiz. Bei der Ignition handelt es sich allerdings nur um eine kurzzeitige vollständige Aktivierung. Anschließend kommt es durch Erm¨ udung“ der Neurone und ” möglicherweise auch entgegenwirkenden, regulatorischen Prozessen zu einer Reduzierung der Aktivität im gesamten Web. Dennoch kommt es nicht zu einem plötzlichen Aussterben, da wiederum die gegenseitigen Verbindungen als positive R¨ uckkopplung wirken und den Abfallsprozess stark abbremsen bzw. die Aktivität teilweise auf niedrigerem Level aufrechterhalten können. Dieser Prozess des allmählichen Aktivitätsr¨ uckgangs wird als Reverberation“ ” (Nachhall) bezeichnet. Im Elektroenzephalogramm (EEG) oder Magnetoenzephalogramm (MEG) schlägt sich dieser Vorgang in Form hochfrequenter Hirnwellen (∼ 30 Hz) nieder. Experimentell konnten derartige Phänomene u.a. bei Gedächtnistests mit Affen nachgewiesen werden ([12]). Die Aufgabe f¨ ur den Affen bestand darin, die Form eines nur kurz (0.2s) präsentierten, visuellen Stimulus 16s lang bis zur Präsentation eines Vergleichsstimulus im ¨ Gedächtnis zu behalten und bei Ubereinstimmung bzw. Verschiedenheit einen entsprechenden Schalter zu betätigen. Abbildung 8 zeigt den Aktivitätsverlauf eines einzelnen Neurons aus dem temporalen Kortex eines Affen. Klar erkennbar ist die starke Aktivierung des Neurons gleich nach Präsentation des ersten Stimulus, entsprechend der Ignition seines Functional Webs. Darauf folgt eine Phase reduzierter, aber nur schwach abfallender Aktivität bis zur Präsentation des Vergleichsstimulus. Diese w¨ urde durch die anschließende Reverberation des Functional Webs erklärt. Im u ¨brigen gibt dieses Beispiel auch eine Vorstellung u ¨ber den möglichen zeitlichen Umfang des Reverberation-Prozesses.

18

2.2.3 Word Webs In diesem Abschnitt soll nun vertieft werden, wie Wörter mit ihren phonetischen wie semantischen Aspekten im Gehirn mittels Functional Webs repräsentiert werden könnten. Die Ausgangsbasis f¨ ur eine derartige Repräsentation wird bereits im fr¨ uhesten Neugeborenenalter geschaffen, besonders mit Beginn der sog. Lallphase im Alter von etwa 6 Monaten. Aktivität im unteren Teil des primären motorischen Kortex löst spontane Lautäußerungen aus, die u ¨ber den Umweg des Gehörs Aktivität in den auditorischen Hirnregionen hervorrufen. Da bei gleicher Stellung des Stimmorgane auch immer ein ähnlicher Laut erzeugt wird, können durch Hebb’sches Lernen Netze von Neuronen entstehen, die sowohl die akustischen als auch die motorischen Aspekte der häufig erzeugten Phoneme verbinden. Damit ermöglichen sie das imitierende Nachsprechen wahrgenommener Silben oder Worte – ein Fähigkeit, die Säuglinge bereits kurz nach Beginn der Lallphase entwickeln. Durch u ¨bergeordnete“ ” Verbindungen zwischen einzelnen Phonemnetzen können dann Repräsentationen f¨ ur häufig auftretende Folgen von Phonemen entstehen - der Grundstein f¨ ur neuronale Wortrepräsentationen ist gelegt. Eine berechtigte Frage ist, wie der Säugling aus der Wahrnehmung eines kontinuierlichen Sprachflusses lernen kann, welche Phoneme u ¨berhaupt zu einem Wort gehören. Denn nur in den seltensten Fällen werden ihm ja einzelne Wörter isoliert vorgesprochen. Auch dies lässt sich jedoch mit Hilfe des Korrelations-Lernprinzips erklären: Phonemfolgen, die zu ein und dem selben Wort gehören, tauchen statistisch gesehen häufiger auf als die eher zufälligen Lautfolgen, die an Wortgrenzen entstehen. Zur Bildung von Wortrepräsentationen scheint es also das Vorsprechen isolierter Worte nicht notwendig zu sein. Das bis hierhin vorgeschlagenen Modell wurden auch in elektrophysiologischen Studien experimentell u uft. Eine der Vorhersagen des Modells ist die, ¨berpr¨ dass die Wahrnehmung von echten Wörtern und Pseudowörtern zu unterschiedlichen Hirnreaktionen f¨ uhrt. Genauer gesagt sollte ein echtes Wort Ignition und Reverberation des entsprechenden Wortnetzes hervorrufen, während Pseudowörter zu keinerlei solchen Reaktionen f¨ uhren sollten. Tatsächlich wurden bei EEG- und MEG-Studien bei echten Worten signifikant stärkere, hochfrequente Hirnwellen gemessen als bei Pseudowörtern, und zwar nahe der Sylvischen Furche, wo sich sowohl der auditorische Kortex als auch die Sprachrelevanten motorischen und somatosensorischen Projektionsfelder befinden (vgl. Abschnitt 2.2.1). Somit stimmt das experimentelle Ergebnis also mit der getroffenen Vorhersage u ¨berein. Durch den häufigen Gebrauch von Wörtern im Zusammenhang mit bestimmten Gegenständen oder Handlungen können die bislang ausschließlich phonologischen Wortrepräsentationen durch das Prinzip des Korrelationslernens mit semantischen Inhalten verkn¨ upft werden. Dies könnten etwa Farbe, Griffgef¨ uhl und Geruch eines Gegenstandes aus der Umgebung des Säuglings sein, 19

Abbildung 9. Topologie mutmaßlicher Word Webs zur Repr¨ asentation von W¨ ortern verschiedener semantischer Kategorien

aber ebenso auch der Bewegungsablauf beim Krabbeln. Functional Webs, die aus diese Weise sowohl die phonologische Information eines Wortes als auch dessen zugehörige Wahrnehmungs- und Handlungsaspekte beinhalten, werden im folgenden auch als Word Webs bezeichnet. Word Webs sollten gemäß der bisher angewandten Prinzipien der kortikalen Organisation nicht unspezifisch u urde man erwarten, dass sich se¨ber den Kortex verteilt sein. Vielmehr w¨ mantische Aspekte eines Begriffs in der Topologie seines zugehörigen Word Webs widerspiegelt. Die Bedeutung von Worten wie z.B. Hai“ oder Wal“ ” ” werden den meisten von uns in erster Linie durch visuelle Eindr¨ ucke (sprich: Bilder oder Filme) bekannt sein. Im Gegensatz dazu ergibt sich die Bedeutung etwa von Werkzeugnamen viel eher aus der mit ihren Benutzung verbundenen Handlungen. Word Webs f¨ ur vornehmlich visuell geprägte Begriffe sollten daher u ¨berproportional viele Neurone aus den okzipital gelegenen visuellen Arealen enthalten, Word Webs f¨ ur handlungsgeprägte Begriffe hingegen viele Neurone im präzentralen, motorischen Kortex. Auch diese Hypothese deckt sich mit Schwankungen im Energieverbrauch der betroffenen Areale, die mit Hilfe hirnbildgebender Verfahren experimentell beobachtet worden sind. Und es finden sich sogar noch feinere topologische Unterschiede: beim Vergleich zwischen gesichts-, arm- und beinbezogenen Verben (z.B. sprechen“, grei” ” fen“ und gehen“) zeigte sich unterschiedlich starke Aktivität entlang des mo” torischen Kortex, und zwar dergestalt, dass das Zentrum der Aktivität je nach Verbkategorie im motorischen Projektionsfeld des Gesichts, der Arme bzw. der Beine lag (vgl. Abb. 6). Abbildung 9 zeigt die mutmaßlichen Word Webs f¨ ur die hier behandelten Wortkategorien: visuell geprägte und handlungsorientierte Substantive sowie gesichts-, arm- und beinbezogene Verben. Ist erstmal ein Grundstock“ von Wörtern im Gehirn repräsentiert, so kann ” die Bedeutung neuer, unbekannter Wörter auch ihrem sprachlichen Kontext erschlossen werden. Es ist also keinesfalls notwendig, dass jedes neu zu er20

lernende Wort in Zusammenhang mit einem konkreten Gegenstand oder ein konkreten Handlung präsentiert werden muss, um dessen phonologische Eigenschaften mit zusätzlichen, semantischen Aspekten zu verkn¨ upfen. ¨ Aus dem hebb’schen Lernprinzip ergibt sich im Ubrigen auch eine Modell ¨ daf¨ ur, wie sich die Ahnlichkeit verschiedener Wort in ihrer neuronalen Repräsentation niederschlagen könnte. In Abschnitt 2.2.2 wurde gesagt, dass verschiedene Functional Webs nicht aus disjunkten Gruppen von Neuronen bestehen m¨ ussen. Ganz im Gegenteil macht es sogar Sinn, dass sich einzelne Webs teilweise sehr stark u ¨berlappen – dann nämlich, wenn sie sich semantisch urden sich im ähnlich sind. Word Webs vollständig synonymer Wörter z.B. w¨ idealisierten Fall nur in ihrem Phonemteil unterscheiden. Im Gegensatz dazu w¨ urden sich homophone Wörter gerade in ihrer Phonemrepräsentation u ¨berlappen und der semantische Teil ihrer Word Webs wäre weitgehend disjunkt (siehe Abbildung 10).

Abbildung 10. Topologie mutmaßlicher Word Webs zur Repr¨ asentation von W¨ ortern verschiedener semantischer Kategorien

Zusammenfassend lässt sich also festhalten, dass Word Webs ein plausibles Modell der Repräsentation von Worten im Gehirn darstellen, sowohl auf Grund ¨ prinzipieller Uberlegungen zu Organisation und Plastizität des Kortex als auch gest¨ utzt auf experimentelle Ergebnisse aus elektrophysiologischen und funktional bildgebenden Studien. 2.3 Neuronale Mechanismen zur Repräsentation serieller Ordnung ¨ 2.3.1 Grundsätzliche Uberlegungen anhand k¨ unstlicher Neurone Nach der vorangegangen Diskussion um die grundlegende Repräsentationsform von Worten im Gehirn wenden wir uns jetzt allmählich wieder den in Abschnitt 1 aufgeworfenen Fragen nach den Prinzipien einer neuronalen Grammatik zu. Es wird aufgezeigt, mit welchen Mechanismen verschieden Aspekte serieller Ordnung in k¨ unstlichen McCulloch-Pitts-Netzen repräsen¨ tiert werden können. Diese Uberlegungen f¨ uhren zusammen mit dem Konzept der Functional Webs und Word Webs auf ein konkretes Modell einer neuronalen Grammatik hin, das in Abschnitt 3 abschließend vorgestellt wird. 21

Das Neuronenmodell von McCulloch&Pitts wurde in Abschnitt 2.1.2 vorgestellt. F¨ ur die Abbildungen dieses Abschnitts gelten folgende Konventionen: der Schwellwert eines Neurons ist die Zahl in dessen Inneren, und das Gewicht aller Verbindungen beträgt jeweils 1, soweit nicht anders angegeben. Wie nun lassen sich Netze von solchen Neuronen nutzen, um Sequenzen von Wörtern zu erkennen? Betrachten wir zunächst den einfachsten Fall: gesucht ist ein Netz, das genau einen einzelnen Satz erkennen kann, wobei die einzelnen Wörter dem Netz sequentiell präsentiert werden. In Abbildung 11 sehen wir zwei mögliche solche Netze zur Erkennung des Beispielsatzes Betty get ” up“. Die Neurone in der Input-Schicht reagieren selektiv auf je eines der drei Worte. Wird die Wortfolge Betty get up“ etwa dem linken der beiden Netze ” präsentiert, so läuft folgende Netzreaktion ab (alle Neurone seine zu Beginn inaktiv): (1) Input Betty“ aktiviert Neuron a. ” (2) Input get“ aktiviert Neuron b, während gleichzeitig Neuron d durch a ” aktiviert wird. (3) Input “up“ aktiviert Neuron c, während die Neurone e und f von Neuron b und d erregt werden (4) Durch ihre gleichzeitige Aktivität erregen die Neurone c e und f Neuron g Man erkennt leicht, dass Neuron g nur dann feuert, wenn der Satz Betty get ” up“ wörtlich und ohne Unterbrechung im Input vorkommt. Es könnte damit als interne Repräsentation dieses Satzes genutzt werden. g wird hierbei als Großmutter- oder Kardinalzelle bezeichnet, da es alleine ein komplexes, zeitlich ausgedehntes Ereignis repräsentiert oder vermittelt – man spricht auch von vermittelter Sequenzerkennung 9 . Im Vergleich dazu kommt das Netz in Abb. 11B mit weniger Neuronen aus. Zwar ist auch hier das letzte Neuron der Kette letztendlich eine Kardinalzelle. Zusätzlich dazu geht aber die Erkennung des Beispielsatzes einher mit Aktivitätswelle, die sich entlang der unteren Reihe von Neuronen fortpflanzt - ein Phänomen, auf das in Abschnitt ?? noch näher eingegangen wird. Einfache Stringdetektoren lassen sich also mit Hilfe k¨ unstlicher Neuronaler Netze implementieren. Eine zentrale Rolle beim Verständnis von Sprache spielt jedoch aufgrund des Prinzips der zentralen Einbettung Abhängigkeiten zwischen Wörtern, die im Satz räumlich bzw. zeitlich beliebig weit voneinander entfernt stehen können (vgl. Abschnitt 1.2 und 1.3). Dem sind die bisherigen Stringdetektoren jedoch nicht gewachsen – hierzu bedarf der Einf¨ uhrung von r¨ uckgekoppelten Verbindungen. In Abbildung 12 sehen wir zwei Neurone mit Gedächtnis“. Nehmen wir an, das linke Neuron zu Beginn einer Wortfolge ” voraktiviert. Dann ist es nach Präsentation der Folge nur dann noch aktiv, 9

mediated sequence processing

22

Abbildung 11. Zwei Netze zur Erkennung der Wortfolge Betty get up“ A. durch ” eine Kardinalzelle. B. begleitet von einer Aktivit¨ atswelle in der unteren Zellreihe.

Abbildung 12. Netze zur Erkennung des A. dauerhaften bzw. B. einmaligen Auftretens eines Wortes in einer Wortfolge.

wenn kontinuierlich extern stimuliert wurde. Kommt es hingegen zu einer Unterbrechung der externen Stimulation, so ist das Neuron am Ende inaktiv. Das rechte Neuron dagegen bleibt aktiv, sobald es einmal stimuliert wurde (es bedarf dann freilich noch irgendeiner Art von Reset-Mechanismus). Diese Art von Verhalten erinnert an den All- bzw. den Existenzquantor aus der Prädikatenlogik. Speziell das rechte Existenz-Neuron“ eignet sich dazu, den Zusam” menhang zwischen verteilten Satzbestandteilen herzustellen. Dies verdeutlicht Abbildung 13: das abgebildete Netz ist durch seine R¨ uckkopplungsschleifen in der Lage, alle der folgenden Sätze zuerkennen: (1) Betty switched it on. (2) Betty switched the nice brown coffee machine on. (3) Betty switched the coffee machine she received as a present from her mother at her 25th birthday on. Auf diese Weise gelingt es mit neuronalen Netzen, Strukturen zu repräsentieren, bei denen das auftreten eines Bestandteils das sichere Auftreten eines anderen Bestandteils bedingt, und zwar mit beliebigem Abstand zwischen den beiden. Damit sind sie rein stochastische Modelle wie z.B. Markov-Ketten in dieser Hinsicht u ¨berlegen. Im Folgenden sollen nun ausgehend von den hier ¨ skizzierten Uberlegungen anhand von McCulloch-Pitts-Zellen sollen nun noch zwei auch neurophysiologisch plausible Ansätze zur neuronalen Modellierung serieller Ordnung vorgestellt werden. 23

Abbildung 13. Netz zur Erkennung der W¨ orter Betty“, switches“ und on“ inner” ” ” halb einer längeren Wortfolge in genau dieser Reihenfolge und mit beliebig langen Unterbrechungen zwischen den Wörtern

2.3.2 Synfire Chains Der erste Ansatz zielt hierbei nicht primär auf das Erkennen oder die Repräsentation grammatikalischer Ordnung, sondern auf die Speicherung von Phonemfolgen. Seien in Analogie zum motorischen Kortex Neurone gegeben, ¨ der Aktivierung die Außerung verschiedener Laute hervorruft. Der denkbar einfachste Weg, eine Phonemfolge zu speichern wäre es, die entsprechenden Neurone mit erregenden Synapsen zu verbinden. Wird nun das erste Neuron der Folge aktiviert, pflanzt sich die Aktivität entlang dieser Verbindungen fort und f¨ uhrt dabei zur entsprechenden Lautäußerung. Allerdings hat man festgestellt, dass die synaptischen Gewichte im Kortex im Regelfall viel zu schwach sind, als dass ein einzelnes Neuron ein anderes erregen könnte. Dazu ist normalerweise die annähernd gleichzeitige Aktivität zahlreicher Input-Neurone notwendig. Statt dessen wäre es also plausibler anzunehmen, dass anstelle einzelner Neurone jeweils ganze Neuronengruppen miteinander verbunden sind, wobei alle Neuronen einer Gruppe jeweils synchron von ihrer Vorgängergruppe innerhalb der Verbindungskette erregt werden. Diese Form der neuronalen Verschaltung wird als Synfire Chain bezeichnet. Auch experimentell konnten Phänomene beobachtet werden, die sich mit diesem Modell decken. Untersucht wurde die Korrelation zwischen dem Feuerverhalten mehrerer Neurone. Dabei fiel auf, dass ein Neuron besonders häufig dann feuerte, wenn zuvor zwei weitere Neurone in einem ganz bestimmten Zeitabstand gefeuert hatten. Abbildung 14 zeigt eine solche Synfire Chain. Durch Aktivierung aller Neurone der ersten Gruppe entsteht eine Welle synchroner Aktivität innerhalb der Gruppen. Eine nur teilweise Aktivierung hingegen reicht nicht aus, um eine sich fortpflanzende Welle zu erzeugen. In Wirklichkeit sind die Gruppen wahrscheinlich deutlich größer und könnten geschätzt ca. 50–100 Neurone enthalten, mit einem Schwellwert jeweils zwischen 5 und 10. Mehrere Synfire Chains können sich teilweise u ¨berlappen und kreuzen, ohne dass sich eine Aktivitätswelle dabei unkontrolliert in alle Richtungen weiter ausbreitet. Die verdeutlicht Abbildung 15. Aktivierung der Neuronen in der Gruppe links oben ( b“) f¨ uhrt ” zu einer Aktivitätswelle, die sich nach rechts unten ausbreitet, nicht aber – ent24

Abbildung 14. Ein Synfire Chain bestehend aus 5 Gruppen von je 3 synchron aktiven Neuronen. Der Schwellenwert der Neurone betr¨ agt 2.

lang der kreuzende Synfire Chain – nach links unten. Dies wird durch den nur ¨ teilweisen Uberlapp der jeweils mittleren Neuronengruppen der beiden Ketten gewährleistet. Die beiden Neurone in Mitte ganz links und ganz rechts dienen also als Kontextindikator, die bestimmen, in welche Richtung sich die Aktivität ¨ im Uberlapp-Bereich weiter ausbreitet. In der Abbildung ist zudem wieder der Bezug zur Speicherung von Phonemfolgen angedeutet. Jedes Wort w¨ urde nach dieser Vorstellung phonetisch durch eine eigene Synfire Chain repräsentiert, die sich mit den Ketten zahlreicher anderer Wörter u ¨berschneidet und kreuzt. Freilich bedarf dieses Modell noch der Verfeinerung. Die Geschwindigkeit der Welle ist bisher konstant. Wir aber können unsere Sprechgeschwindigkeit nach Belieben variieren. Dies ließe sich aber beispielsweise durch die Regulation der unspezifischen Hintergrundaktivität erreichen. Durch starkes Hintergrundrauschen wären die Neuronen schon von vornherein näher an ihrem Schwellwert, so ihre letztendliche Aktivierung schneller von statten ginge als bei schwacher Hintergrundaktivität. Dies könnte auch erklären, wie es bei hoher Sprechgeschwindigkeit zunehmend zum Nuscheln und Versprechen kommt. Zum einen könnte es geschehen, dass sich die Aktivität schneller durch den motorischen Kortex ausbreitet, als es die Muskulatur umsetzen kann. Zudem steigt durch die hohe Voraktivierung der kreuzenden Synfire Chains die Wahrscheinlichkeit, dass sich die Aktivität entlang eines falschen Pfades, möglicherweise sogar entlang mehrerer Pfade gleichzeitig ausbreitet. Das Synfire-Chain-Modell zur phonetischen Repräsentation deckt sich also auch mit psycholinguistischen Beobachtungen. ¨ Dennoch erscheint es unwahrscheinlich, dass sich ein Ahnlicher Ansatz – etwa Synfire Chains zwischen Worten anstelle von Phonemen – auf die Verarbeitung von ganzen Sätzen u ¨bertragen läßt. Der zeitliche Abstand zwischen der Aktivierung zwei benachbarter Neuronengruppen liegt bei Synfire Chains im Millisekundenbereich, während bei der Verarbeitung von Sätzen Verzögerungen von einigen Sekunden auftreten können, noch dazu von Fall zu Fall variabel. Kritisch ist auch die riesige Anzahl möglicher Wortfolgen und daher der 25

Abbildung 15. Kreuzende Synfire Chains zur phonologischen Repr¨ asentation der englischen Wörter bat“ und tab“ ” ”

benötigten Synfire Chains. Im Falle von Phonemfolgen liegt die Anzahl der möglichen Nachfolger zwischen 5 und 20, im Falle von Wort jedoch rund 104 . Dies ließe sich Reduzierung durch die Einf¨ uhrung verschiedener Wortkategorien. In diesem Falle ist jedoch unklar, wie eine Synfire Chain die Auswahl zwischen verschiedenen Wörtern einer Kategorie vornehmen könnte. Und wie könnte ein solches System – egal ob auf der Ebene von Wörtern oder Wortkategorien – von bereits bekannten auf unbekannte Strukturen generalisieren? Im Folgenden wird ein alternativer Ansatz vorgestellt, der kombiniert mit dem Modell der Functional Webs diese Probleme u ¨berwinden könnte.

2.3.3 Neuronale Sequenzdetektoren Kehren wir in Gedanken noch einmal zur¨ uck zu Abbildung 11A. Präsentation des Beispielsatzes Betty get up“ f¨ uhrte zur Aktivierung der Kardinalzelle g. ” Die Zellen d, e, f dienen hierbei lediglich der Verzögerung der Aktivität der Input-Neurone a und b. Aus neurophysiologischer erscheint allerdings ein anderer Verzögerungsmechanismus wahrscheinlicher. Da die Reizleitung in einer Nervenfaser nur mit begrenzter Geschwindigkeit erfolgt, könnte die Verzögerung allein durch unterschiedlich Längen der Verbindungsleitungen erfolgen. Solche Verzögerungsstrecken konnten im Kleinhirn bereits nachgewiesen werden, die auch dort sicherstellen, dass zeitlich genau abgestimmte Sequenzen 26

Abbildung 16. A. Ein Phrasenstruktur-Baum zur syntaktischen Repr¨ asentation des Satzes He comes“. B. Word Webs und Sequenzdetektoren zur Repr¨ asentation syn” taktischer Abhängigkeiten

neuronaler Aktivität gleichzeitig an einer Kardinalzelle eintreffen und diese erregen. Dennoch kann auch diese Art von Sequenzdetektor so kaum als Grundlage zur Sprachverarbeitung dienen. Die beobachteten Verzögerungen liegen im Bereich von deutlich unter 1s, während im Fall von Sprache viele Sekunden zwischen den einzelnen Bestandteilen verteilter Wörter liegen können – zudem können die Verzögerungen von Fall zu Fall stark schwanken. Einen möglichen Ausweg bietet die Implementierung von Sequenzdetektoren als Funktional Webs anstelle einzelner Kardinalzellen. Dieses Modell wird in Abschnitt 3 im Detail vorgestellt. An dieser Stelle sei nur noch als zusätzliche Motivation noch angedeutet, welche Vorteile eine Grammatik basierend auf Sequenzdetektoren gegen¨ uber formalen linguistischen Modellen wie etwa PhrasenstrukturGrammatiken bieten könnte. Ein in der Linguistik gängiger Ansatz zur Repräsentation syntaktischer Strukturen sind hierarchische Bäume mit syntaktischen Kategorien als inneren Knoten und den Wörtern oder Morphemen 10 eines Satzes als Blättern (siehe Abb. 16A). Ein Problem hierbei ist die Modellierung von bestimmten Abhängigkeiten zwischen verteilten Satzbestandteilen wie etwa der Kongruenz zwischen Subjekt und Verb-Endung ( He“ und -s“ ” ” im abgebildeten Beispiel). Zur Pr¨ ufung der grammatikalischen Korrektheit eines Satzes m¨ usste zusätzlich zum Aufbau eines syntaktisch korrekten Baumes 10

Morphem: kleinste bedeutungstragende Spracheinheit, z.B. ein Wortstamm oder eine Verb-Endung

27

gemäß der Phrasenstrukturgrammatik noch derartige Abhängigkeiten in einem weiteren Arbeitsschritt u uft werden. Dagegen kommt das Modell in ¨berpr¨ Abbildung 16B basierend auf Sequenzdetektoren mit einem einheitlichen Mechanismus aus. Die Detektoren sind nicht hierarchisch angeordnet: jeder f¨ ur sich erkennt ein Wort-/Morphempaar: Pronomen – Verb, Verb – Verb-Endung sowie Pronomen – Verb-Endung. Speziell letzterer gibt Auskunft u ¨ber die Kongruenz zwischen Subjekt und Prädikat des Satzes. Zusammengenommen vermittelt – so die Behauptung – der Aktivitätszustand zahlreicher solcher paarweiser Sequenzdetektoren gen¨ ugend Information u ¨ber die Struktur eines präsentierten Satzes, um seine Bedeutung erschließen zu können. Diese Behauptung zu Untermauern ist Sinn des folgenden Abschnitts.

3

Neuronale Grammatik

Bisher haben wir neuronale Ensembles und funktionelle Netze betrachtet. In diesem Kapitel werden zwei neue Begriffe eingef¨ uhrt. (1) Neuronale Sets, die funktionelle Netze mit speziellen Eigenschaften sind. (2) Sequenz Sets sind, neuronale Sets sind, die Sequenzen von Wörtern repräsentieren können.

3.1 Erregungszustände von funktionellen Netzen

Ein solches Netz agiert aufgrund der starken internen Verbindungen als eine funktionelle Einheit, d.h. wenn ein angemessener Teil des Netzes durch einen Input erregt wird, f¨ uhrt die Konnektivität dazu, dass alle bzw. ein Großteil der Neuronen aktiviert werden. Diese volle Aktivität bezeichnet man mit Ignition. Diverse Erschöpfungseffekte reduzieren danach kontinuierlich die Aktivität, die jedoch nicht ganz ausstirbt. Der Rest der Aktivität, der nicht verloren geht, wird Reverberation genannt. Im Gegensatz zur Ignition ist die Reverberation ein lang anhaltender Prozess innerhalb des funktionellen Netzes, jedoch sind bei weitem nicht so viele Neuronen aktiviert wie bei der Ignition. Zusätzlich besteht die Möglichkeit, dass sich das Netz in einem inaktiven Ruhezustand befindet. Im Folgenden wird das neuronale Set eingef¨ uhrt und erläutert weshalb es ein Spezialfall dieses funktionellen Netzes ist, das drei Zustände besitzt: Ignition, Reverberation und Ruhe. 28

3.2 Neuronale Sets Ein neuronales Set zeichnet sich gegen¨ uber einem funktionellen Netz durch eine größere Variabilität der Zustände aus. Aktivität eines neuronalen Sets kann sich in einer Menge solcher Sets u ¨ber externe Verbindungen, die schwächer sind als interne Verbindungen, ausbreiten und beeinflusst so benachbarte Sets. Um ein neuronales Set in den Zustand der vollen Aktivität Ignition zu f¨ uhren, ist immer ein externer Input notwendig. Eine solche Aktivierung wirkt sich dann auf andere Sets aus, die dann in den Zustand des Primings gef¨ uhrt werden. Das Priming ist weitaus schwächer als Ignition und Reverberation. ¨ Uber die Zeit verringert sich die Aktivität aller Zustände mit exponentieller Geschwindigkeit: A(Si , t) = A(Si , t0 ) ∗ e−c∆t ,

(5)

wobei t0 den Zeitpunkt der externen Aktivierung durch ein anderes Set bzw. durch externen Input, ∆t den Abstand zwischen t0 und t, A(Si , t) die Aktivität von Set Si zu Zeitpunkt t0 und c die Steigung des Abfallens der Aktivität bezeichnet. Inputs anderer Sets, die sich in den Zuständen Reverberation bzw. Priming befinden, wirken u ¨ber verschiedene Verbindungen auf das neuronale Set. Es wird angenommen, dass sich die Inputs der anderen im Set summieren. Insofern ist die Aktivität von Si so zu beschreiben: A(Si , t) =

X

A(Sj , t − 1),

(6)

j

wobei A(Sj , t − 1) die Menge der exzitatorischen Stimulation von Set Sj auf Si zum Zeitpunkt t−1 bezeichnet. Die Stimulation erreicht Set Si zum Zeitpunkt t. Falls sich ein Netz bereits im Zustand Reverberation befindet verändert sich die Gleichung nur um einen zusätzlichen Term: A(Si , t) = A(Si , t0 ) ∗ e−c∆t +

X

A(Sj , t − 1)

(7)

j

Der Zustand der Ignition wird dann erreicht, wenn die zeitliche bzw. räumliche Summation eine Schwelle θ u ¨bersteigt. Nach einer Ignition I wechselt der Zustand im nächsten Zeitschritt zur Reverberation R1 , wobei R1 der stärkste 29

Reverberation Zustand ist. Durch den exponentiellen Abfall gibt es theoretisch unendlich viele solche Reverberation Zustände. Kurz gefasst verändern sich die Zustände folgendermaßen: A(Si , t) > θ ⇒ A(Si , t + 1) = I ⇒ A(Si , t + 2) = R1

(8)

Ein neuronales Set kann sich in vier Zuständen befinden: AS = {0, P, R, I},

(9)

wobei P und R eigentlich eine Menge von Zuständen bezeichnen. Aufgrund des kontinuierlichen Abfalls der Aktivität kann es jeweils unendlich viele Zustände R1 , R2 , ... und P1 , P2 , ... geben. Dies ist jedoch unwahrscheinlich in der Realität, weil das Signal-zu-Rausch Verhältnis die Anzahl beschränkt, weswegen wir auch nur eine endliche Menge von Zuständen betrachten, die ihrer Stärke nach sortiert sind, wobei R1 , P1 die stärksten Zustände bezeichnen. Weitere Vereinfachungen sind, dass der zeitliche Abfall der Aktivität ignoriert wird und die räumliche und zeitliche Summation der Aktivität vereinfacht wird.

3.3 Schwellwertkontrolle

Um das Aktivitätslevel in einem gewissen Rahmen zu halten muss eine Regulation der Schwellwert eingef¨ uhrt werden. Es wird angenommen, dass ein starker Anstieg der Aktivität detektiert werden muss und in Folge darauf der Schwellwert angepasst wird. Die Realisierung ist eigentlich relativ einfach. Der extremste Anstieg der Aktivität ist dann, wenn ein neuronales Set aus dem Ruhezustand in den Zustand Ignition springt. Dies f¨ uhrt dann zu einer globalen Erhöhung des Schwellwerts. Diesen Anstieg der Aktivität mit folgender ˆ Die Ignition ohne Schwellwertkontrolle 11 bezeichnen wir mit dem Symbol I. darauf folgende Korrektur wird wie bisher mit I bezeichnet. I tritt dann auf, wenn ein Set aktiviert wird, das sich zuvor schon in einem Zustand der Reverberation bzw. Priming befand. Die globale Inhibition der Aktivität durch die Schwellwertregulierung wird so realisiert, dass alle Sets, die sich in Rn bzw. Pn befinden, in die Zustände Rn+1 bzw. Pn+1 herabgestuft werden.

11

Threshold control

30

Abbildung 17. Detektor f¨ ur die Sequenz alpha – beta

3.4 Sequenzdetektion in Netzwerken von neuronalen Sets An dieser Stelle gen¨ ugt es zu sagen, dass es einen Mechanismus gibt, der zur Detektion von Sequenzen oder seriellen Reihenfolgen 12 herangezogen werden kann. Dieser Mechanismus könnte beispielsweise u ¨ber Verbindungen, die in nur einer Richtung verlaufen, implementiert werden. Da dies jedoch unrealistisch ist und in der Natur nicht so vorkommt, wird im Folgenden von bidirektionalen Verbindungen ausgegangen, die jedoch asymmetrisch sind, d.h. es gibt in eine Richtung sehr starke und in die andere Richtung eher schwache Verbindungen zwischen zwei neuronalen Sets. Eine Unterscheidung zwischen ’starken’ und ’schwachen’ Verbindungen ist selbstverständlich eine weitere Vereinfachung des realen Modells. Die stärkeren Verbindungen werden in die Richtung des u ¨blichen Flusses angenommen, d.h. Sets, die Wörter die oft vor gewissen anderen gesprochen werden, repräsentieren, haben starke Verbindungen zu einem Sequenz-Set und dieses wiederum zu den Sets, die häufig danach gesprochene Wörter repräsentieren. Abbildung 17 zeigt ein Netz, das α vor β akzeptiert: Solche starken Verbindungen, wie zwischen α und γ, ließen sich beispielsweise durch Hebb’sches-Lernen trainiert, da durch eine solche Regel Synapsen dann verstärkt werden, wenn sowohl prä- als auch postsynaptische Aktivität vorhanden ist. Im Folgenden wird genauer auf ein Beispiel eines Netzwerks aus neuronalen Sets eingegangen und erläutert, warum das Netz nur dann einen String akzeptiert, wenn dieser in der korrekten Weise präsentiert wird.

3.5 Sequenzerkennung Es wird im Folgenden angenommen, dass jedes Wort bzw. Morphem im Input sein Wortnetz 13 bzw. neuronales Set aktiviert und als Konsequenz das Set in den Zustand Ignition bringt und daraufhin in den Zustand Reverberation. Reverberation wiederum bringt andere Sets u ¨ber starke Verbindungen in den 12 13

Serial order Word web

31

Zustand Priming. Ignition aktiviert auch u ¨ber schwache Verbindungen sich im Ruhezustand befindliche Sets und bringt sie in den Zustand Priming. Ein Sequenz-Set wird nur dann in den Zustand Ignition gef¨ uhrt, wenn es von einer Ignition eines anderen Sets aktiviert wird und sich zuvor schon in Reverberation bzw. Priming befand. Nun folgt die konkrete Abfolge einer Sequenz (Es wird angenommen, dass die Sequenz AB ein korrekter Satz ist.): (1) Das Wort A aktiviert die Inputeinheit α. (2) Da α im Ruhezustand war, erfolgt eine volle Aktivierung Iˆ und die Schwellwertregulierung wird aktiviert. Diese hat jedoch keinen weiteren Einfluss, da sich kein Set in einem aktivierten Zustand befand außer α. (3) α aktiviert und ’primet’ das verbundene Sequenz-Set γ. γ wird jedoch nicht vollständig aktiviert, da es sich nicht in Priming oder Reverberation befand. (4) α ändert seinen Zustand in R1 und ’primet’ so konstant γ u ¨ber die starke Verbindung zwischen den beiden. Da es auch starke Verbindungen von γ zu β gibt, wird auch β von γ ’geprimet’. (5) Nun erscheint B als Input und β wird vollständig aktiviert und verändert seinen Zustand in I, da β zuvor schon im Zustand Priming war. (6) β aktiviert nun mit I den Sequenzdetektor γ, welcher sich nun auch in I befindet. (7) Schlussendlich aktiviert auch γ noch einmal α, was zum Akzeptieren des Satzes f¨ uhrt. Daraufhin ruhen alle Sets wieder. Damit man nicht glaubt, dass das auch bei einem grammatikalisch falschem Satz passiert, wird der Input in BA geändert: (1) Der Input B f¨ uhrt zu Ignition Iˆ von β. Die Schwellwertregulierung hat keinen Effekt. (2) Die Ignition Iˆ von β f¨ uhrt zu einem kurzen Priming in γ. Dieses Priming schwindet jedoch schnell wieder, da nur eine schwache Verbindung zwischen β und γ besteht. (3) β befindet sich in R1 und sowohl α als auch γ sind im Ruhezustand. (4) Es folgt nun A im Input und f¨ uhrt zu Iˆ in α. (5) Die Schwellwertregulierung verringert nun die Aktivierung von β zu R2 . (6) Am Ende der Sequenz befinden sich also alle Sets in unterschiedlichen Zuständen: β in R2 , γ in P1 und α in R1 . Insofern wird die Sequenz BA nicht akzeptiert. Zusammenfassend sind drei Dinge notwendig, damit ein String akzeptiert wird: (1) Synchronization - Eine sich durch das Netz fortpflanzende Welle der Ignition ’synchronisiert’ alle beteiligten Sets. (2) Satisfaction - Die Sequenz-Sets, die direkt mit Inputeinheiten verbunden sind befinden sich in R1 . 32

(3) Visibility - Die Inputeinheiten befinden sich in R1 und sind somit ’sichtbar’. 3.6 Lexikale Kategorien in neuronalen Sets Im ersten Kapitel haben wir lexikale Kategorien eingef¨ uhrt um gewisse Abhängigkeiten korrekt zu repräsentieren und um feiner unterscheiden zu können. Ist dies nun wieder notwendig in Bezug auf das Modell mit neuronalen Sets? Im folgenden Abschnitt wird dies diskutiert. 3.6.1 Warum lexikale Kategorien? Nehmen wir nun das Beispielwort aus Kapitel (1) wieder auf: ’switch’ bzw. ’switch ... on’. Der Inputdetektor f¨ ur den Wortstamm ’switch’ ist wie gehabt ein neuronales Set, das reagiert, falls das Wort ’switch’ im Input erscheint. Man bräuchte danach jedoch unterschiedliche Sequenz-Sets, die auf unterschiedliche nachfolgende Wörter reagieren. In diesem Beispiel gibt es z.B. einen f¨ ur das Wort ’switch’ als Nomen, welches ein Verb erwartet oder f¨ ur das Wort ’switch’ als transitives Verb, das ein Nomen im Akkusativ erwartet oder auch f¨ ur das Wort ’switch ... on’, das zuerst ein Nomen im Akkusativ und dann später den Partikel ’on’ erwartet. Man sieht also, dass es viele Verzweigungen gibt. Wenn man das f¨ ur jedes mögliche Wortpaar oder f¨ ur jede mögliche Wortsequenz machen w¨ urde wäre die Zahl der Sequenz-Sets astronomisch groß. Ein Weg, dieser Tatsache auszuweichen wäre, Wörter, so wie schon bei den formalen Grammatiken vorgeschlagen, in lexikale Kategorien einzuteilen. Wenn man die Wörter in etwa 100 lexikale Kategorien einteilt, wie z.B. Nomen im Nominativ, Akkusativ oder Dativ und Verben in transitive, intransitive etc., w¨ urde man die Zahl der nötigen Sequenz-Sets drastisch senken. 3.6.2 Lexikale Kategorien als Mengen von Sequenz-Sets Wie schon weiter oben beschrieben, wird ein Sequenzmerkmal dadurch repräsentiert, dass ein Sequenz-Set zuerst im Zustand Ignition ist und dann im Zustand Reverberation verweilt und so die Information u ¨ber die aufgetretene Sequenz speichert. Eine lexikale Kategorie kann nun als eine Vereinigung von mehreren Sequenz-Sets gesehen werden. Zwei Beispiele hierf¨ ur wären: urde mittels zwei Sequenz-Sets repräsentiert (1) Ein Nomen im Nominativ w¨ werden. Das erste erkennt, dass ein Artikel vor dem aktuellen Wort erschien und das zweite, dass ein Verb dem aktuellen Wort folgt. urde ebenfalls zwei Sequenz-Sets benötigen. (2) Ein Nomen im Akkusativ w¨ Das erste steht f¨ ur ein voranstehendes transitives Verb und das zweite 33

Tabelle 1 Ungefähre Anzahl und Größenordnung der neuronalen Sets zur Sprachverarbeitung Lingusitisch

Sets

Neuronen

Wort/Morphem

1 Inputeinheit

105 Neuronen

Sequenzmerkmale

1 Sequenz-Set

105 Neuronen

Lexikale Kategorie

< 10 Sequenz-Sets

< 106 Neuronen

Vokabular

105 Inputeinheiten

1010 Neuronen

103 Sequenz-Sets

108 Neuronen

Grammatik

107 Verbindungen zwischen den Sets

f¨ ur einen voranstehenden Artikel. Hierbei ist wichtig zu unterscheiden, dass es Sequenz-Sets gibt, die in die ’Zukunft blicken’ und welche, die sich die ’Vergangenheit merken’. Diese SequenzSets können direkt aus den Regeln der Abhängigkeitsgrammatiken abgelesen werden.

3.6.3 Lexikale Unterscheidungen durch Sequenz-Sets Um Wörter, wie ’switch’, eindeutig zu einer lexikalen Kategorie zuordnen zu können, ist noch ein zusätzlicher Mechanismus notwendig, der die anderen Zuordnungsmöglichkeiten unterdr¨ uckt. Es muss gewährleistet werden, dass das wahrscheinlichste Set, die anderen hemmt und so eine Art ’the-winner-takes-itall’ Selektion entsteht. Dieser Mechanismus könnte beispielsweise so realisiert werden, dass erkannt wird, wessen Sequenzmerkmale vollständig erf¨ ullt werden und so kann entschieden werden, welches Set gewonnen hat gegen¨ uber denen, die nicht alle Merkmale erf¨ ullen. Falls die letzten nötigen Sequenz-Sets zweier lexikalen Kategorien gleichzeitig im Zustand Ignition sind, ist die Kategorie, die die meisten aktiven Sets besitzt, der Sieger.

3.6.4 Anforderungen an eine neuronale ’Grammar Machine’ In diesem Abschnitt geht es darum mathematisch abzuschätzen, wie viele Sets bzw. Neuronen notwendig sind, um eine Grammatik zu repräsentieren. Wie ein vorhergehender Abschnitt zeigte, kann man die Abhängigkeitsgrammatiken dazu benutzen, f¨ ur ein Wort die Anzahl der benötigten Sequenz-Sets abzuschätzen. In einer Grammatik, wie sie im Englischen u ¨blich ist, ist es nahezu unmöglich Wörter zu finden, die mehr als f¨ unf abhängige Wörter besitzen. Man kann nun ein mehrdeutiges Wort mit f¨ unf möglichen Bedeutungen und jeweils f¨ unf abhängigen Wörtern als Extremfall f¨ ur eine Abschätzung annehmen. In diesem Fall w¨ urde die Inputeinheit 25 Verbindungen zu Sequenz-Sets 34

benötigen. Nun kann man ein Vokabular von ca. 100000 Wörtern annehmen, die durchschnittlich in zwei der 100 lexikalen Kategorien stehen und jeweils f¨ unf Sequenzmerkmale besitzen. Nun wird f¨ ur jedes Wort ein neuronales Set benötigt. Um jede der lexikalen Kategorien zu repräsentieren, benötigt man jeweils f¨ unf Sequenz-Sets, also 500. Man benötigt also nur 500 Sequenzdetektoren um eine solche Grammatik repräsentieren zu können. Man sieht also, dass die Repräsentation der 100000 Wörter weitaus aufwändiger ist als die Repräsentation der Sequenzen. Wenn man nun noch etwa 100000 Neuronen f¨ ur jedes Set veranschlagt, ergibt das eine maximale Gesamtzahl von 1010 Neuronen, die das Vokabular repräsentieren. Eine ’feinere’ Grammatik, die mehrere lexikale Kategorien repräsentiert, schlägt also gar nicht so stark ins Gewicht, da auch bei 1000 Kategorien nur 5000 Sequenz-Sets benötigt werden. Man sieht also, dass es entscheidend darauf ankommt, wie viele Wörter repräsentiert werden sollen.

Literatur [1] Pulverm¨ uller, P. (2002). The Neuroscience of Language. Cambridge University Press, Cambridge [2] Chomsky, N. (1963). Formal properties of grammars. [3] Bach, E., C. Brown, W. Marslen-Wilson (1986). Crossed and nested deoendencies in German und Dutch; a psycholinguistic study. Language and Cognitive Processes, 1, 249–262. [4] Petri, C. (1970). Kommunikation mit Automaten. Dessertation: Universit¨ at Bonn. [5] Dayan, P., L. P. Abbot (2001). Theoretical Neuroscience. MIT Press, Cambridge, MA [6] Rojas, R. (1993). Theorie der neuronalen Netze. Springer Verlag, Berlin [7] McLeod, P., K. Plunkett, E. T. Rolls (1998). Introduction to Connectionist Modelling of Cognitive Processes. Oxford University Press, New York [8] Penrose, R. (1991). Computerdenken. Spektrum Verlag, Heidelberg [9] Silbernagel, S., A. Depopoulos (2001). Taschenatlas der Physiologie. Thieme Verlag, Stuttgart [10] Schmidt, F., G. Thews, F. Lang (1997). Physiologie des Menschen. Springer Verlag, Berlin [11] Ga¨ıarsa, J.-L. (2004). Plasticity of GABAergic synapses in the neonatal rat hippocampus. J. Cell. Mol. Med. 8(1): 31-37 [12] Miyashita, Y., H. S. Chang (1988). Neural correlate of pictorial short-term memory in the primate temporal cortey. Nature 331: 307-311

35

Zusammenfassung - Universität Ulm

Short Description

Description

Comments

We need your help!