Computerlinguistik

January 19, 2018 | Author: Anonymous | Category: Kunst & Geisteswissenschaften, Schreiben, Grammatik
Share Embed Donate


Short Description

Download Computerlinguistik...

Description

Skript Computerlinguistik

Prof. Dr. phil. Dr. rer. nat. habil. M. Schenke

Inhaltsverzeichnis 1

Einleitung in die Linguistik

6

2

Einleitung in die Computerlinguistik

8

3

Geschichte der Computerlinguistik

10

4

Formale Sprachen und Grammatiken

11

5

6

4.1

Formale Sprachen

11

4.2

Grammatiken

12

4.3

Ableitungen

15

4.4

Ableitungsbäume

17

4.5

Mehrdeutigkeit

19

Parsing

24

5.1

Backtrack-Parsing

24

5.2

Chart-Parsing

27

Lexikalisch Funktionale Grammatik (LFG)

32

6.1

Defizite von kontextfreien Grammatiken

33

6.2

F-Strukturen

34

6.3

Wohlgeformtheit von F-Strukturen

35

6.4

Bildung von F-Strukturen zu grammatischen Strukturen

38

6.5

Fallstudie „das kleine grüne männchen fliegt die rakete zu dem fernen stern“

44

7

Teildisziplinen der Computerlinguistik

53

8

Teile der Grammatik

54

9

Darstellung durch endliche Automaten

55

10

Ferdinand de Saussure

55

11

Zeichentheorie C.S. Peirce

56

12

Formen von Ambiguitäten

56

13

Einführung von Syntaktischen Variablen

57

14

Pragmatik

59

14.1 15

Informationsgehalt nach Kolmogoroff

Allgemeine Anwendungen

60 61

15.1

Sprache zu Text

61

15.2

Texterzeugung

61

15.3

Übersetzung von Texten

61

15.4

Textkorrekturen

61

6 Einleitung in die Computerlinguistik

1

Einleitung in die Linguistik

Teilgebiete der Linguistik -

Phonetik / Phonologie ↳

Phonetik: Untersuchung von Lauten (Physik)



Phonologie: Klassifizierung von Lauten und Untersuchung ↳

Artikulationsort



Artikulationsart:

Plosiv,

Friktiv,

Affrikate,

Stimmlos/Stimmhaft ↳

Phonem: kleinste bedeutungsunterschiedende Einheit der Sprache



Minimalpaare: zwei sprachliche Zeichen, die sich durch eine Einheit unterscheiden (z.B. Kopf Zopf)



Phonem ist eine Äquivalenzklasse von Phonen



Einzelne Elemente eine Äquivalenzklasse (also eines Phonems) heißen Allophone

-



Es gibt freie Varianten der Allophone r ň



Es gibt gebundene Varianten der Allophone v χ

Morphologie ↳

Grammatische Formenlehre



1. Flexionsmorphologie: Bedeutung der Worte



2. Derivationsmorphologie: Neubildung von Worten



Morphem: kleinste bedeutungstragende Einheit

-

Lexik

-

Syntax

-

Semantik

-

Pragmatik

Sprachakte (nach R. Jakobson) Essentielle Bestandteile sprachlicher Kommunikation

7

Gegenstand Information, referentiell

Sprache metasprachlich

Sender

Kanal

Empfänger

(Sprecher)

(Medium)

(Hörer)

emotiv

phatisch

appellativ

Nachricht poetisch

Abbildung 1: Sprachliche Funktionen

8

2

Einleitung in die Computerlinguistik

Computerlinguistik wird heutzutage in fast allen Lebensbereichen genutzt: direkt am Computer, im Smartphone, bei automatischen Telefonannahmen oder bei Servicehotlines. Computerlinguistik ein Gebiet, bei dem sich vor allem drei Bereiche überschneiden: Linguistik, Informatik und Mathematik. Die Linguistik,

welche

Sprache

allgemein

untersucht,

liefert

dabei

das

Grundthema, die unter Umständen tief verborgenen Strukturen in Sprachen, die Mathematik liefert die Formalisierung dieser Strukturen, auf der dann die Informatik aufbaut, um Algorithmen zur automatischen Verarbeitung zu erstellen. Man muss also die Kluft zwischen einer nicht formal definierten natürlichen Sprache und einer formal definierten Sprache, also einem mathematischen Objekt, überbrücken. Und nur mit mathematischen Objekten kann ein Computer ja umgehen. Dabei steht man schon vom Grundsatz her vor verschiedenen Problemen: -

Der Bestand einer natürlichen Sprache ist über die Zeit nicht konstant sondern verändert sich. Das sollten formale Sprachen nicht tun.

-

Der Bestand einer natürlichen Sprache lässt sich auch zu einem festen Zeitpunkt nicht mathematisch präzise definieren.

-

In natürlichen Sprachen gibt es viele verschieden Varietäten: Dialekte, Soziolekte, Stilebenen … . Diese lassen sich nur schwer mathematisch präzise beschreiben.

-

Die Interpretation einer sprachlichen Äußerung ist abhängig von sehr komplexen Kontexten. Im Prinzip ist hier das gesamte Weltwissen erforderlich.

Ein Problem in der Computerlinguistik, gerade für Anfänger, rührt von ihrer Interdisziplinarität

her:

Oft

werden

Begriffe

in

unterschiedlichen

Wissenschaften unterschiedlich verwendet. Es ist also immer eine genaue Begriffsbestimmung nötig. So bedeutet beispielsweise ein „Zeichen“ in der theoretischen Informatik schlicht ein Element eines Alphabets (einer endlichen Menge). In der Linguistik wird jedoch, zurückgehend auf die

9 Zeichentheorie von C. S. Pierce, Wert auf die Einheit von Ausdruck und Inhalt gelegt.

10 Geschichte der Computerlinguistik

3

Geschichte der Computerlinguistik

Die ersten Schritte in Richtung auf eine Computerlinguistik wurden in den 20er und 30er Jahren des vergangenen Jahrhunderts gemacht. Ursprünglich wurde bei Rechenmaschinen lediglich an numerische Probleme

gedacht,

allerdings erkannte man schnell das Potential auch für rein symbolische Verarbeitungen. In der Cl wurde besonders dieser Weg gegangen. Bereits in den 50er Jahren wurde versprochen, dass es bald möglich sein werde, einen Text automatisch in eine andere Sprache zu übersetzen. Dass dies nicht so einfach ist, wie es auf den ersten Blick zu sein scheint, zeigen viele Interferenzfehler; diese können auf allen Ebenen der Sprache auftreten. Das nachfolgende Beispiel illustriert einen idomatischen Interferenzfehler: Deutsch →

Englisch →

Deutsch

Man sieht den Wald vor lauter Bäumen nicht.

You can not see the forest for the trees.

Sie können nicht sehen den Wald vor Bäumen.

Seit den 70er Jahren wird intensiv an solchen Übersetzungsproblemen geforscht, bisher ohne eine konkrete allgemeine Lösung. Das liegt einmal an der Verschiedenheit der Strukturmuster in unterschiedlichen Sprachen. Zweitens sind insbesondere die Semantik und Pragmatik für Computer nur schwer umfassend formal zu behandeln. Allerdings gibt es für einige begrenzte Gebiete durchaus automatische Übersetzungen, die auch funktionsfähig sind. Das gilt insbesondere für Texte aus

nur

einem

einzelnen

fest umgrenzten Bereich.

Wetterberichte

beispielsweise können schon sehr gut automatisch korrekt übersetzt werden und werden auch unterstützend bei der Humanübersetzung verwendet.

11

4

Formale Sprachen und Grammatiken

Seit dem Altertum werden Sprachen und ihre Regeln und Strukturen durch Grammatiken beschrieben. Diese werden meist als Krücken zum Erlernen

Formale Sprachen und Grammatiken

einer Sprache betrachtet, derer man eine Zeitlang bedarf, um sie dann irgendwann zu vergessen, sich ihrer dann entledigt und sie allenfalls noch einmal zur Entscheidung von Zweifelsfällen heranzieht. Dabei dient eine Grammatik meist nur der Beschreibung einer Sprache. Ob es so etwas wie normative Grammatiken überhaupt geben sollte, ist keine philologische sondern eher eine ideologische Frage. Jedenfalls wird durch die Verwendung von Grammatiken ein entscheidender Schritt getan. Es wird nicht mehr eine natürliche Sprache betrachtet sondern letztlich ein mathematisches Objekt: die Menge der sprachlichen Äußerungen, die der Grammatik genügen. Solche Mengen werden auch als formale Sprachen bezeichnet. Formale Sprachen und Grammatiken sind die Grundlagen, die in diesem Skript zunächst behandelt werden sollen.

4.1 Formale Sprachen Formale Sprachen sind mathematische Modelle, die als Abstraktion für eine Sprache, mathematisch: eine Wortmenge, stehen. Dadurch sind sie einer Verarbeitung auf einem Computer zugänglich. Zu den formalen Sprachen zählen vor allem Computersprachen aber auch Abstraktionen, wie sie in der Computerlinguistik behandelt werden. Werden natürliche Sprachen durch einen Computer bearbeitet, so hat die Verwendung formaler Sprachen entscheidende Vorteile: -

exakte Definition von zulässigen Ausdrücken und ihrer Bedeutung,

-

nur sehr beschränkt kontextabhänige Bedeutung (der formalen Darstelllung),

-

leichte Verarbeitung durch konkrete Regeln.

Dies ermöglicht erst die präzise Verarbeitung natürlicher Sprachen, genauer: ihrer formalen Darstelllung. Unter diesen Gesichtspunkten ist es notwendig, einige grundlegende Begriffe zu klären, die im künftigen immer wieder erwähnt werden.

Formale Sprachen

12 Definition

Definition: Ein Alphabet ist eine endliche Menge. Seine Elemente werden Buchstaben oder Zeichen genannt. Ein Wort über einem Alphabet A ist eine endliche Folge von Elementen von A, auch Zeichenkette genannt. Eine Sprache über einem Alphabet A ist eine Menge von Wörtern über A. Zunächst wird immer die Syntax einer formalen Sprache definiert, wenn nötig später auch eine dazu passende Semantik. Eine Syntaxdefinition erfolgt durch eine Festsetzung, welche Zeichenketten in einer Sprache zulässig sind. Man spricht dann von Wohlgeformtheit. Eine Definition der Wohlgeformtheit kann beispielsweise induktiv erfolgen oder durch die Definition einer Ableitungsrelation. Zu jeder formalen Sprache gehört ein Alphabet, aus dem die zulässigen Zeichenketten gebildet werden. In der folgenden Tabelle werden einige konkrete Beispiele hierfür gezeigt. Mathematik

C++

Griechische Buchstaben , , 

In dieser Sprache nicht zulässig (kein Bestandteil des Alphabets)

Ziffern (0,1,2, … ,9)

Zulässig

Buchstaben (a,b,…,x,y,z; A,B, …,X,Y,Z)

Zulässig

Sonderzeichen Tabelle 4-1: kurzes Beispiel von Alphabeten

Die Tabelle ist nicht vollständig und die Unterschiede zwischen den Sprachtypen sind wesentlich gravierender.

4.2 Grammatiken

Grammatiken

Formale Sprachen können durch formale Grammatiken beschrieben werden. Dabei existiert eine endliche Menge von Regeln, mit der eine abzählbare Menge von Wörtern erzeugt werden kann, welche dann wiederum die Sprache bilden. Eine erzeugte Zeichenkette gehört dann der durch die Grammatik G beschriebenen Sprache L(G) an, eine nicht erzeugbare Zeichenkette nicht.

13

Dabei gilt folgende Definition: Eine Grammatik ist ein 4-Tupel G = (N, T, P, V) mit: N ist eine endliche Menge (Nichtterminale) T ist eine endliche Menge (Terminale) mit N ∩ T = ∅ V ∈ N (Startsymbol) P ⊆ (N ∪ T)∗ x (N ∪ T)∗ (Produktionsregeln) Grammatiken

eines

so

abstrakten

Typs

werden

auch

als

Phrasenstrukturgrammatiken bezeichnet. Für die formale Beschreibung von „Wörtern“ von L(G) wird hier eine abstrakte Phrasenstruktur eingesetzt. Als einleitendes Beispiel soll der Satz: „Der Mann sieht die Frau.“1 in diese Struktur

zerlegt

werden.

Die

nachfolgende

Grafik

zeigt

die

erste

Unterteilungsmöglichkeit des Satzes in eine Phrasenstruktur.

Abbildung 2: zerlegter Satz in Phrasen

Die Grammatik soll dann die folgende Struktur haben: N={S, NP, VP, N, V, Det}. Dabei bedeuten S- Satz, NP- Nominalphrase, VP- Verbalphrase, N- Nomen, V- Verb, Det- Determinator T={mann, frau, sieht, der, die} V=S P={SNP.VP, NPDet.N, VPV.NP, Nmann, Nfrau, Vsieht, Detder, Detdie}

1

Damit eine möglichst einfache Betrachtung erreicht werden kann, werden künftig in allen Beispielen durchgängig in Terminalen nur kleine Buchstaben verwendet. Nichtterminale beginnen mit einem Großbuchstaben.

Beispiel

14

Kontextfreie Grammatik

In der Comptuerlinguistik wird mit Phrasenstrukturgrammatiken einer besonderen Art gearbeitet: Eine Grammatik heißt kontextfreie Grammatik, wenn ihre Produktionsregeln eine eingeschränkte Form haben. Definition: Eine kontextfreie Grammatik ist eine Grammatik 𝐺 = (𝑁, 𝑇, 𝑃, 𝑉) mit der zusätzlichen Bedingung 𝑃 ⊆ 𝑁 𝑥 (𝑁𝑇)∗ . Erläuterung zur Grammatik: T bildet die Menge der Terminale. Das sind die Zeichen, aus denen die Wörter gebildet werden. Ein Terminalsymbol kann innerhalb einer Produktionsregel nicht weiter zerlegt werden. Um Verwirrungen im Zusammenhang mit den Begriffen

“Satz“,

„Buchstabe”

oder

Wort

der

natürlichen

Sprache

auszuschließen, sei hier darauf hingewiesen, dass es aufgrund der thematischen Überlagerungen zwischen der Computer-Linguistik und der natürlichen Sprache

bedeutungsfremde Überschneidungen gibt. Die

Buchstaben sind in diesem Zusammenhang die Wörter des Satzes: der, mann, sieht, die, frau. Dabei bildet also etwa „der“ einen einzigen Buchstaben. Der gesamte Satz ist in der Computer-Linguistik als ein Wort zu verstehen. Die Grammatik beschreibt also streng genommen in Hinblick auf die ComputerLinguistik nun nicht wie man Sätze bildet, sondern wie man alle Wörter einer Sprache erzeugen kann. Die Menge N der Nichtterminalen sind sprachlich abstraktere Hilfskonstrukte der Grammatik, die für Strukturen der Sprache stehen. Diese werden über eine Produktionsregel nach und nach durch Terminale ersetzt. Innerhalb eines Wortes finden sich daher keine Nichtterminale wieder. Aus dem Beispiel aus Error! Reference source not found. lassen sich folgende Nichtterminale bilden: N={Satz, NP, VP, Det, N,V} Die Produktionsregeln bestimmen die Strukturen. So sagt etwa die obige Regel SNP VP, dass ein S (Satz) aus einer NP (Nominalphrase) und einer VP (Verbalphrase) besteht.

15

Das Startsymbol der Beispielgrammatik ist S. Hier wird bestimmt, als was das zu untersuchende Konstrukt analysiert werden soll, im Beispiel also als ein S, ein Satz.

In der Computerlinguistik wird oft sogar mit Grammatiken gearbeitet, bei

Bemerkung

denen P eine noch weiter eingeschränkte Form hat: 𝑃 ⊆ 𝑁𝑥𝑁 ∗ ∪ 𝑁𝑥𝑇. Dabei stehen Regeln der Form 𝑁𝑥𝑁 ∗ für eine Struktur und Regeln der Form 𝑁𝑥𝑇 beschreiben das Wortinventar.

4.3 Ableitungen

Grammatiken

Die formale Ableitungsrelation  beruht auf den Produktionsregeln: Definition: Ein Wort 𝑤1  (N ∪ T)∗ kann in einem Schritt in ein 𝑤2  (N ∪ T)∗ abgeleitet werden, in Zeichen: 𝑤1  𝑤2, wenn 𝑤1 ein Nichtterminales N und P eine Produktion der Form Nw enthalten, so dass 𝑤2 sich von 𝑤1 nur dadurch unterscheidet, dass N durch w ersetzt wurde. Will man über Ableitungen mit mehr als einem Schritt reden, so muss mit der Relation * , der reflexiven, transitiven Hülle von  gearbeitet werden. Die

Anwendung

einer

kontextfreien

Produktionsregel

bei

einem

Ableitungsschritt hängt also nur davon ab, ob die linke Seite der Regel, welche ja nur aus einem Nichtterminalen besteht, in der zu bearbeitenden Zeichenkette vorkommt. Der Kontext des Nichtterminalen spielt dabei keine Rolle. Das erklärt den Namen „kontextfrei“. Aus der Anwendung der Produktionsregel würde z.B. das Wort: „der mann sieht die frau“ aus dem Anfangssymbol S folgendermaßen abgeleitet werden können: (*)

S  NP. VP  Det. N.VP  der. N. VP  der. mann. VP  der. mann.V.

NP  der. mann. sieht. NP  der. mann. sieht. Det. N  der. mann. sieht. die. N  der. mann. sieht. die. frau

16

Auf diese Weise definiert jede Grammatik eine Sprache, wobei wir uns hier nur für kontextfreie Grammatiken interessieren.. Definition: Sei G eine kontextfreie Grammatik. Die Sprache der Grammatik ist dann definiert durch L(G) = {w ∈ T*| V * w}. L(G) beschreibt also die Menge aller Wörter, die sich auf diese Weise mit Hilfe der Produktionen von G ableiten lassen. Übungsaufgabe: Überlegen Sie sich, dass sich jede kontextfreie Sprache auch durch eine Grammatik mit der eingeschränkten Form 𝑃 ⊆ 𝑁𝑥𝑁 ∗ ∪ 𝑁𝑥𝑇 beschreiben lässt.

Wie man leicht sieht, ist die Ableitung eines Wortes nicht eindeutig. Wir hätten im Beispiel auch wie folgt vorgehen können: (**)

S  NP. VP  NP.V. NP  NP.V. Det.N NP.V. Det. frau  NP.V. die.

frau  NP. sieht. die. frau  Det. N. sieht. die. frau  Det. mann. sieht. die. frau  der. mann. sieht. die. frau Definition:

Eine

Ableitung

heißt

Linksableitung,

wenn

in

jedem

Ableitungsschritt das am weitesten links stehende Nichtterminale ersetzt wird. Entsprechend wird eine Rechtsableitung definiert. Neben den eben gesehenen Beispielen einer Links- und einer Rechtsableitung gibt es in der Regel weitere Beispiele für Ableitungen eines Wortes mit Hilfe einer Grammatik. Übungsaufgabe: Finden Sie weitere Beispiele für Ableitungen des Wortes „der mann sieht die frau“.

17

4.4 Ableitungsbäume

Die Ableitung eines Wortes mit Hilfe einer kontextfreien Grammatik wird im

Ableitungsbaum

allgemeinen durch einen Ableitungsbaum beschrieben. Ableitungsbäume sind dabei nicht einem Wort zugeordnet sondern der Ableitung des Wortes. Bäume sind zyklenfreie zusammenhängende Graphen. Ein ausgezeichneter Knoten, in Abbildungen meistens der oberste, wird Wurzel genannt. Von der Wurzel gibt es zu jedem Knoten genau einen Weg. Ableitungsbäume werden folgendermaßen von der Wurzel aus konstruiert: Sei S=w0  w1  …  wn=w eine Ableitung des Wortes w. Jedem wi wird induktiv ein Baum Bi zugeordnet. Als Invariante gelte dabei, dass das Wort wi in den Blättern von Bi von links nach rechts zu lesen ist. Der Baum B0 besteht nur aus dem Startsymbol S. Sei schon Bi konstruiert. Der Übergang wi  wi+1 wird dadurch realisiert, dass wi ein Nichtterminales N enthält und es eine Produktionsregel Nx1…xk gibt, so dass wi+1 durch die entsprechende Ersetzung entsteht Dann entstehe Bi aus Bi+1 dadurch, dass x1,…,xk als neue Knoten hinzugefügt werden mit einer Kante vom entsprechenden N zu jedem der neuen xi. Entsprechend der Konstruktion ist damit die Invariante aufrecht erhalten. Der Prozess endet, sobald sich in den Blättern keine Nichtterminalen mehr finden und daher keine Produktionsregeln mehr angewendet werden können. Für Ableitungsbäume gilt gemäß Konstruktion generell: 1. Innere Knoten sind Nichtterminale. 2. Blätter sind Terminale. 3. Der analysierte Ausdruck wird in den Blättern von links nach rechts gelesen.

Bemerkung

18

S NP

VP

Det

N

V

der

mann

sieht

NP Det

N

die

frau

Abbildung 3: Ableitungsbaum

Wird bei der Konstruktion des Ableitungsbaumes gemäß der Linksableitung (*) vorgegangen, so entstehen die Knoten in Abbildung 1

in der Reihenfolge

eines „left-first-Durchlaufs“. Wie der aufmerksame Leser unschwer feststellt, tritt bei dieser Konstruktion eines Ableitungsbaumes ein gewisser Nichtdeterminismus auf. Wir hätten aber auch in der Reihenfolge der Rechtsableitung (**) vorgehen können. Dann wären die Konten in Abbildung 1 in der Reihenfolge eines „right-first-Durchlaufs“ entstanden. Bei anderen Ableitungsreihenfolgen wären auch die Knoten des Baumes in anderer Reihenfolge entstanden. In jedem Falle wäre der Baum, den man als Ergebnis erhält aber der gleiche.

Übungsaufgabe: Machen Sie sich genau klar, wieso diese Form des Nichtdeterminismus, bei der nur die Reihenfolge der Ableitungsschritte sich ändert, bei kontextfreien Grammatiken (im Gegensatz zu allgemeineren Grammatikklassen) keine Rolle spielt. Genau hier liegt der Grund, dass Ableitungsbäume in den allgemeineren Klassen keine Rolle spielen.

19

4.5 Mehrdeutigkeit Wir halten einige Ergebnisse bezüglich des Nichtdeterminismus bei Ableitungsbäumen fest: 1. Jeder Ableitung entspricht genau ein Baum. 2. Jedem Baum entsprechen im allgemeinen mehrere Ableitungen, bei denen die gleichen Ableitungsschritte, allerdings in unterschiedlicher Reihenfolge, angewendet werden. 3. Jedem Baum entspricht genau eine Links- und genau eine Rechtsableitung. 4. Warnung: Es kann aber auch zwei oder mehr verschiedene Bäume für den gleichen Ausdruck geben, dann aber auch für jeden Baum eine Links- und eine Rechtsableitung. 5. Zwei Ableitungsbäume für einen Ausdruck sind unerwünscht 6. Vermeidungsstrategien: im Beispiel Punkt vor Strichrechnung oder Anpassung der Grammatik 7. Diese Strategien funktionieren in natürlichen Sprachen häufig nicht Zwei Ableitungsbäume für einen Ausdruck weisen auf unterschiedliche Lesarten hin und sind daher unerwünscht. Das soll jetzt für ein anschauliches Beispiel aus der Arithmetik illustriert werden: Beispiel: Arithmetische Ausdrücke können durch die folgende Grammatik erzeugt werden: Exp  Zahl |Variable |(Exp) | Exp op Exp op  + | - | * | / Streng genommen, müsste eine leicht erweiterte Version betrachtet werden, in der auch noch erklärt wird, was als Zahlen und Variablen zulässig ist. Das ist in dieser Form in der Praxis (Compilerbau) aber nicht üblich. Der Ausdruck 1+2∙3 kann zwei Lesarten haben, die sich in zwei Ableitungsbäumen zeigen: Der erste Ableitungsbaum rechtfertigt sich durch die Linksableitung

Bemerkung

20 Exp  Exp op Exp  Exp op Exp op Exp  Zahl op Exp op Exp  1 op Exp op

Exp Exp Exp

op

Exp

Zahl

+

Zahl

1

Exp

op

Zahl



3

2

Abbildung 2: Ableitungsbaum

Exp 1 + Exp op Exp  1 + Zahl op Exp  1 + 2 op Exp  1 + 2 * Exp 1 + 2 * Zahl 1 + 2 * 3 Der zweite Ableitungsbaum entspricht einer anderen Linksableitung:

Exp Exp

op

Zahl

+

1

Exp Exp

Exp Zahl

op

Zahl

2



3

Abbildung 3: Ableitungsbaum

Exp  Exp op Exp  Zahl op Exp  1 op Exp 1 + Exp 1 + Exp op Exp  1 + Zahl op Exp 1 + 2 op Exp  1 + 2 * Exp  1 + 2 * Zahl 1 + 2 * 3 Warum ist diese Mehrdeutigkeit nun unerwünscht? Die Antwort gibt das Konzept der „attributierten Grammatik“.

21

Eine attributierte Grammatik ist eine kontextfreie Grammatik, bei der Nichtterminale um einen Wert, das Attribut, erweitert sind. Zusätzlich gibt es Regeln und Bedingungen für die Berechnung dieser Attribute. Für die Art, wie Attributberechnungen erfolgen können, gibt es ausgefeilte Methoden im Compilerbau. Wir werden uns für die Computerlinguistik in diesem und in späteren Kapiteln auf den (einfachen) Fall beschränken, dass die Auswertung bottom up, also induktiv, erfolgt.2 Der Induktionsanfang wird dadurch gelegt, dass der Attributwert für die relevanten Blätter bekannt ist und es Regeln gibt, mit deren Hilfe sich der Attributwert des Vaterknotens aus den Werten seiner Kinderknoten errechnen lässt. In Abbildung 5 ist der Ableitungsbaum aus Abbildung 4 um ein in rot gehaltenes Attribut, den Wert, erweitert. Hier handelt es sich um ein Exp/9 Exp/3 Exp/1 Zahl/1

op/*

op/+

Exp/2

+/+

Zahl/2

1/1

∙/*

Exp/3 Zahl/3 3/3

2/2

Abbildung 4: Ableitungsbaum mit Attributen

synthetisches Attribut. Übungsaufgabe: Wie sehen die Attributwerte für den Ableitungsbaum aus Abbildung 1 aus? Es ergeben sich also, abhängig von den Ableitungsbäumen, zwei verschiedene Attributwerte für die Wurzel und damit für den gesamten arithmetischen Ausdruck. Im täglichen Leben wird dies durch allgemein akzeptierte Regeln

2

Man spricht hier von synthetischen Attributen und S-attributierten Grammatiken. Eine umfangreichere Klasse sind die im Compilerbau häufig benutzten L-attributierten Grammatiken. Bei diesen ist eine reine bottom-up-Bearbeitung nicht mehr möglich.

22 nach Möglichkeit umgangen, es wird also intuitiv der „richtige“ Baum ausgewählt . Beim ersten Ableitungsbaum ist etwa die mathematische Regel „Punktrechnung geht vor Strichrechnung“ missachtet worden. Was ist nun bei der Mehrdeutigkeit anders als beim Nichtdeterminismus des vorhergehenden Unterkapitels? Der Vergleich der beiden Linksableitungen für den arithmetischen Ausdruck 1+2*3 gibt die Antwort: Beim ersten Schritt Exp  Exp op Exp sind beide Ableitungen noch identisch, aber im folgenden Schritt wird eine Ableitung durchgeführt, die bei der jeweils anderen Linksableitung, nie, auch nicht zu einem späteren Zeitpunkt, vorkommt. Der Schritt Exp op Exp  Exp op Exp op Exp in der ersten Ableitung wird dadurch bewirkt, dass das linke Exp – wir sind in einer Linksableitung! – durch den Ausdruck Exp op Exp ersetzt wird. Bei der zweiten Ableitung wird an dieser Stelle die Regel Exp  Zahl angewandt, was ausschließt, dass für das erste Exp des Ausdrucks jemals die Regel Exp  Exp op Exp benutzt werden kann, wie bei der ersten Ableitung. Also können die beiden Ableitungen sich nicht nur in der Reihenfolge der Ableitungsschritte unterscheiden, sondern sogar in Art der Ableitungsschritte. Dem spricht nicht entgegen, dass auch in der zweiten Ableitung einmal die Regel Exp  Exp op Exp herangezogen wird. Sie wird aber auf das zweite (und nicht das erste) Vorkommen des Nichtterminalen Exp nach dem ersten Ableitungsschritt angewandt. Man steht also nach dem ersten Schritt Exp  Exp op Exp vor der zunächst nur schwer zu lösenden aber mit gravierenden Konsequenzen behafteten Frage, ob das linke Exp mit der Regel Exp  Exp op Exp oder mit der Regel Exp  Zahl behandelt werden soll. Auch hier tritt also ein gewisser Nichtdeterminismus auf. Bemerkung: Der Umgang mit dieser Art des Nichtdeterminismus unterscheidet die Syntaxanalyse bei formalen und bei natürlichen Sprachen ganz erheblich: 1. Formale Sprachen sind setzend („normativ“) Es kann schon bei der Definition etwa einer Programmiersprache von Anfang an darauf geachtet werden, dass es eine Grammatik mit den gewünschten Eigenschaften, beispielsweise der Abwesenheit von Mehrdeutigkeit, tatsächlich gibt.

23 2. Bei den beschreibenden („deskriptiven“) Grammatiken für natürliche Sprachen ist ein solcher Ansatz nicht möglich. Im allgemeinen ist zum Beispiel Mehrdeutigkeit einer Grammatik gar nicht zu vermeiden. Es gibt nun einmal für manche Sätze syntaktisch mehrere Lesarten. Entsprechend gibt es verschiedene Strategien für den Umgang mit diesem Nichtdeterminismus: 1. Bei formalen Sprachen wird eine Sprache gemeinsam mit einer angemessenen Grammatik entworfen. Im Compilerbau gibt es beispielsweise die LR(n) – Grammatiken, mit deren Hilfe durch Betrachtung von n Eingabeelementen Mehrdeutigkeit vermieden werden kann. S-Attribute können vernünftig ausgewertet werden. Sollen sogar L-Attribute gut ausgewertet werden können, so müssen die einschränkenderen LL(n) – Grammatiken verwendet werden. 2. Bei formalen Sprachen könnte der Nichtdeterminismus einfach ignoriert und die richtige Produktion einfach geraten werden. Das dann erforderliche Backtracking würde aber zu erheblichen Kosten im Verlauf der praktischen Analyse führen. Ein sinnvolles Ziel ist daher die Verringerung dieser Kosten durch intelligentere Datenstrukturen, zum Beispiel die im nächsten Kapitel eingeführten Charts.

24

5 Parsing Lat. Pars = Teil

Parsing

Parsing ist im Allgemeinen eine automatische Zerlegung von komplexen Zeichenketten nach vorgegebenen Mustern. Alle Parsing Verfahren haben dabei die folgenden Eigenschaften gemeinsam: 1. Eingabe: ↳

Formale

Beschreibung einer Sprache, meist eine

(oft

kontextfreie) Grammatik und ↳

ein sprachlicher Ausdruck, welcher zerlegt werden soll.

2. Ausgabe: ↳

Ja/Nein

als Antwort auf die Frage, ob die gegebene

Zeichenkette zur Sprache gehört oder nicht. In diesem Falle spricht man auch von einem „recogniser“. Oder: ↳

eine Datenstruktur, etwa ein Ableitungsbaum, die zur Grundlage weiterer Verarbeitungsschritte wird.

Ein erster Arbeitsschritt ist es, die gegebene Zeichenkette in ihre elementaren Bestandteile, oft „token“ genannt, zu zerlegen und die gefundenen Bestandteile möglichst schon zu klassifizieren. Beispiel: Der Ausdruck „der mann sieht die frau“ ist für den Computer zunächst eine einzige große Zeichenkette, die elementaren Teilzeichenketten „der“, „mann“, „sieht“, „die“, „ frau“ zerlegt werden muss. Diese Aufgabe ist nicht so einfach, wie es auf den ersten Blick scheinen mag. Denn das Leerzeichen ist nicht der einzige Trenner und die Struktur der Trennzeichen kann kompliziert sein. Ein Programm, das die Zerlegung in token bewirkt, wird „Lexer“ genannt. Lexer arbeiten meist mit Hilfe von endlichen Automaten. Der Komplexität der Arbeit eines Lexers entspricht es, ihn dann nach Möglichkeit auch schon zu einer Klassifizierung der token zu verwenden.

5.1 Backtrack-Parsing Beim Backtrack-Parsing wird zu jedem Zeitpunkt auf einer Datenstruktur der Form (w1, w2) gearbeitet. Dabei beschreiben 𝑤1 ∈ (𝑇 ∪ 𝑁)∗ als was der Rest

25 der Eingabe analysiert werden soll und 𝑤2 ∈ 𝑇 ∗ das entsprechende Endstück der Eingabe. Die initiale Datenstruktur hat die Form (S,w). Dabei sind S das Startsymbol der Grammatik und w das zu untersuchende Eingabewort. Im Algorithmus werden dann drei Schritte immer wieder vorgenommen. 1. EXPAND ↳

Falls w1 mit einem Nichtterminalen N beginnt, wird N zu der rechten Seite w einer Grammatik-Produktion der Form N  w expandiert. Hier findet also ein Raten statt, welche der Grammatik-Produktionen genommen werden muss, falls es mehrere mit der linken Seite N gibt.

2. SCAN ↳

Falls w1 mit einem Terminalen T beginnt, wird T mit dem ersten Symbol des Eingaberestes w2 verglichen. Steht auch dort ein T, werden die beiden initialen Symbole T gestrichen. Steht dort ein anderes Terminales, so wird ein Backtrack nötig.

3. Backtrack ↳

Es werden alle Schritte ungültig gemacht bis zum letzten EXPAND, bei dem willkürlich eine Grammatik-Produktion der Form N  w geraten und expandiert wurde. Hier wird also einfach vermutet, dass beim letzten Mal falsch geraten wurde. Wurden noch nicht alle Grammatik-Produktionen der Form N  w ausprobiert, kann mit einer anderen derartigen Grammatik-Produktion fortgefahren werden. Sonst muss noch weiter zu einer früheren Stelle zurückgegangen werden, an der noch die Auswahl einer bisher ungenutzten Regel möglich ist.

Das Verfahren kann mit zwei Ergebnissen enden: 1. Beim Backtrack wird keine vorhergehende Stelle gefunden, bei der noch weitere bisher ungenutzte Produktionsregeln vorhanden sind. Dann ist w kein Element der durch die Grammatik beschriebenen Sprache.

26 2. Es wird die Konfiguration (ε, ε), also auf beiden Seiten das leere Wort, erreicht. Dann ist das Wort w in der Sprache enthalten. Es ist leicht, den Algorithmus so auszubauen, dass nebenher ein Ableitungsbaum konstruiert wird, falls einer existiert.

Beispiel

Beispiel: Im folgenden wird davon ausgegangen, dass für die möglichen Regeln eine feste Reihenfolge vorgegeben ist. Die EXPAND-Schritte sollen immer genauso abgearbeitet werden. 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17.

(S, der mann sieht die frau) (NP VP, der mann sieht die frau) (Det N VP, der mann sieht die frau) (der N VP, der mann sieht die frau) (N VP, mann sieht die frau) (mann VP, sieht die frau) (VP, sieht die frau) (V NP, sieht die frau) (sieht NP, sieht die frau) (NP, die frau) (Det N, die frau) (der N, die frau) (die N, die frau) (N, frau) (mann, frau) (frau, frau) (ε,ε)

EXPAND EXPAND EXPAND SCAN EXPAND SCAN EXPAND EXPAND SCAN EXPAND EXPAND kein SCAN, backtrack SCAN EXPAND kein SCAN, backtrack SCAN Endkonfiguration

Tabelle 5-1: Beispiel Backtrack-Parsing

Damit ist algorithmisch nachgewiesen, dass „der mann sieht die frau“  L(G) ist.

27

5.2 Chart-Parsing Um Mehrfachanalysen eines Satzteiles zu vermeiden, hat man das Chart-

Chart-Parsing

Parsing entwickelt. Das Chart-Parsingverfahren zeichnet sich dadurch aus, dass es sich bereits analysierte Teile eines Satzes merkt. Definition:

Definition

1. Ein Chart ist eine endliche Folge von Items. 2. Ein Item ist eine Struktur 𝑛1 𝑛2 𝑤1 → 𝑤2 ∙ 𝑤3 . Dabei sind 𝑛1 𝑛2 ∈ 𝑁0 , 𝑛1 ≤ 𝑛2 , 𝑤1 → 𝑤2 𝑤3 ∈ 𝑃. Die intuitive Bedeutung soll an einem Beispiel erläutert werden: Bei einer Analyse von „0 der

1

mann

2

sieht

3

die

4

frau 5“ entsteht an einer

Stelle des Algorithmus das Item 𝑛1 𝑛2 𝑤1 → 𝑤2 ∙ 𝑤3 mit 𝑛1 = 0, 𝑛2 = 2. Der Rest des Items habe die Form 𝑆 → 𝑁𝑃 ∙ 𝑉𝑃. Die Zahlen zeigen an, welche Teile schon analysiert und bestimmt sind. Der Punkt trennt den schon analysierten und bestimmten Teil von der Vorhersagekomponente, dem noch spekulativen Rest. Hier würde das bedeuten, dass die von 0 bis 2 reichende Zeichenkette „0 der

1

mann 2“ bereits bestimmt ist. Und da sich links des Punktes das

Nichtterminale NP befindet, wissen wir auch, als was der Teil von 0 bis 2 analysiert worden ist: als Nominalphrase (NP). Zusätzlich wissen wir: Können wir den Rest als VP bestimmen (soweit die Spekulation), dann ist das ganze Konstrukt ein S, ein Satz.

Der am weitesten verbreitete Chart-Parsing- Algorithmus ist der 1970 von Jay Earley vorgestellte Earley-Algorithmus. Er zeichnet sich besonders dadurch aus, dass er kein Backtracking nutzt. Es werden zeitgleich alle Alternativen verfolgt. Am Ende des Parsingvorgangs sind alle alternativen Syntaxanalysen in der Chart. Eingabe: Eine kontextfreie Grammatik G, ein Wort W der Länge n Ausgabe:

ja, wenn W  ℒ(G) nein sonst

Es ist auch leicht, den Algorithmus so zu modifizieren, dass für den Fall W  ℒ(G) ein Ableitungsbaum für W ausgegeben wird (oder sogar alle).

Beispiel

28 Zu Anfang stehen Items eines einzigen Typs in der Chart. Dies soll jetzt für die Zeichenkette „0 der 1 mann 2 sieht 3 die 4 frau 5“ erläutert werden: Diese soll als ein Satz (S) analysiert werden. Für das Nichtterminale S gibt es hier nur eine Regel S  NP VP. Zu Anfang ist alles von der 0-ten bis zur 0-ten Stelle analysiert, also n1 = n2 = 0. Der Punkt steht anfangs ganz links, da noch nichts sicher analysiert und der weitere Verlauf noch Spekulation ist. Am Anfang gilt dort also S  ∙ NP VP, und damit wird das Item 0 0 S  ∙ NP VP in die Chart eingefügt. Im allgemeinen Fall müssen zum Start alle Items des Typs 0 0 V  ∙ w in die Chart eingefügt werden. Dabei seien V das Startsymbol der Grammatik und V  w alle Produktionen mit V als rechter Seite. Im Wesentlichen besteht der Earley-Algorithmus aus drei Schritten, die immer in einer geeigneten Reihenfolge wiederholt werden: -

Expand oderPredict,

-

Scan,

-

Complete.

Der Algorithmus terminiert, wenn ein Item 0 𝑛 𝑉 → 𝑤 ∙ aufgefunden wird. Alternativ kann auch nach allen Items des Typs 0 𝑛 𝑉 → 𝑤 ∙ gesucht werden. Dabei seien n die Länge des zu untersuchenden Wortes, V das Startsymbol der Grammatik und V  w alle Produktionen mit V als rechter Seite.

Diese Schritte des Algorithmus werden anhand eines auch später bedeutenden Beispiels näher erklärt. Wir versuchen wieder die Zeichenkette „der mann sieht die frau“ abzuleiten und zwar mittels einer Grammatik mit dem Startsymbol S und den Produktionsregeln 𝑆 → 𝑁𝑃 𝑉𝑃, 𝑁𝑃 → 𝐷𝑒𝑡 𝑁 , 𝑉𝑃 → 𝑉 | 𝑉 𝑁𝑃 , 𝑉 → 𝑖𝑠𝑠𝑡|𝑠𝑖𝑒ℎ𝑡 , 𝑁 → 𝑚𝑎𝑛𝑛|𝑓𝑟𝑎𝑢 , 𝐷𝑒𝑡 → 𝑑𝑒𝑟|𝑑𝑖𝑒.

29 Das Ergebnis des Algorithmus ist die folgende Chart. An der Existenz des Items 30 ist zu sehen, dass die Ableitung erfolgreich war.

Danach wird

erläutert 1. welches die drei Schritte des Algorithmus genau sind, und 2. wie die Reihenfolge ihrer Anwendung gesteuert wird. ItemBereich Nr. 1 0 0 2 0 0 3 0 0 4 0 0 5 0 1 6 0 1 7 1 1 8 1 1 9 1 2 10 0 2 11 0 2 12 2 2 13 2 2 14 2 2 15 2 2 16 2 3 17 2 3 18 2 3 19 0 3 20 3 3 21 3 3 22 3 3 23 3 4 24 3 4 25 4 4 26 4 4 27 4 5 28 3 5 29 2 5 30 0 5

Item

Konstruiert durch

S ∙ NP VP NP  ∙ Det N Det  ∙ der Det  ∙ die Det  der ∙ NP  Det ∙ N N  ∙ mann N  ∙ frau N  mann ∙ NP  Det N ∙ S  NP ∙ VP VP  ∙ V VP  ∙ V NP V  ∙ isst V  ∙ sieht V  sieht ∙ VP  V ∙ VP  V ∙ NP S  NP VP ∙ NP  ∙ Det N Det  ∙ der Det  ∙ die Det  die ∙ NP  Det ∙ N N  ∙ mann N  ∙ frau N  frau ∙ NP  Det N ∙ VP  V NP ∙ S  NP VP ∙

Initial Expand 1 Expand 2 Expand 2 Scan 3 Complete 5 + 2 Expand 6 Expand 6 Scan 7 Complete 9+6 Complete 10+1 Expand 11 Expand 11 Expand 12+13 Expand 12+13 Scan 15 Complete 16+12 Complete 16+13 Complete 17+11 Expand 18 Expand 20 Expand 20 Scan 22 Complete 23+20 Expand 24 Expand 24 Scan 26 Complete 27+24 Complete 28+18 Complete 29+19

Tabelle 5-2: Earley-Algorithmus

Die Schritte des Verfahrens:

Verbleibender Text der mann sieht die frau der mann sieht die frau der mann sieht die frau der mann sieht die frau mann sieht die frau mann sieht die frau mann sieht die frau mann sieht die frau sieht die frau sieht die frau sieht die frau sieht die frau sieht die frau sieht die frau sieht die frau die frau die frau die frau die frau die frau die frau die frau frau frau frau frau ε ε ε ε

30 Expand

Wir brauchen in der Chart ein Item der Form n1 n2 𝛼 → 𝛽 ∙ 𝑋 𝛾

(Predict)

mit 𝛼 ∈ 𝑁, 𝛽 ∈ (𝑁 ∪ 𝑇)∗ , 𝑥 ∈ ℕ, 𝛾 ∈ (𝑁 ∪ 𝑇)∗ und in P muss es eine Produktionsregel X  δ geben. Dann können wir zum Chart ein Item der Form n2 n2 X  ∙δ hinzufügen.

Scan

Wir brauchen in der Chart ein Item der Form n1 n2 𝛼 → 𝛽 ∙ 𝑡 𝛾 mit ni, α, β, γ wie oben und tT; und im zu analysierenden Satz, muss an Position n2+1 ein t stehen. Dann kann dem Chart ein Item der Form n1 n2+1 𝛼 → 𝛽 𝑡 ∙ 𝛾 hinzugefügt werden.

Complete

Wir brauchen ein Item der Form n1 n2 𝛼 → 𝛽 ∙ und ein Item der Form n3 n1 γ  δ ∙ α ε mit γ N, β T, α N, δ, ε  (N ∪ T)*. Dann kann ein Item der Form n3 n2 γ  δ α ∙ε hinzugefügt werden.

Der Ablauf des Verfahrens wird wie folgt gesteuert: Es gibt im Verlauf immer ein aktuelles Item, das zur Produktion neuer Items benutzt wird, die dann hinten an die Chart gehängt werden. Das Verfahren endet, wenn alle Items schon zur Konstruktion neuer Items benutzt worden sind und kein neues aktuelles Item gefunden werden kann. Anfangs ist das aktuelle Item das Startitem. In jedem Schritt gibt es drei Möglichkeiten: 1. Falls beim aktuellen Item hinter dem Punkt ein Nichtterminales n steht, also ein Item der Form n1 n2 𝛼 → 𝛽 ∙ 𝑛 𝛾 vorliegt, werden Expand-Schritte durchgeführt: Für jede Produktionsregel der Form n  δ wird ein Item der entsprechenden Form angehängt. 2. Falls beim aktuellen Item hinter dem Punkt ein Terminales t steht, also ein Item der Form n1 n2 𝛼 → 𝛽 ∙ 𝑡 𝛾 vorliegt, wird ein Scan-Schritt versucht. Findet sich an der Stelle n2+1 im zu analysierenden Wort ebenfalls ein t, wird ein Item der entsprechenden Form angehängt. 3. Falls beim aktuellen Item hinter dem Punkt nichts mehr steht, also ein Item der Form n1 n2 𝛼 → 𝛽 ∙ vorliegt, wird ein Complete-Schritt versucht. Es werden in der Chart Items der Form n3 n1 w1  δ ∙ α w2 gesucht und im Erfolgsfall die entsprechenden Items angehängt.

31 Übungsaufgabe: Wie muss der Algorithmus modifiziert werden, damit nicht nur eine ja/nein-Entscheidung als Ergebnis herauskommt sondern ein Ableitungsbaum?

32

6

Lexikalisch Funktionale Grammatik (LFG)

Im Folgenden wählen wir uns zwei wichtige Probleme der Computerlinguistik aus, die im Prinzip auch mit kontextfreien Grammatiken und dem EarleyAlgorithmus gelöst werden könnten: 1. der Kongruenz, 2. der Subkategorisierung. Kongruenz

Punkt1 bedeutet: In der deutschen Sprache besteht Kongruenz, also Übereinstimmung zwischen den zusammengehörenden Satzteilen bezüglich Kasus (Nominativ, Genitiv, Dativ, Akkusativ), Numerus (Singular/Plural) und Genus (männlich/weiblich). In der Sprache des obigen Beispiels lässt sich auch die im Rahmen der deutschen Sprache ungrammatische Nominalphrase „die mann“ ableiten. Die Konstruktion ist ungrammatisch, weil sie gegen die Kongruenz verstößt. Es ist ohne Kenntnis des Kontextes unklar, in welcher Weise dies hier geschieht. 1. Es könnte sich um einen Verstoß bezüglich des Genus handeln. Richtig wäre dann „der mann“. 2. Liegt hingegen ein Verstoß bezüglich des Numerus vor, wäre entweder „der mann“ oder „die männer“ richtig.

Subkategorisierung

Punkt 2 bedeutet, dass einige Wörter/Phrasen Leerstellen mit bestimmten Eigenschaften eröffnen. Diese Leerstellen müssen durch Satzteile ausgefüllt werden. Als Beispiel für Leerstellen seien einige mögliche Werte für die Stelligkeit der Verben genannt: Neben der obligatorischen Forderung eines Subjekts im 1. Fall erfordern (mit den verlangten Kasus) in Klammernh  schlafen

(-)

 sehen

(4)

transitive Verben

 anklagen

(4,2)

transitive Verben

 geben

(3,4)

transitive Verben

 kosten

(4,4)

 gedenken

(2)

 vertrauen

(3)

33

Andere Beispiele für obligatorisch eröffnete Leerstellen sind etwa -

Präpositionalphrasen bei Verben („Er wohnt in Berlin.“),

-

Nominalphrasen nach Präpositionen („über den Wolken.“).

6.1 Defizite von kontextfreien Grammatiken Um die Kongruenz in Nominalphrasen zu sichern, könnte man folgenden Ansatz versuchen: Es gibt nicht nur das Nichtterminale NP, sondern es werden im Nichtterminalen

gleich Indizes mit den entsprechenden Attributen

angegeben. So könnte die Nominalphrse „der mann“ erszeugt werden mit Hilfe der Regeln NPNom,Sg,mask  Det Nom,Sg,mask N Nom,Sg,mask Det Nom,Sg,mask  der N Nom,Sg,mask  mann Wird diese Idee konsequent verfolgt, sind Konstruktionen wie „die mann“ ausgeschlossen. Ähnlich könnte man beim Problem der Subkategorisierung vorgehen: Die verschiedenen Ergänzungen für Verben könnten folgendermaßen ins Spiel gebracht werden: VP  V | V4 NP4 | V4,2 NP4 NP2 | V3,4 NP3 NP4 | … V  schläft V4  sieht V4,2 beschuldigt V3,4  gibt NP4  NPAkk,Sg,mask | NPAkk,Sg,fem | NPAkk,Sg,neutr |NPAkk,Pl,mask | NPAkk,Pl,fem | NPAkk,Pl,neutr Schon dieses winzige Beispiel zeigt, dass die Indizes sehr schnell über jedes Maß an Verständlichkeit wachsen. Deshalb müssen andere Wege gegangen werden.

34

6.2 F-Strukturen Statt mit unübersichtlichen Indizes zu arbeiten verlagert man die entsprechenden Informationen in eigene Strukturen aus, die im Rahmen der LFG auch F-Strukturen genannt werden. Jedem Knoten des Ableitungsbaumes ist dabei eine F-Struktur zugeordnet. F-Strukturen

sind

verallgemeinerte

Funktionen

Diese

haben

Merkmalsstrukturen mit syntaktischen Funktionen (Subjekt, Prädikat, Adjunkt). Es

werden Informationen mit verschiedenen funktionalen

Relationen zwischen Satzteilen koordiniert. Jede F-Struktur besitzt Attribute, welche in einem spezifischen Wertebereich definiert sind. Numerus {𝑆𝑖𝑛𝑔𝑢𝑙𝑎𝑟, 𝑃𝑙𝑢𝑟𝑎𝑙, 𝐷𝑢𝑎𝑙} Person {1, 2, 3} Genus {𝑀𝑎𝑠𝑘𝑢𝑙𝑖𝑛, 𝐹𝑒𝑚𝑖𝑛𝑖𝑛𝑢𝑚, 𝑁𝑒𝑢𝑡𝑟𝑢𝑚} Kasus {𝑁𝑜𝑚𝑖𝑛𝑎𝑡𝑖𝑣, 𝐴𝑘𝑘𝑢𝑠𝑎𝑡𝑖𝑣, 𝐺𝑒𝑛𝑖𝑡𝑖𝑣, 𝐷𝑎𝑡𝑖𝑣 … } Tempus {𝑃𝑟ä𝑠𝑒𝑛𝑠, 𝑃𝑟ä𝑡𝑒𝑟𝑖𝑡𝑢𝑚 … } Diese Attribute können drei Arten von Werten annehmen. Dieser Wert kann ein autonomes Symbol sein z.B. ein indikatives Merkmal [Modus Indikativ]. Ebenso kann es so genannte semantische Formen enthalten. Semantische Formen kommen nur als Wert des Attributes PRED (predictor) vor und werden in ′… ′ eingeschlossen. Der Wert eines Attributes kann auch ebenfalls eine F-Struktur sein, dies gilt z.B. für die grammatischen Funktionen SUBJ, OBJ, OBJ2 usw. In diesem Fall spricht man von subsidiären F-Strukturen.

Eine weitere Vorbemerkung ist ebenfalls nötig: Wir haben oben gesehen, dass es in der Computerlinguistik kontextfreie Regeln von zweierlei Art gibt: Strukturregeln und lexikalische Regeln. Das gesamte Vokabular wird dann in einer Datensammlung verwaltet, dem Lexikon. Wird dieser Vorgang aus einer naiven kontextfreien Perspektive betrachtet, so sind Wörter wie „siehst“, „sieht“ oder „sehen“ nur einfach Terminale ohne eine innere Verbindung. Damit diese Verbindung deutlich wird, bedarf es einer morphologischen Analyse, auf die wir noch zurückkommen werden. Vorläufig bleiben wir bei einem Lexikon, das alle grammatischen Formen eines Wortes enthält. Solche Lexika heißen Vollformenlexika.

35

6.3 Wohlgeformtheit von F-Strukturen Wohlgeformtheit von FZunächst müssen einige Bemerkungen zu den Gliedern eines Satzes gemacht

werden, soweit es ihre Notwendigkeit angeht, damit der Satz noch als grammatisch richtig angesehen werden kann. So muss (im Deutschen) jeder Satz ein Prädikat und ein Subjekt haben. Einige Satzteile werden von anderen Satzgliedern eingefordert. Transitive Verben etwa verlangen ein Objekt im Akkusativ. Andere Verben haben komplexere Abhängigkeiten, zum Beispiel Präpositionalphrasen. Präpositionen verlangen eine Nominalphrase in einem vorgeschriebenen Kasus. Am Beispiel der präpositionalen Ergänzung soll die Notwendigkeit der Satzglieder illustriert werden: -

Die präpositionale Ergänzung kann obligatorisch durch das Verb eingefordert werden. Beispiel: Er wohnt in Berlin.

-

Die präpositionale Ergänzung kann fakultativ durch das Verb hervorgerufen werden. Beispiel: Er wartet auf Godot.

-

Sie kann völlig unabhängig vom Verb für zusätzliche Erläuterungen benutzt werden. Dann handelt es sich um eine freie Angabe. Beispiel: Er besucht uns nach dem Essen.

Bei freien Angaben ist die Einbettung, insbesondere bei komplexen Wechselbeziehungen

zwischen

mehreren

Angaben

nur

schwer

zu

formalisieren. Das Potential für missverständliche Satzkonstruktionen ist hoch. Beispiele: Der Mann sieht die Frau mit dem Fernrohr. Er traf sie am Bahnhof hinter der Autobahn. (Zwei PP vom gleichen Typ, nämlich lokale Ergänzungen) Bei fakultativen Ergänzungen zu einem Satzteil ST kann man sich damit behelfen, dass man die Existenz von zwei Satzteilen ST1 und ST2 im Lexikon annimmt, wobei ST1 die Ergänzung verlangt und eine F-Struktur mit einer entsprechenden Leerstelle eröffnet, während ST2 ohne eine solche Ergänzung auskommt. Für die Wohlgeformtheit von F-Strukturen gibt es drei Bedingungen: 1. Funktionale Eindeutigkeit 2. Vollständigkeit 3. Kohärenz

Strukturen

36 Zu erstens: Funktionale Eindeutigkeit bedeutet, dass jedes Attribut im Definitionsbereich der F-Struktur höchstens einen Wert haben darf. Die beiden anderen Eigenschaften werden zunächst lokal definiert und dann auf die gesamte F-Struktur hochgehoben. Zu zweitens: Als lokal vollständig gilt eine F-Struktur wenn alle regierbaren (obligatorischen) grammatischen Funktionen enthalten sind. Als global vollständig gilt eine F-Struktur wenn sie selbst und alle ihre subsidiären F-Strukturen lokal vollständig sind.

Zu drittens: Als lokal kohärent gilt eine F-Struktur nur dann, wenn alle in ihr enthaltenen regierbaren grammatischen Funktionen durch ein lokales Prädikat regiert werden. Als global kohärent gilt eine F-Struktur dann, wenn alle ihre subsidiären Strukturen lokal kohärent sind. Vollständigkeit bedeutet also, dass nicht zu wenige Argumente vorhanden sind; Kohärenz verhindert, dass es zu viele Argumente gibt. Beispiele: Der Satz „der mann sieht“ ist unvollständig, weil das Verb „sieht“ eine Leerstelle für ein Subjekt und eine für ein Objekt eröffnet. Die subsidiäre FStruktur für das Objekt fehlt jedoch in der zu konstruierenden F-Struktur. Der Satz „der hund bellt die katze“ ist inkohärent, weil das Verb „bellt“ kein Objekt erfordert. Ein Satz kann auch unvollständig und inkohärent zugleich sein. Im der FStruktur zum Satz „der mann gibt die frau das Buch“ fehlt eine subsidiäre FStruktur für das Objekt im Dativ, was zur Unvollständigkeit führt. Stattdessen sind inkonsistenterweise zwei Akkusativobjekte vorhanden. Zunächst soll gezeigt werden, wie man die F-Strukturen für Wörter definieren kann. Diese Eigenschaften gehören also zu den lexikalischen Regeln. Die FStrukturen können ins Lexikon eingetragen werden. Beispiel für F-Strukturen in Nominalphrasen:

37 den Det Cas 4 Num Sg Gen m

der Det Cas 1 2 3 2 Num Sg Sg Sg Pl Gen m f f

mann N Cas 1 3 4 Num Sg Sg Sg Gen m m m

frau N Cas 2 Num Sg Gen f

3 Sg f

Man kann sich die Interpretation einer F-Struktur als eine Disjunktive Normalform vorstellen. Die F-Struktur für „der“ ist also zu lesen als (Cas == 1 ⋀ Num == Sg ⋀Gen==m) ⋁(Cas == 2 ⋀ Num == Sg ⋀Gen==f) ⋁(Cas == 3 ⋀ Num == Sg ⋀Gen==f) ⋁(Cas == 2 ⋀ Num == PL) Der Definitonsbereich und der Wertebereich hängen von der Sprache ab. Eine Sprache, die keine Kasus-Unterschiede kennt, braucht natürlich dort auch nichts zu definieren. Gibt es weitere wichtige Kategorien, so müssen diese auch thematisiert werden. Man könnte sich zum Beispiel vorstellen, dass die Nominalphrase „der mann“ als in der 3. Person befindlich gekennzeichnet werden könnte. Damit kann dann später die Kongruenz bei der Verwendung von „der mann“ als Subjekt mit einem Prädikat, das ebenfalls in der 3. Person steht, erzwungen werden. Im Russischen könnte man noch „Belebtheit“ betrachten. Dann käme oft in den Konjunktionstermen noch der Ausdruck „belebt == +“ oder „belebt == -“ hinzu. Wie man an dem Beispiel für „der“ , wo im letzten Fall das Genus nicht spezifiziert ist, sehen kann, müssen nicht alle Werte festgelegt werden. Für die Interpretation durch eine DNF hat das keine Folgen. Übungsaufgabe: Finden Sie die möglichen F-Strukturen für die Nominalphrase „der händler“. Beispiel für F-Strukturen mit Subkategorisierung: sieht Person Num Temp Subjekt Objekt

V 3 Sg Präs. Cas Num Gen Cas 4 Num Gen

Damit ist zunächst festgelegt, dass „sieht“ eine 3. Person Sg. Präsens ist. Ferner braucht es eine Ergänzung „Subjekt“ und eine Ergänzung „Objekt“. Diese

Cas ≙ Casus Num ≙ Numerus Gen ≙ Genus

38 müssen durch je eine weitere F-Struktur beschrieben werden. An dieser Stelle wird auch schon festgelegt, dass das Objekt im Akkusativ stehen muss. Man könnte an dieser Stelle auch fordern, dass das Subjekt im Nominativ stehen muss. Das würde zu richtigen Ergebnissen führen, aber es würde der üblichen grammatischen Analyse widersprechen. Wir werde stattdessen später die allgemeine grammatische Regel „Subjekte stehen im Nominativ.“ formalisieren.

6.4 Bildung von F-Strukturen zu grammatischen Strukturen Bisher haben wir F-Strukturen nur im Zusammenhang mit Wörtern, also als Einträge des Lexikons, kennen gelernt. Aus der Sicht der Ableitungsbäume heißt das: Wir wissen bisher, wie den Blättern des Ableitungsbaumes F-Strukturen zugeordnet werden können. Künftig werden wir so vorgehen, dass wir die vorliegende Grammatik als attributierte Grammatik mit der F-Struktur als Attribut auffassen. Durch unsere lexikalischen Überlegungen haben wir dann schon den Induktionsanfang gelegt: Die Attribute sind für die Blätter bekannt. Wie oben schon erwähnt, muss das Attribut für den gesamten Satz, also das für die Wurzel des Ableitungsbaumes, jetzt induktiv („bottom up“) bestimmt werden. Wir haben jetzt also zwei Aufgaben: 1. Es muss ein Formalismus eingeführt werden, mit dem die vorliegende kontextfreie Grammatik als attributierte Grammatik mit der F-Struktur als Attribut aufgefasst werden kann. 2. Es muss ein Verfahren entwickelt werden, mit dem dann tatsächlich FStrukturen für ganze Sätze konstruiert werden können. Bei Punkt 1 gehen wir für synthetische Attribute üblichen Weg. Die kontextfreie Grammatik wird ergänzt durch Regeln, die bestimmen, wie das Attribut für den Vaterknoten aus den Attributen für die Kinder berechnet werden kann. Bei der LFG geschieht das mit Hilfe der Metavariablen ↓ und ↑. Der Begriff „Metavariable“ bedeutet hier, dass ↓ und ↑ für Variablen stehen, die ihrerseits F-Strukturen darstellen. Dabei steht ↓ immer für den Kinder- und ↑ für den Vaterknoten. Bei unserem Ansatz ist dann die durch ↓ bezeichnete F-Struktur bekannt, während die durch ↑ bezeichnete F-Struktur neu konstruiert werden muss. Anstatt dass ein allgemeiner Ansatz geschildert wird, soll an einfachen Beispielen illustriert werden, wie bestimmte Probleme angegangen werden können:

39 1. Einfache Nominalphrasen Zur Bildung der F-Struktur der Nominalphrase „der mann“ wird die syntaktische Regel NP  Det N ergänzt um Regeln für das Attribut NP  Det ↑= ↓

N ↑= ↓

Das =-Zeichen ist hier nicht als Gleichheit sondern als Unifikation zu lesen. Für die FStruktur der NP sollen die Eigenschaften der F-Struktur des Determinators und die Eigenschaften der F-Struktur des Nomens gelten. Insgesamt werden also die Strukturen für „der“ und „mann“ logisch durch eine Konjunktion verbunden. Der gesamte Ausdruck muss dann wieder in eine Disjunktive Normalform gebracht werden. Das Ergebnis ist hier der mann Cas Num Gen

NP 1 Sg m

2. Komplexere Nominalphrasen Ähnlich wird verfahren, wenn rechts mehr als zwei Ausdrücke stehen wie in NP  Det

Adj

N

↑= ↓

↑= ↓

↑= ↓

Dann tragen alle drei F-Strukturen der rechten Seite zur F-Struktur der NP durch Konjunktion bei. 3. Pronomina In der Grammatik kann auch die Möglichkeit vorgesehen werden, dass Nominalphrasen durch ein Pronomen gebildet werden. Eine einfache Regel wäre NP  Pro ↑= ↓

Kommt auf der rechten Seite nur ein einziger Ausdruck vor, so wird die F-Struktur der NP einfach von dem Pronomen auf der rechten Seite übernommen. Übungsaufgabe: Wie könnten Pronomina mit einer F-Struktur versehen werden? Um eine formal sinnvolle Behandlung von Pronomina zu ermöglichen, ist es nötig, Schlüsse auf der semantischen Ebene zu ziehen. Insbesondere muss es dann möglich

40 sein, automatisch festzustellen, worauf sich das jeweilige Pronomen bezieht. Diese sogenannte „Anaphern-Resolution“ ist ein großes Problem der theoretischen Linguistik. Es erfordert nicht nur die Analyse einzelner Sätze sondern ganzer Diskurse. Dass man bei der Anaphern-Resolution nicht um semantische Überlegungen herumkommt, zeigt das folgende Beispiel: 1. Die Männer ermordeten die Frauen. Drei Tage später wurden sie begraben. 2. Die Männer ermordeten die Frauen. Drei Tage später wurden sie verhaftet.

Nur durch semantische Interpretation der Verben „begraben“ und „verhaftet“ ist es möglich, den mutmaßlichen Referenten für das Pronomen „sie“ zu bestimmen. Einen solchen zu wissen ist beispielsweise unerlässlich, wenn das Pronomen ins Französische übersetzt werden soll, entweder durch „elles“ im ersten Beispiel oder durch „ils“. Wir werden uns hier nicht mit der Anaphern-Resolution beschäftigen.

41 4. Intransitive Verben Auch bei intransitiven Verben kommt auf der rechten Seite nur ein einziger Ausdruck vor VP  V ↑= ↓

Dann erfolgt ene Behandlung ähnlich den Pronomina. Die F-Struktur der VP wird einfach von dem Verb auf der rechten Seite übernommen. 5. Transitive Verben Es werden jedoch bei der induktiven Konstruktion nicht nur Unifikationen durchgeführt an den Kinderknoten. Manchmal, beispielsweise beim Ausfüllen von Leerstellen, die durch Subkategorisierung entstanden sind, werden ausgefeiltere Methoden nötig. Als Beispiel seien hier transitive Verben genannt. Eine entsprechende Regel könnte lauten VP  V ↑= ↓

NP ↑. 𝑂𝑏𝑗 = ↓

Damit soll die F-Struktur für VP aus der F-Struktur für V aufgebaut werden, aber zusätzlich soll die dort noch nicht ausgefüllte F-Struktur an der Obj-Stelle durch die F-Struktur der Nominalphrase ausgefüllt werden. 6. Die Satzstruktur Grammatische Regeln können ebenfalls einfach formuliert werden. Als ein Beispiel seien hier einige Regeln für die Satzstruktur genannt: S

NP

VP

↑. 𝑆𝑢𝑏𝑗 = ↓

↑= ↓

↓. 𝐶𝑎𝑠 = 1 ↑. 𝑁𝑢𝑚 = ↓. 𝑁𝑢𝑚 ↑. 𝑃𝑒𝑟𝑠𝑜𝑛 = ↓. 𝑃𝑒𝑟𝑠𝑜𝑛

Es wird hier also durch ↑= ↓ gefordert, dass die F-Struktur des Satzes aus der FStruktur der Verbalphrase konstruiert wird. Die Regeln bei NP bedeuten der Reihe nach: Die F-Struktur von NP wird als Wert für die Leerstelle des Subjektes in die FStruktur der Verbalphrase eingebaut. Die zweite Aussage ist die oben schon angekündigte Regel, dass Subjekte im Nominativ stehen. Mit der dritten Aussage wird die Kongruenz zwischen NP und S, also eigentlich zwischen Subjekt und Prädikat, bezüglich des Numerus eingefordert.

42 In der vierten Zeile wird die oben angesprochene Kongruenz zwischen Subjekt und Prädikat bezüglich der Person erzwungen. Auch hier könnte das Problem anders gelöst werden, da Nominalphrasen, die keine Pronomina enthalten, und dann auch die entsprechenden Verbformen immer in der dritten Person stehen. Übungsaufgabe: Wie könnte man das Problem der Kongruenz bezüglich der Person lösen, ohne in umständlicher und unnatürlicher Weise schon die Gleichung Person = 3 in das Lexikon schreiben zu müssen? 7. Präpositionalphrasen Die einfachste Struktur einer Präpositionalphrase ist durch die kontextfreie Regel PP  Präp NP gegeben. Durch die Attributregeln muss sowohl der innere Aufbau der PP als auch ihre Einbettung (formal und auch ihre Funktion) definiert werden. Deshalb seien zunächst einige Bemerkungen zu präpositionalen Ergänzungen gemacht -

Die präpositionale Ergänzung kann obligatorisch durch das Verb eingefordert werden. Beispiel: Er wohnt in Berlin.

-

Die präpositionale Ergänzung kann fakultativ durch das Verb hervorgerufen werden. Beispiel: Er wartet auf Godot.

-

Sie kann völlig unabhängig vom Verb für zusätzliche Erläuterungen benutzt werden. Dann handelt es sich um eine freie Angabe. Beispiel: Er besucht uns nach dem Essen.

Bei freien Angaben ist die Einbettung nur schwer zu formalisieren. Das Potential für missverständliche Satzkonstruktionen ist hoch. Beispiele: Der Mann sieht die Frau mit dem Fernrohr. Er traf sie am Bahnhof hinter der Autobahn. (Zwei PP vom gleichen Typ, nämlich lokale Ergänzungen) Bei fakultativen Ergänzungen kann man sich damit behelfen, dass man die Existenz von zwei Verben im Lexikon annimmt, wobei das eine eine präpositionale Ergänzung verlangt und eine F-Struktur mit einer entsprechenden Leerstelle eröffnet, während das andere ohne eine solche auskommt.

43 Wir werden jetzt nur solche Verben behandeln, bei denen die entsprechende Leerstelle eröffnet wird. Als Beispiel soll eine präpositionale Phrase dienen, die eine Richtung bezeichnet und mit der Präposition „zu“ eingeleitet wird. Lexikalisch wird vermerkt, dass die Präposition ein Objekt im Dativ erfordert und innerhalb des Satzes die Rolle eins Ziels („goal“, „OblGo“) spielt zu

Präp

Rolle OblGo Obj

[Cas 3]

Die Konstruktionsregel lautet dann PP  Präp ↑= ↓

NP ↑. 𝑂𝑏𝑗 = ↓

Sie besagt, dass die F-Struktur der PP aus der F-Struktur der Präposition konstruiert wird, wobei die Leerstelle für das Objekt durch die F-Struktur der NP ausgefüllt wird. Damit ist der innere Aufbau der F-Struktur für die PP geklärt. Ihre Einbettung muss in der Regel für die Verbalphrase, zu der die PP gehört, definiert werden. Das kann etwa durch die folgende Regel geschehen: VP  V ↑= ↓

NP

PP

↑. 𝑂𝑏𝑗 = ↓

(↑ (↓. 𝑅𝑜𝑙𝑙𝑒)) = ↓

Dabei ist die Attributregel für die PP so zu verstehen, dass zuerst der Wert der Rolle aus der F-Struktur der PP ausgelesen wird, hier also OblGo. Damit wird auch gefordert, dass das Verb eine Leerstelle für ein OblGo eröffnet. Diese soll durch die FStruktur der PP aufgefüllt werden. Ein solches Verb könnte „fliegt“ sein, hier als transitives Verb betrachtet. fliegt

V

Person

3

Num

Sg

Temp

Präsens

Obj

[Cas 4]

OblGo

44

6.5 Fallstudie „das kleine grüne männchen fliegt die rakete zu dem fernen stern“ Zunächst muss die Grammatik G so erweitert werden, dass L(G) diesen Satz enthält. Als Strukturregeln könnten die unten genannten dienen. Dazu kämen die hier als offensichtlich weggelassenen Lexikalischen Regeln. Einige Erläuterungen sind angebracht: 1. Nominalphrasen können hier keine Pronomina sein. Wir werden also davon ausgehen, dass Nomina und dann auch NP in der 3. Person vorliegen. 2. Aus Gründen der Einfachheit sind Adjektivfolgen nicht leer. Stattdessen ist die Adjektivfolge in der NP-Regel durch { } als optional gekennzeichnet. Hier liegen also eigentlich zwei Regeln vor. 3. Es sind hier nur Verbalphrasen mit genau einer Nominal- und genau einer Präpositionalphrase zugelassen, eine extreme Vereinfachung. S

NP

VP

↑. 𝑆𝑢𝑏𝑗 = ↓

↑= ↓

↓. 𝑐𝑎𝑠 = 1 ↑. 𝑁𝑢𝑚 = ↓. 𝑁𝑢𝑚 ↑. 𝑃𝑒𝑟𝑠𝑜𝑛 = ↓. 𝑃𝑒𝑟𝑠𝑜𝑛

NP 

AdjFolge 

Det

{ AdjFolge }

N

↑= ↓

↑= ↓

↑= ↓

Adj ↑= ↓

AdjFolge 

VP 

PP 

Adj

AdjFolge

↑= ↓

↑= ↓

V

NP

PP

↑= ↓

↑. 𝑂𝑏𝑗 = ↓

(↑ (↓. 𝑅𝑜𝑙𝑙𝑒)) = ↓

Präp

NP

↑= ↓

↑. 𝑂𝑏𝑗 = ↓

45

Zuerst liegen die F-Strukturen aus dem Lexikon vor: das

Det

kleine /

Adj

grüne Cas

1

4

1

1 4

1

4

1

4

Num

Sg

Sg

Sg

Sg Sg

Sg

Sg

Pl

Pl

Gen

n

n

m

f f

n

n

Pers.

3

3

3

3 3

3

3

3

3

männchen

N

Cas

1

3

4

Num

Sg

Sg

Sg

Pl

Gen

n

n

n

n

Pers.

3

3

3

3

fliegt

V

zu

Präp

Rakete

Person

3

Rolle

OblGo

Cas

Num

Sg

Obj

[Cas 3]

Num

Sg.

Temp

Präsens

Gen

f

Pers.

3

Subj Obj

[Cas 4]

OblGo

die

Det

Cas

1

4

1

4

Num

Sg

Sg

Pl

Pl

Gen

f

f

Pers.

3

3

3

3

N

46

dem Det

fernen

Adj

Cas

3

2

3

4

2

3

2

3

Num

Sg

Sg

Sg

Sg

Sg

Sg

Sg

Sg

m

m

m

f

f

n

n

3

3

3

3

3

3

3

Gen Pers.

m

n 3

Pl 3

stern Cas

1

3

4

Num

Sg

Sg

Sg

Gen

m

m

m

Pers.

3

3

3

Zum besseren Verständnis zeigtn Abbildung 5 den Ableitungsbaum (ohne die lexikalischen Einträge) mit den jeweiligen F-Strukturen als Attribute. Deren Konstruktion wird im folgenden erklärt.

Satz/f20

NP/f14

Det/f1

Adj/f2

VP/f19

Adjfolge/f13

Adjfolge/f12

N/f4

V/f5

Det/f6

Adj/f3

Np/f15

N/f7

PP/f18

Präp/f8

Det/f9

NP/f17 Adjfolge/f16

Adj/f10

Abbildung 4: Ableitungsbaum mit Attributen

N/f11

47

Zuerst sind die lexikalischen F-Strukturen in der Reihenfolge des Auftretens im Satz durchnumeriert: f1,…,f11 und den Blättern zugeordnet. Die Attributregeln führen durch

Ersetzen

der

Metavariablen

↓ und ↑ durch schon

konstruierte

fi

(Instantiierung der Metavariablen) zu neuen F-Strukturen, die anderen Knoten des Ableitungsbaumes entsprechen. Es sollen jetzt alle so entstehenden „Gleichungen“ aufgeführt werden. Dabei wird immer der am weitesten links stehende Baumknoten betrachtet, bei dem schon alle Kinder eine F-Struktur besitzen. Es muss aber beachtet werden, dass eine Gleichung hier eine Konstruktion durch Unifizierung bedeutet, wie oben erklärt. Also wird die Regel AdjFolge 

Adj ↑= ↓

für f3 verwendet, wodurch festgestellt wird, dass „grüne“ eine Adjektivfolge ist. Es wird eine neue Variable f10 eingeführt (für ↑). Die Metavariable ↓ wird durch f3 ersetzt. Dadurch entsteht die Gleichung f12 = f3 Danach kommt die Regel AdjFolge 

Adj

AdjFolge

↑= ↓

↑= ↓

Mit den Gleichungen f13 = f2 f13 = f12 wird f13 bestimmt zu kleine grüne

Adjfolge

Cas

1

1

Num

Sg

Gen Pers.

4

1

4 1

4

Sg Sg

Sg

Sg Pl

Pl

m

f

f

n

n

3

3

3

3

3 3

3

Durch die Gleichung für Nominalphrasen werden f1, f13 und f4 unifiziert zu f14

48 das kleine grüne männchen

NP

Cas

1

4

Num

Sg

Sg

Gen

n

n

Pers.

3

3

Für die Analyse der Verbalphrase muss zunächst die dort existierende NP („die rakete“) untersucht werden. Dabei wird ähnlich wie eben vorgegangen. Deshalb folgen hier nur die Gleichungen und das Ergebnis für die gesamte NP: f15 = f6 f15 = f7

Durch Unifikation entsteht also die F-Struktur f15.

die Rakete

NP

Cas

1

4

Num

Sg

Sg

Gen

f

f

Pers.

3

3

Um die PP analysieren zu können untersuchen wir deren NP („dem fernen stern“). Es entstehen die Gleichungen f16 = f10

Damit wird das einzelne Adjektiv „fernen“ zur Adjektivfolge.

f17 = f9 f17 = f16 f17 = f11

So entsteht wieder die F-Struktur der gesamten NP und f17 hat die

Form. dem fernen Stern

NP

Cas

3

Num

Sg

Gen

m

Pers.

3

Gemäß den Gleichungen f18 = f8 f18. 𝑂𝑏𝑗 = f17 für die gesamte PP muss f17 an der Objektstelle in f8 eingesetzt werden. Das Ergebnis

49 ist f18. zu dem fernen Stern

PP

Rolle

OblGo

Obj

Cas

3

Num

Sg

Gen

m

Pers.

3

Die F-Struktur für die Verbalphrase f19 entsteht durch die Gleichungen f19 = f5 f19. 𝑂𝑏𝑗 = f15 f19.( f18.Rolle) = f18 Gemäß der vorletzten Gleichung muss f15 in f19 an die Obj-Stelle eingetragen werden, Dabei muss aber beachtet werden, dass in f5 an dieser Stelle schon der Akkusativ gefordert ist. Damit wird nur die mit Cas = 4 unifizierte Form von f15 eingetragen. Die letzte Gleichung ist so zu lesen, dass man f18 an der Stelle Rolle auswerten muss. Dort steht OblGo. Also wird f18 an der Stelle OblGo in f19 eingetragen mit dem Ergebnis

50

fliegt die Rakete VP zu dem fernen Stern Person

3

Num

Sg

Temp

Präsens

Subj Obj

OblGo

die Rakete

NP

Cas

4

Num

Sg

Gen

f

Pers.

3

zu dem

PP

fernen Stern Rolle

OblGo

Obj

Cas

3

Num Sg Gen

m

Pers. 3 Jetzt kann endlich f20 konstruiert werden, die F-Struktur für den Satz. Damit ist der Konstruktionsprozess beendet. Die Regeln für die Metavariablen generieren folgende Gleichungen: f20 = f19 f20. 𝑆𝑢𝑏𝑗 = f14 f14. 𝐶𝑎𝑠 = 1 f20. 𝑁𝑢𝑚 = f14. 𝑁𝑢𝑚 f20. 𝑃𝑒𝑟𝑠𝑜𝑛 = f14. 𝑃𝑒𝑟𝑠𝑜𝑛 Die Bedeutung der ersten beiden Gleichungen dürfte klar sein. Die dritte Gleichung verlangt, dass zusätzlich der Ausdruck Cas=1 als Konjunkt bei f14 eingeführt wird. Dadurch kann sich die F-Struktur erheblich verkleinern. Im vorliegenden Fall wird nur ausgeschlossen, dass es sich bei „das kleine grüne männchen“ um einen Akkusativ handelt. Im Extremfall wertet sich der ganze Ausdruck logisch zu „falsch“ aus. Das würde bei inkongruenten Satzkonstruktionen geschehen wie „des kleinen grünen männchens fliegt die rakete zu dem fernen

51 stern“. Die beiden letzten Gleichungen dienen gleichfalls nicht der Konstruktion, sondern nur einer Überprüfung, nämlich der auf Kongruenz bezüglich Person und Numerus. Es gibt Autoren, die großen Wert auf den Unterschied legen, ob eine Gleichung zur Konstruktion oder nur zur Überprüfung dient. Aus logischer Sicht ist diese Unterscheidung unnötig, da es sich um den gleichen Mechanismus handelt.

52

das kleine,

S

grüne männchen fliegt die Rakete zu dem fernen Stern Person

3

Num

Sg

Temp

Präsens

Subj

das

NP

kleine grüne männchen

Obj

OblGo

Cas

1

Num

Sg

Gen

n

Pers.

3

die Rakete NP Cas

4

Num

Sg

Gen

f

Pers.

3

zu dem

PP

fernen Stern Rolle

OblGo

Obj

Cas

3

Num Sg Gen

m

Pers. 3

53

7

Teildisziplinen der Computerlinguistik -

Übersetzerbau

-

Suche in Textdatenbanken

-

Automatische Abstraktion

-

Automatische Textgenerierung

-

Lern Software

Teildisziplinen der Computerlinguistik

54

8

Teile der Grammatik

g-Spirantisierung Wird ein „g“ nach einem „i“ zu einem Frikativ, wird sowohl der Prozess wie auch das Ergebnis. König [kØ:nɪç]

wenig [ve:nɪç]

etwaig [ɛtvaɪç]

Belag [bəla:k]

Betrug [bətru:k]

Sog [zo:k]

Auslautverhärtung „Verwandlung eines stimmhaften auslautenden Konsonanten in einen stimmlosen“ (– Duden) 𝑑 ( 𝑡

𝑔 𝑘

𝑏 𝑧 ) 𝑝 𝑠

55

9

Darstellung durch endliche Automaten

Ein endlicher Automat ist ein 7-Tupel A=(X, Y, Z, δ, λ, z0, F) X – Eingabealphabet Y- Ausgabealphabet Z- Zustandsmenge δ- Z x X  Z Nachfolgezustand λ- Z x X  Y Ausgabefunktion z0- Anfangszustand F- Endzustände

Darstellung durch endliche Automaten

t w

a

r

t

e

s n

t

Abbildung 4: endlicher Automat

Endliche Automaten erhalten als Eingabe ein Wort, dieses wird dann morphemweise abgearbeitet. Erreicht der Automat einen Doppelkreis, wird ein gültiges Wort akzeptiert.

10 Ferdinand de Saussure Strukturalismus Semantisches Dreieck:

Ferdinand de Saussure

56 Signifie/ „mathematische Modell“

Sprachliche

Realie

Äußerung

Abbildung 5: semantisches Dreieck

11 Zeichentheorie C.S. Peirce Zeichentheorie C.S. Peirce

Charles Sanders Peirce hat in seiner Zeichentheorie eine Kategorisierung eingeführt.

Abstrakt Willkürliche Assoziation von Zeichen und -

Symbol

-

Index

-

Ikon

konkret Abbild bei dem grundlegende Eigenschaften des Bezeichnender zu erkennen sind

12 Formen von Ambiguitäten Formen von Ambiguitäten

Ambiguität beschreibt die Mehrdeutigkeit von Zeichen. Dabei kann diese auf mehreren Ebenen auftreten. Sowohl lexikalisch, semantisch und syntaktisch.

57

13 Einführung von Syntaktischen Variablen 𝑆 v0 →𝑘1,𝑘2 𝑇𝑔𝑟𝑎𝑚. 𝐾𝑎𝑡𝑒𝑔𝑜𝑟𝑖𝑒

ersetze „s“ durch „v0“, im weiteren Verlauf: Beim ersten

Auftreten durch k1, später k2 S  NP VP

S NP

VP

NP  Det N Det  jeder/ ein N  student/ buch VP  V NP V  kennt

S

NP : v0

NP: v1

S: v0

→ jeder student, er

S v1 → ein buch, es ; v0 → jeder student, er v0

VP

v

S  NP: v0

S v0  jeder student, er

S  NP: v1

S v1  ein buch, es

v1

Einführung von Syntaktischen Variablen

58 Beispiel „Hänsel liebt eine Frau“

Beispiel

⟦𝐻ä𝑛𝑠𝑒𝑙 𝑙𝑖𝑒𝑏𝑡 𝑒𝑖𝑛𝑒 𝐹𝑟𝑎𝑢⟧ = ⟦𝐻ä𝑛𝑠𝑒𝑙⟧ (⟦𝑙𝑖𝑒𝑏𝑡 𝑒𝑖𝑛𝑒 𝐹𝑟𝑎𝑢⟧) = λ P.P (Hänsel) (⟦𝑙𝑖𝑒𝑏𝑡 𝑒𝑖𝑛𝑒 𝐹𝑟𝑎𝑢⟧) ⟦𝑙𝑖𝑒𝑏𝑡 𝑒𝑖𝑛𝑒 𝐹𝑟𝑎𝑢⟧ = ⟦𝑒𝑖𝑛𝑒 𝐹𝑟𝑎𝑢⟧(⟦𝑙𝑖𝑒𝑏𝑡⟧) = 𝜆 𝑃. ⟦𝑒𝑖𝑛𝑒 𝐹𝑟𝑎𝑢⟧ (𝜆𝑄 ⟦𝑙𝑖𝑒𝑏𝑡⟧)(𝑄, 𝑃) = 𝜆 𝑃. ∃ 𝑥 𝑓𝑟𝑎𝑢 (𝑥) ∧ 𝑃(𝑥)(𝜆 𝑄 ⟦𝑙𝑖𝑒𝑏𝑡⟧)(𝑄, 𝑃) = ∃𝑥 𝑓𝑟𝑎𝑢(𝑥) ∧ 𝜆𝑄 ⟦𝑙𝑖𝑒𝑏𝑡⟧ (𝑄, 𝑃) = ∃𝑥 𝑓𝑟𝑎𝑢(𝑥) ∧ 𝑙𝑖𝑒𝑏𝑡 (𝑥)𝑃 ⟦𝐻ä𝑛𝑠𝑒𝑙 𝑙𝑖𝑒𝑏𝑡 𝑒𝑖𝑛𝑒 𝐹𝑟𝑎𝑢⟧ = ⟦𝑙𝑖𝑒𝑏𝑡 𝑒𝑖𝑛𝑒 𝐹𝑟𝑎𝑢⟧(⟦𝐻ä𝑛𝑠𝑒𝑙⟧) = ∃𝑥 𝑓𝑟𝑎𝑢 (𝑥) ∧ 𝑙𝑖𝑒𝑏𝑡 (𝑥, 𝐻ä𝑛𝑠𝑒𝑙)

59

14 Pragmatik Pragmatik

Die Pragmatik befasst sich mit den Bedeutungsaspekten einer

Äußerung. Um die Pragmatik genauer zu erklären, wird als erstes das Organon-Modell von Karl Bühler (1879-1963) vorgestellt. Natürliche Sprache ist nicht immer eindeutig, dies wurde im Organon-Modell versucht darzustellen.

Abbildung 6: Organon-Modell

Das Modell besitzt fünf wichtige Bereiche. Dabei steht das „Z“ in der Mitte für ein Zeichen, ein Wort oder eine Äußerung die getätigt wurde. Der Kreis der sich um das „Z“ herum zieht, beschreibt akustische Phänomene. Als nächsten Bestandteil wird der Sender genannt. Von diesem gehen sowohl Wörter wie auch Äußerungen aus. Er hat damit eine Ausdrucksfunktion. Ebenso gibt es einen Empfänger. Dieser wird zu einer Reaktion aufgefordert. Eine Reaktion kann sowohl ein zuhören, wie auch eine Aktion sein. Hier wird also eine Appellfunktion wahrgenommen. Sender und Empfänger äußern sich über Gegenstände oder Sachverhalte.

60 Als letzten Bestandteil kann man die Beziehungen zwischen diesen vier Bereichen sehen. Diese Beziehungen werden durch parallele Linien dargestellt. Mit diesem Modell wird eine schematische Darstellung eines Gesprächs zwischen zwei Personen dargestellt. Äußerungen werden in Inhalte und lautliche Anteile, also den Schall, dargestellt. Die Pragmatik hat einen entscheidenden Vorteil gegenüber der reinen Semantik. Sie berücksichtigt unterschiedliche kontextuelle Einflüsse auf Interpretationen.

14.1 Informationsgehalt nach Kolmogoroff Informationsgehalt nach Kolmogoroff

1. Eine Information hängt von der Wahrscheinlichkeit ab. Stetig:

𝐼(𝑒) = 𝑓 (𝑝(𝑒))

2. 𝑝(𝑒) = 1 ⟹ 𝐼(𝑒) = 0

𝑓(1) = 0

𝑝(𝑒) = 0 ⟹ 𝐼(𝑒) ⟶ ∞ 3. I(e1, e2) =

𝑥 → 0 ⟹ 𝑓(𝑥) → ∞

I(e1) + I(e2)



e1, e2 unabhänig



𝑓(𝑝(𝑒1 , 𝑒2 ))

𝑓(𝑝(𝑒1 ) + 𝑓(𝑝(𝑒2 ))

∥ 𝑓(𝑝(𝑒1 ) − 𝑝(𝑒2 )) 𝑓(𝑥 ⋅ 𝑦) = 𝑓(𝑥) + 𝑓(𝑦) Aus 1. - 3. folgt f(x) = -log(x), also I(e) = - log (p(e)) Beispiel Ein Heft hat 32 Seiten. Wie hoch ist die Information, dass Seite 27 aufgeschlagen ist? 𝐼(𝑒) = − log(𝑝(𝑒)) = − log (

1 ) = 5 𝑏𝑖𝑡: 11011 32

Entropie: Mittlerer Informationsgehalt eines Zeichens 𝐻(𝐸) = − ∑ 𝑝(𝑒) log(𝑝(𝑒)) 𝑒

𝐻(𝐸) = −𝑝(𝑒1 ) ⋅ log(𝑝(𝑒1 )) − 𝑝( 𝑒2 ) ⋅ log 𝑝(𝑒2 )

Beispiel

61

15 Allgemeine Anwendungen Nachdem nun einige Teilgebiete der Computerlinguistik beleuchtet wurden,

Allgemeine Anwendungen

werden hier einige Anwendungen der Computerlinguistik erläutert.

15.1 Sprache zu Text Sprache zu Text

15.2 Texterzeugung Texterzeugung

15.3 Übersetzung von Texten Übersetzung von Texten

15.4 Textkorrekturen Textkorrekturen

62

Abbildungsverzeichnis Abbildung 1: Sprachliche Funktionen ................................................................................. 7 Abbildung 2: zerlegter Satz in Phrasen ............................................................................. 13 Abbildung 1: Ableitungsbaum .............................................................................................. 18 Abbildung 4: endlicher Automat.......................................................................................... 55 Abbildung 5: semantisches Dreieck ................................................................................... 56 Abbildung 6: Organon-Modell .............................................................................................. 59

Tabellenverzeichnis Tabelle 4-1: kurzes Beispiel von Alphabeten.................................................................. 12 Tabelle 5-1: Beispiel Backtrack-Parsing ........................................................................... 26 Tabelle 5-2: Earley-Algorithmus .......................................................................................... 29

View more...

Comments

Copyright � 2017 NANOPDF Inc.
SUPPORT NANOPDF