Grammatik f ¨or spr˚akteknologer
Short Description
Download Grammatik f ¨or spr˚akteknologer...
Description
¨ ˚ Larandem al
¨ sprakteknologer ˚ Grammatik for Introduktion http://stp.lingfil.uu.se/~matsd/uv/uv11/gfst/
Mats Dahll¨of Institutionen f¨or lingvistik och filologi
Efter avslutad kurs skall studenten f¨or att f¨ortj¨ana betyget Godk¨and minst kunna f¨oljande i relation till svenska eller engelska: (1) redog¨ora f¨or relevansen av grammatisk analys f¨or n˚agra viktiga spr˚akteknologiska delomr˚aden; (2) definiera och/eller f¨orklara ordkategoribegrepp och b¨ojningskategorier som a¨ r aktuella i relation till aktuellt spr˚ak och diskutera s˚adana begreppsupps¨attningar ur spr˚akteknologiskt perspektiv;
Oktober 2011
2
1
¨ ˚ forts. Larandem al,
¨ ˚ forts. Larandem al,
(3) analysera och ange godtyckliga ordformer (i ett textsammanhang) i termer av grundform, ordklass och b¨ojningkategorier;
(5) till¨ampa frasstrukturanalys f¨or svenska meningar och formulera kontextfria grammatiker f¨or element¨ara fragment av svenska;
(4) g¨ora av grammatiska resonemang underbyggda analyser godtyckliga meningar (i ett textsammanhang) genom att ange de ing˚aende ordens och frasernas syntaktiska funktioner i termer av traditionella satsl¨osningsbegrepp och d¨arvid urskilja viktiga typer av fraser, huvud och bisatser;
(6) redog¨ora f¨or begreppet dependens samt uttrycka och motivera satsl¨osningsbaserade analyser av meningar som dependenstr¨ad;
3
(7) redog¨ora f¨or anv¨andningen av annotationsmanualer i relation till spr˚akteknologiska data.
4
Grammatiska grundinsikter • L¨arandem˚alen f¨oruts¨atter allm¨anna grammatiska grundinsikter. Traditionell skolgrammatik med djupare analytisk f¨orst˚aelse. B˚ade morfologi och syntax. • F¨or en spr˚akteknolog (eller annan spr˚akvetare) a¨ r detta viktiga grundkunskaper.
Examination – salstentamen F¨oljer l¨arandem˚alen, f¨orst˚as. • Kunna svara p˚a vissa element¨ara fr˚agor. • Applicera analys p˚a autentisk text. • Kunna exemplifiera utifr˚an grammatisk beskrivning.
• Man b¨or ha mycket god f¨orm˚aga att analysera svenska eller engelska (i princip all ”normal” text, allt tal). • Man skall kunna motivera analyser med grammatiska resonemang.
6
5
Grammatikens delar
Grammatik vs semantik
• FONOLOGI/ORTOGRAFI ljudf¨orr˚adet, hur ljuden f˚ar kombineras (fonotax) grafemf¨orr˚adet, hur grafem f˚ar kombineras (grafotax) • MORFOLOGI
Relativt ”sv˚ar” distinktion, teoretiskt sett • GRAMMATIK (form) abstrakt form, ”grammatikalitet” • SEMANTIK (inneh˚all)
strukturen inom ord, hur morfer bildar ord
spr˚akets relation till verkligheten, (syftning/referens) meningsfullhet och -l¨oshet, sant och falskt, logik.
• SYNTAX strukturen inom fraser(, satser och meningar) hur orden bildar st¨orre enheter
7
• Distinktionen kommer alltid att ha ett m˚att av vaghet och godtycke. Spr˚akteknologer har i allm¨anhet en instrumentalistisk syn p˚a uppdelningen. 8
˚ Grammatisk analys i sprakteknologin • Grammatiken kan ses som ett f¨orsta steg i f¨orst˚aelsen av spr˚ak som spr˚ak.
˚ Sprakteknologisk relevans (1) Man beh¨over analysera grammatisk struktur i m˚anga spr˚akteknologiska till¨ampningar.
• Grammatiken ger en grovhuggen bild av inneh˚allet.
• Grammatik-, stavnings- och stilkontroll (givetvis).
• Relevant f¨or i stort sett alla delomr˚aden inom spr˚akteknologin: Man kan n¨astan s¨aga att det a¨ r k¨anslighet f¨or grammatisk struktur som definierar spr˚akteknologi.
• Informationss¨okning och -extraktion. • Maskin¨overs¨attning: analys av k¨allspr˚aket. • Talsyntes (intonation, disambiguering, etc).
9
˚ Sprakteknologisk relevans (2) Grammatik a¨ r a¨ ven viktigt i spr˚akteknologisk generering av yttranden/text:
10
Grammatisk analys ur ST-perspektiv • Hur skall analysen representeras formellt? Vilken ”grundtyp” a¨ r det? (Dependenser? Frasstrukturer? Eller?)
• Maskin¨overs¨attning: generering till m˚alspr˚aket m˚aste t.ex. repektera ordf¨oljdsprinciper, kongruens och valens.
• Hur skall analysen se ut? Teorin om spr˚aket ifr˚aga. Annotationsmanual f¨or m¨anskliga uppm¨arkare.
• Dialogsystem: generera yttranden.
• Hur kan vi automatiskt tilldela texter s˚adan h¨ar analys? (Parser.) Som bygger p˚a inl¨arning? Som bygger p˚a handskrivna regler?
• Pedagogiska program: generera ”problem”.
11
12
Grammatik: deskriptiv eller normativ • Lingvister brukar framh˚alla att grammatiken b¨or vara deskriptiv och beskriva hur folk anv¨ander spr˚ak. • Grammatik anv¨ands ocks˚a f¨or normativa syften. Den s¨ager hur man b¨or uttrycka sig (f¨or att tala/skriva korrekt). (Spr˚akteknologi – spr˚akgranskning.) I b˚ada fallen utg˚ar man ofta fr˚an ”v˚ardad prosa” och gl¨ommer andra typer av text och tal.
Grammatikalitetsdata, exempel • Svenska meningar som a¨ r OK: Hon ser p˚a honom. Hon ser honom. Honom ser hon. • Svenska meningar som inte a¨ r OK: *Hon ser honom p˚a. *Henne ser honom. *Ser honom hon. ”Grammatiska intuitioner”
13
Ord, lexem, ordformer • Ord: teoretiskt sett ganska ”sv˚ar” typ av enhet. Grammatiskt sett h˚art sammanbundna enheter. B¨ojning. Betoning. ”Sj¨alvklar” endast f¨or vissa skrivna spr˚ak. Och inte ens d˚a: isn’t. t.ex.. • Ordf¨orekomst/l¨opord: Konkreta f¨orekomster i text eller tal. • F¨orekomster kan taggas som instanser av olika sorters ordtyper.
15
14
Ordtyper, olika begrepp • Graford: definieras av teckensekvens. (Best¨ams av ”tokenisering”.) Versal/gemen kan neutraliseras. • Lemma: ett ”uppslagsord” (abstrakt enhet) med samma ordklass- och b¨ojningsm¨onster. T.ex. l¨agger/lade; sk¨arm/sk¨armen. (”Lemmatisering”.) • Lexem: en best¨amd betydelse knuten till ett lemma. (”Word sense disambiguation”.) • B¨ojningsform: Ett lemma (eller lexem) med specificerad b¨ojning. Former av a¨ lska: a¨ lska (infintiv), a¨ lskar (presens), a¨ lskande (presens particip), o.s.v. 16
˚ Ord maste analyseras i en kontext
Morfologi
(1) Vad f˚ar man l¨agga ut p˚a webben?
Tre huvudsakliga typer av morfologiska ”processer”:
(2) En som har f˚ar som ja k¨anner ska klippa dom p˚a torsdag. • Samma graford: f˚ar. • Olika lemma (och d¨armed lexem och b¨orjningsform). (1) Presens, aktiv, av verbet f˚a. (2) Plural, obest¨amd, grundkasus av substantivet f˚ar.
• B¨ojning: Inom samma lemma. F¨oljer regelbundna m¨onster. Semantiskt f¨oruts¨agbart. hus – huset, vara – a¨ r. • Avledning: Ger nytt lemma m.h.a. affix. hus – huslig, prata – pratig. Lexikalisering. Form och semantik mindre f¨oruts¨agbart. • Sammans¨attning: Ger nytt lemma av tv˚a givna. Mycket produktivt i svenskan. Lexikalisering. Semantik inte helt f¨oruts¨agbar.
17
18
¨ Bestamma ordklass
¨ ¨ Ordklasser, bojning, oversikt
Tre typer av kriterier:
Substantiv, verb, adjektiv: relativt regelbundna upps¨attningar b¨ojningsformer.
• B¨ojning. Ofta det mest avg¨orande. • Syntax: (potentiella) relationer till andra ord.
Pronomen: varierande grupp lexem, varierande beteende.
• Semantik: typ av betydelse. Ofta sv˚artill¨ampat.
Artiklar: liten grupp lexem, kongruens. Adverb: varierande grupp lexem, vissa uppvisar komparationsb¨ojning.
19
20
¨ ¨ Ordklasser, bojning, oversikt II
¨ Raknebara substantiv i svenskan (8 former)
R¨akneord: grundtal och ordningstal, viss kongruens; o¨andligt m˚anga, men l¨atta att o¨ verblicka (en, tv˚a, tre. . . , och f¨orsta, andra, tredje. . . ).
numerus: singular bil(s)
Particip: adjektiviska former av verb. Perfekt particip kongruensb¨ojs.
numerus: plural
Prepositioner, verbpartiklar, konjunktioner, subjunktioner, infinitivm¨arke, interjektioner b¨ojs inte.
obest¨amd form best¨amd form bilen(s)
hus
huset(s)
bilar(s)
bilarna(s)
hus
husen(s)
Med s s˚a blir det kasus genitiv; annars ”grundkasus”. De tv˚a formerna sammanfaller ibland, t.ex. hus.
21
22
¨ Icke-raknebara substantiv i svenskan (4 former) Substantiv som sm¨or och vrede a¨ r sv˚ara att kombinera med r¨akning och plural.
Genus Substantiv tillh¨or ett av tv˚a genus i svenskan. Egenskap p˚a lexemniv˚a. Avspeglas i b¨ojningen, men modifieras inte. • utrum, t.ex. bil och vrede. • neutrum, t.ex. hus och sm¨or.
obest¨amd form best¨amd form numerus:
sm¨or(s)
sm¨oret(s)
”neutral”/singular vrede(s)
vreden(s)
¨ Genus avspeglas i kongruensb¨ojning i singular. Aven f¨or adjektiv, artiklar, pronomen.
Med s s˚a blir det kasus genitiv; annars ”grundkasus”.
23
24
Egennamn i svenskan (2 former)
Verb i svenskan (ofta max 13 former)
Egennamn — med s blir det kasus genitiv; annars grundkasus,
”neutral”/aktiv form s-form/passiv form
t.ex. Stockholm och Stockholms;
infinitiv
jaga
jagas
Anders Borg och Anders Borgs;
tempus: presens
jagar
jagas
Anders och Anders (formerna sammanfaller).
tempus: preteritum jagade
jagades
supinum
jagat
jagats
imperativ
jaga
–
presens particip
jagande(s)
–
perfekt particip
–
jagad, jagat, jagade
Egennamn a¨ r vanligtvis i singular; ett f˚atal a¨ r i plural, t.ex. Pyren´eerna.
26
25
Verb i svenskan (ofta max 13 former)
Kopulaverbet vara ”neutral”/aktiv form s-form/passiv form
”neutral”/aktiv form s-form/passiv form infinitiv
l¨asa
l¨asas
infinitiv
vara
–
tempus: presens
l¨aser
l¨ases
tempus: presens
a¨ r
–
tempus: preteritum l¨aste
l¨astes
tempus: preteritum var
–
supinum
l¨ast
l¨asts
supinum
varit
–
imperativ
l¨as
–
imperativ
var
–
presens particip
l¨asande(s)
–
presens particip
varande
–
perfekt particip
–
l¨ast, l¨ast, l¨asta
perfekt particip
–
–
27
28
Verb i svenskan, mer
Adjektiv i svenskan
Passiv bara f¨or transitiva verb, d.v.s som tar objekt.
Komparation (med de olika kongruensformerna)
Talspr˚akliga presens particip: jagandes, l¨asandes.
positiv
komparativ superlativ
”Modus” – indikativ (vanligt p˚ast˚aendemodus), konjunktiv (som vore) och imperativ (se Josefsson). Men det a¨ r mer naturligt att se imperativ som en separat finit form f¨or modern svenska. Den m˚aste vara framtidsorienterad (och aktiv) p.g.a. sin semantik.
stor, stort,
st¨orre
stora, store d˚alig, d˚aligt,
st¨orst, st¨orsta, st¨orste
v¨arre
d˚aliga, d˚alige
v¨arst, v¨arsta, v¨arste
Ob¨ojliga adjektiv finns, t.ex. nuvarande och sl¨akt.
29
En del adverb kompareras; aldrig kongruens
30
Pronomen
positiv komparativ superlativ
• Etymologi: i st¨allet f¨or nomen (substantiv).
fort
fortare
fortast
• ”Hj¨alpord” f¨or referens.
d˚aligt
v¨arre
v¨arst
• Relativt komplicerad ordklass vad g¨aller b¨ojning, syntaktisk anv¨andning och semantik.
Notera:
• Semantisk huvudindelning:
Lejonet r¨orde sig snabbt (adverb). (Josefsson, s. 85.) Ett snabbt lejon – Lejonet var snabbt (adjektiv). De snabba lejonen – Lejonen var snabba (adjektiv). FLER TYPER AV ADVERB FINNS! 31
Definita (best¨amda) pronomen Indefinita (obest¨amda) pronomen • Syntax: Vissa h¨or ihop med substantiv och kongruensb¨ojs, andra anv¨ands obundet. 32
¨ Definita (bestamda) pronomen • Personliga (anaforiska) pronomen: jag, mig, du, dig, etc. Possessiva pronomen: min, din, etc. Reflexivt pronomen: sig Reflexivt och possessivt pronomen: sin • Demonstrativa pronomen: denna, detta, etc. • Determinativa pronomen: typ Den som a¨ r satt i skuld a¨ r icke fri.
Indefinita pronomen • Kvantitativa pronomen: n˚agon, varje, alla, m˚anga, etc. • Interrogativa (fr˚agande) pronomen: vem, vad, hurdan (som fungerar som ett pro-adjektiv). (Ord som n¨ar, var, vart, varifr˚an, hur, varf¨or a¨ r interrogativa adverb.) • Relationella pronomen: samma, annan, n¨asta, sista, egen, enda, etc.
• Relativa pronomen: som, vars, etc. (I relativa bisatser.)
33
34
View more...
Comments