Processing Unknown Words

January 9, 2018 | Author: Anonymous | Category: Arts & Humanities, Schrijven, Spelling
Share Embed Donate


Short Description

Download Processing Unknown Words...

Description

Processing Unknown Words Wouter Schellekens Merlijn Hutteman

Introductie    

Mensen begrijpen onbekende woorden Veel NLP systemen gaan uit van een gecompleteerd lexicon Gaan veelal uit van ‘general concept learning’ Besproken HPSG systeem richt zich op extractie van linguïstische eigenschappen

Introductie 



Andere systemen: uit grote corpora analyse door statistiek Dit systeem: meer gericht op grammaticale analyse van individuele zinnen

Doelstellingen i 



Incorporeren van informatiegebaseerd concept ‘unknowness’ Woorden zijn niet geheel onbekend, bevatten ‘revisable’ informatie Hierdoor onderscheid tussen ‘open-’ en ‘closed class’ woorden

Doelstellingen ii 

 

Maximaal gebruiken kenmerken HPSG Zoveel mogelijk ‘rich representations’ als HPSG Daarbij gebruik van zelfde grammatica en lexicon Van belang voor hergebruik bestaande grammatica’s en feedback voor theorievorming

Doelstellingen iii 

Mogelijkheid tot domein-onafhankelijke inferentie en lexicon updates Lexiconschrijver moet kunnen aangeven, welke informatie nog mogelijk te reviseren is

Lexicale acquisitie 

Nieuwe contextuele verschijning: - vergelijkbaar - nieuwe - of conflicterende informatie

Lexicale acquisitie (1) (2)

(3)

a. Im Axon tritt ein Ruhepotential auf. b. Das Potential wandert über das Axon. a. Das Ohr reagiert auf akustische Reize. b. Ein Sinnesorgan reagiert auf Reize. a. Die Nase ist für Gerüche sensibel. b. Die sensible Nase reagiert auf Gerüche.

Lexicale acquisitie 

 



De reviseerbare informatie indelen in de twee klassen: ‘specializable’ en ‘generalizable’ Specializable: gender, case, etc. Generalizable: restricties in argumentselectie, predactief vs. attributief gebruik Beiden kunnen in dezelfde lexicale entry voorkomen

Representatie    

Alle reviseerbare informatie uitdrukbaar in formele typen Specialisatie: informatie omzetten in simpele type unificatie: non_fem & neut = neut Generalisatie vereist echter type vereniging: pred V attr = prd Generalisatie maakt gebruik van hulptype u_g, voor markering beginstate onbekende informatie

Representatie 





Om problemen als incorrecte unificatie bij generalisatie te voorkomen twee nieuwe features: gen en ctxt ctext is de opslag voor contekstgeünificeerde informatie, bij conflicten → ongrammaticaliteit gen bevat generaliseerbare informatie, alle gen waarden: u_g als disj. type

Representatie In HPSG als volgt gedefinieerd:

Processing  



Allereerst gewone parsing Bij een onbekend woord failt het parsen niet, maar gebruikt een generieke entry Hierna: updaten van lexical entries, bestaat uit 4 stappen

Processing 



Projecteren FS op alle woorden Gevolg: alle woorden context verrijkt en lijst van ‘update candidates’ Bepalen concrete update waarden 

Bij een matchende generalisatie clause: vereniging van gen waarde van het oude woord met de ctxt waarde van de parse projectie



Bij een matchende specialisatie clause wordt het parseresultaat van de specialisatie gebruikt

Processing 



Controleer of de update een verschil maakt, dwz. dat een generalisatie geen minder algemeen resultaat oplevert, en vice versa Wijzigingen daadwerkelijk doorvoeren; oude entry verwijderen, herzien, en toevoegen

Voorbeeld 1) 2) 3)

Die Nase ist ein Sinnesorgan. Das Ohr perzipiert. Eine verschnupfte Nase perzipiert den Gestank.

Voorbeeld Na: Die Nase ist ein Sinnesorgan.

Na: Das Ohr perzipiert

Voorbeeld Na: Das Ohr perzipiert

Na: Eine verschnupfte Nase perzipiert den Gestank.

Punten van discussie 

  

Methode lijkt niet overeenkomstig met de mens; menselijke redenering op basis van incompleet bewijs Systeem heeft moeite met ambiguïteit Gevaar van overgeneratie Grens tussen stricte, grammaticale voorspellingen en openheid tot revisie

Credits

View more...

Comments

Copyright � 2017 NANOPDF Inc.
SUPPORT NANOPDF