Presentatie TST-themadag \"STEVIN: de

January 9, 2018 | Author: Anonymous | Category: Arts & Humanities, Schrijven, Spelling
Share Embed Donate


Short Description

Download Presentatie TST-themadag "STEVIN: de...

Description

Dutch Parallel Corpus Multilinguaal & multifunctioneel Lieve Macken Hogeschool Gent

Dutch Parallel Corpus • Parallel corpus – Teksten + vertaling – Gealigneerd op zinsniveau

• • • •

10 miljoen woorden Nederlands – Engels / Nederlands - Frans Kwalitatief Compatibel met Corpus Geschreven Nederlands

Voorgeschiedenis Departement Vertaalkunde

CALL-onderzoeksgroep

Hogeschool Gent

KU Leuven – Campus Kortrijk

Parallel corpus als vertaalhulpmiddel

Parallel corpus als didactisch hulpmiddel

Gebruikers en toepassingen Vertaalhulpmiddel (CAT)

Didactisch hulpmiddel (CALL)

Vertaalwetenschappen

Automatische vertaling Meertalige terminologie-extractie

DPC Meertalige informatieextractie

Contrastieve taalkunde

Automatische vertaling •

Training- en testmateriaal voor corpusgebaseerde MT – –



Example Based MT Statistical MT

P. Khoen 2005: 110 SMT-systemen getraind op Europarl-corpus –

Voorbeeld uitvoer Fins-Engels: we know very well that the current treaties are not enough and that in future , it is necessary to develop a better structure for the union and , therefore perustuslaillisempi structure , which also expressed more clearly what the member states and the union is concerned .

Terminologie-extractie

Vertaalhulpmiddel •

Hulpmiddel tijdens vertaalproces – – – –



Bij zoektocht naar meest geschikte term, woord, stijl, idiomatisch taalgebruik, ... Aanvulling op bilinguale woordenboeken Uitbreiding op monolinguaal ‘googelen’ Woorden in context

Voorbeeld: TransSearch (Canadian Hansards) –

Simard & Macklovitch 2005

CorpusCall •

Computerondersteund talenonderwijs – –



Leeractiviteiten Referentiemateriaal

Woorden in context – –



Authentiek materiaal in leertaal Ondersteuning in moedertaal

Voorbeeld Nederlex – – –

Leesomgeving voor Franstalige studenten Ontwikkeling leesomgeving: FUNDP, Namur Compilatie parallel corpus: REBECA project (K.U.Leuven Campus Kortrijk)

Nederlex

Vertaalwetenschappen •

Studie van het vertaalproduct – –



Vertaaluniversalia en translationese Vertaalproces

Parallelle en vergelijkbare corpora

Engelse en Franse teksten

Nederlandse vertalingen

Nederlandse teksten

Engelse en Franse vertalingen

Verschillende gebruikers … •

Taaltechnologische toepassingen – – –



Automatische vertaling / terminologie-extractie Andere NLP-toepassingen (bijv. WSD) Training- en testmateriaal

Menselijke gebruikers – – –



Vertaalhulpmiddel / didactisch hulpmiddel Concordantieprogramma’s Aanvulling bilinguale woordenboeken

Fundamenteel Onderzoek – –

Vertaalwetenschap / contrastieve taalkunde Parallel en vergelijkbaar corpus

… stellen verschillende eisen 1) 2) 3) 4) 5)

Samenstelling Corpus Metadata Taalkundige annotatie Kwaliteitsvereisten Corpusontsluiting

Samenstelling Corpus l Brontekstgericht e t Non-Fictie t e r Automatische vertaling l i Terminologie j -extractie k

Doeltaalgericht Fictie Vertaalhulpmiddel Didactisch hulpmiddel

v r i j

Samenstelling corpus /2 • Fictie • Non-fictie – – – – –

Essayistische teksten Journalistieke teksten Zakelijke teksten Technische teksten Ambtelijke teksten

Metadata • Vertaalrichting – Engels → Nederlands vs. Nederlands → Engels

• Vertaalmodaliteiten – Menselijke vertaling, CAT, MT

• Directe vs. indirecte vertalingen – Indirect via Engels (vb. Europarl)

Taalkundige annotatie • Basiselementen – Paragrafen, zinnen, woorden

• Taalkundige verrijking – Lemma – Woordsoort – Syntactische structuren

Kwaliteitsvereisten • Verschillende niveaus – Volledig manuele verificatie – Manuele steekproeven – Automatische controleprocedures

• Kwaliteitslabel

Corpusontsluiting • Webinterface – Gebruiksvriendelijk – Beperkte technische know-how bij taaldocenten & vertalers

• Volledige teksten – Lerende systemen (data-driven automatic learning) – Statistische MT

Corpus Geschreven Nederlands • Compatibiliteit Corpus Geschreven Nederlands – Codering metadata – PoS tagger

Gebruikerscommissie • •

Geconsulteerd bij belangrijke ontwerpbeslissingen Industriële partners – – – –



Computer-assisted language learning Vertaaldiensten Terminologie-extractie Informatie-extractie

Academische partners – – –

Taaltechnologie Vertaalwetenschappen Contrastieve taalkunde

Kernteam • KULeuven – Campus Kortrijk – Prof. Dr. Piet Desmet – Dr. Hans Paulussen

• HoGent – Departement Vertaalkunde – Prof. Dr. Willy Vandeweghe – Dra. Lieve Macken

View more...

Comments

Copyright � 2017 NANOPDF Inc.
SUPPORT NANOPDF