Spektator. Jaargang 18

(1988-1989)– [tijdschrift] Spektator. Tijdschrift voor Neerlandistiek– rechtenstatus

Rosetta: Synonymie en VertalingGa naar eind*
Franciska De Jong, Lisette Appelo

1. Inleiding

Binnen het machinaal vertaalproject RosettaGa naar eind1 is de centrale probleemstelling de vraag in hoeverre het mogelijk is natuurlijke taal automatisch te vertalen. Menselijke, i.e. niet-machinale vertaling biedt daarbij geen bruikbare aanknopingspunten. Wat daarvan te leren valt is dat twee uitdrukkingen als elkaars vertalingen gezien kunnen worden, maar over een achterliggende systematiek zegt het niets. Rosetta is daarom niet gericht op een empirische reconstructie van de menselijke vertaalactiviteit, maar op de ontwikkeling van een formeel systeem dat de vertaalrelatie definieert in overeenstemming met de intuïties die taalgebruikers hebben over de correctheid en/of aanvaardbaarheid van vertalingen.

Een eerste stap naar dit doel is het beantwoorden van de volgende vraag: wat betekent het om te stellen dat uitdrukking a een vertaling van uitdrukking b is? Een bevredigende karakterisering van deze vertaalrelatie moet gebaseerd zijn op de notie betekenis: twee uitdrukkingen zijn elkaars vertaling wanneer zij dezelfde betekenis hebben. Binnen het Rosetta-kader heeft het concept ‘betekenis’ een model-theoretische definitie. Dit houdt in dat twee uitdrukkingen als elkaars vertaling beschouwd worden wanneer zij waar zijn binnen dezelfde verzameling modellen. Rosetta kan daarom beschouwd worden als een systeem dat een formele verantwoording beoogt van een bepaald type synonymie, namelijk identiteit van betekenis voor uitdrukkingen die tot verschillende natuurlijke talen behoren. Dit uitgangspunt impliceert tevens dat het nagestreefde betekenisbehoud onafhankelijk is van extralinguïstische kennis.

Overigens is deze kennis onmisbaar voor een adequate vertaling, speciaal in geval van ambiguïteit. Ambigue zinnen worden verondersteld meer dan één betekenis te hebben omdat zij op meer dan één soort situatie van toepassing zijn. Zij kunnen dus meer dan één vertaling hebben. Het deel van Rosetta dat alleen van linguïstische kennis gebruik maakt zal daarom bij ambigue input een verzameling mogelijke vertalingen definiëren.Ga naar eind2

De huidige onderzoeksactiviteiten bestaan voornamelijk uit de constructie van linguïstische modulen, dat wil zeggen: uit de definitie van grammatica's en van de relatie tussen grammatica's. In dit artikel gaat het om de eisen waaraan de grammatica's moeten voldoen willen de betrokken talen behandeld kunnen worden als behorend tot een en hetzelfde semantische systeem. In paragraaf 2 gaan we eerst in op de voorwaarden voor synonymie van complexe uitdrukkingen op basis van de bespreking door Carnap (1947) van een nogal triviaal voorbeeld van synonymie op het gebied van formele

talen. In paragraaf 3 wordt een beknopte inleiding in het Rosetta-kader gegeven, in paragraaf 4 gevolgd door een meer gedetailleerde bespreking van de rol van het Isomorfieprincipe voor het behoud van betekenis. De complicaties van de Rosetta-grammatica zullen nader toegelicht worden in paragraaf 5 aan de hand van de bespreking van enkele niet-triviale vertalingen die Rosetta geacht wordt aan te kunnen. Tenslotte is paragraaf 6 toegespitst op de relevantie van het Rosetta-kader vanuit een meer algemeen linguïstisch standpunt.

2. De notie synonymie

Neem de volgende drie beweringen.

(1)	7 > 3

(2)	Gr [VII, III]

(3)	Gr [Sum(II, V), III]

Deze uitdrukkingen hebben identieke waarheidscondities. Elk van de beweringen is waar dan en slechts dan als zeven meer is dan drie. Maar ondanks het feit dat zij corresponderende elementen bevatten die equivalent zijn, is hier geen sprake van drie synoniemen. Een paarsgewijze vergelijking laat dat zien. Als zeven meer is dan drie, dan zijn de uitdrukkingen (2) en (3) beide waar. Bij een overgang van (2) naar (3), of omgekeerd, blijft daarom in extensionele (i.e. niet-intensionele) conteksten de betekenis behouden. In intensionele conteksten leidt het feit dat het aantal basisexpressies voor (2) en (3) verschillend is tot een cruciaal verschil: in intensionele conteksten zijn ze niet vrij verwisselbaar. Zo betekent Wij geloven dat 2 + 5 = 7 niet hetzelfde als Wij geloven dat 7= 7.

De beweringen (1) en (2) hebben identieke betekenissen en, zoals Carnap dat noemt, L-(ogisch)-equivalente, met elkaar corresponderende delen. Bovendien zijn ze opgebouwd uit hetzelfde aantal basisexpressies en operaties. De verschillen in de oppervlaktestructuur corresponderen hier niet met betekenisverschil. In intensionele conteksten zijn ze vrij verwisselbaar. Of zoals Carnap zegt: (3) heeft een intensionele structuur die niet isomorf is met die van (1) en (2).

If two sentences are built in the same way out of designators [...] such that any two corresponding designators are L-equivalent, then we say that the two sentences are intensionally isomorphic (o.c.: p. 56).

Bewering (3) bevat een argument dat niet isomorf is met het corresponderende deel van (1) en (2). Om deze redenen voldoen het paar (1) en (3) en het paar (2) en (3) niet aan Carnaps voorwaarde voor isomorfie. Omdat uitsluitend isomorfe uitdrukkingen als echte synoniemen beschouwd worden, is (3) geen synoniem van (1) of (2).

In het rekenkundige voorbeeld hierboven hoeven de semantische systemen waaraan gerefereerd wordt niet langs empirische weg gereconstrueerd te

worden. Zij zijn onafhankelijk gegeven. De equivalentie van de uitdrukkingen in kwestie is duidelijk. Binnen de contekst van zulke voorbeelden is de beslissing omtrent het al dan niet bestaan van synonymie bijna triviaal. Carnap:

We find that [these expressions] are isomorphic by establishing the L-equivalence of corresponding signs. (o.c.:p. 58)

Als richtlijn bij de ontwikkeling van automatische vertaalsystemen is dit echter niet voldoende. Allereerst bestaat er geen unanimiteit met betrekking tot de grammaticale structuur van natuurlijke talen: er bestaat geen welgedefinieerd principe dat a priori bepaalt welke strings beschouwd moeten worden als basisexpressies, welke als complexe uitdrukkingen, en welke strings betekenisloos zijn. Op het niveau van de oppervlaktestructuur zijn er bovendien talrijke incongruenties, zelfs in verwante talen als het Nederlands en het Engels. Het is daarom niet duidelijk welke uitdrukkingen beschouwd kunnen worden als ‘corresponding signs’. Een formele verantwoording van synonymie tussen natuurlijke talen veronderstelt eerder de stipulatie van synonymie: uitdrukkingen zijn isomorf wanneer wij ze als zodanig behandelen. In paragraaf 5 zullen we aan de hand van voorbeelden laten zien dat er soms gestipuleerde synonymie nodig is bij de behandeling van de omvangrijke fragmenten waarvoor het Rosetta-systeem bedoeld is. De aan paragraaf 5 voorafgaande paragrafen omvatten een inleiding in het Rosetta kader (paragraaf 3), en in de manier waarop in dit kader behoud van betekenis wordt gerealiseerd (paragraaf 4).

3. Het Rosetta-kader

Het linguïstische werk binnen het kader van Rosetta wordt gestuurd door een aantal richtlijnen, in de praktijk meestal aangeduid als de ‘principes’. Het Isomorfieprincipe is hier slechts één van. Dit principe zal in de volgende paragraaf uitgebreider ter sprake komen. Deze paragraaf bevat een globale beschrijving van het Rosetta-kader. Behalve enkele Rosetta-principes worden hier ook de linguïstisch relevante representatieniveaus geïntroduceerd.

3.1 Enkele Rosetta-principes

De hier te bespreken principes zijn bedoeld als leidraad bij het systematische onderzoek naar de mogelijkheden tot automatische vertaling en als ondersteuning bij de bouw van de systemen.

.	Expliciete grammatica's: Zowel de brontaal als de doeltaal worden door middel van expliciete grammatica's gedefinieerd. De feitelijke grammaticaregels worden in hoge mate door het volgende principe beïnvloed.
.	Compositionaliteit: De betekenis van een uitdrukking is een functie van de betekenis van de samenstellende delen en van de wijze waarop deze gecombineerd worden. Dit principe is naar de geest ontleend aan de Montague-Grammatica. Wij beschouwen compositionaliteit als een plausibele basis voor een vertaalsysteem dat gebaseerd is op een formeel concept van betekenis. (Zie ook: Landsbergen (1987)).

Eén grammatica per taal: Een meertalig bidirectioneel vertaalsysteem veronderstelt voor elke taal een analysecomponent (voor de functie als brontaal) en een generatiecomponent (voor de functie als doeltaal). In Rosetta zijn deze beide componenten gebaseerd op één en dezelfde grammatica waarvan de regels omkeerbaar zijn: zij kunnen zowel voor het genereren als voor het analyseren van zinnen gebruikt worden.

Isomorfieprincipe: Twee zinnen worden als elkaars vertalingen beschouwd indien hun betekenissen op vergelijkbare wijze van dezelfde basisbetekenissen worden afgeleid.

3.2 Representaties in Rosetta

Het vertaalproces is op te delen in een analytisch deel en een generatief deel. Beide worden gedefinieerd door de drie componenten van de compositionele grammatica's van het Rosetta-systeem (die M-grammatica's genoemd worden): de morfologische component, de syntactische component en de semantische component. Als toelichting op de manier waarop de hierboven geschetste principes elkaar beïnvloeden en ook met het oog op de leesbaarheid van de volgende paragrafen volgt hier een kort overzicht van de in Rosetta gebruikte representatieniveaus. We beperken ons daarbij tot de representaties van de syntactische en semantische componenten van de M-grammatica's.

De volgende drie niveaus, waarvan de eerste twee door de syntactische component en het derde niveau door de semantische component gedefinieerd worden, zijn van belang. (Figuur 2 aan het eind van deze paragraaf geeft een schematisch overzicht van het Rosetta vertaalproces.)

.	Syntactische oppervlaktebomen
.	Syntactische derivatiebomen
.	Semantische derivatiebomen

De syntactische oppervlaktebomen (S-bomen) zijn constituentstructuren gedefinieerd door de regels van de syntactische component, de zogenaamde M-regels. De S-bomen geven de syntactische structuur van complexe uitdrukkingen weer. De derivatie van een oppervlakteboom vanuit basisexpressies loopt via de recursieve toepassing van syntactische combinatieregels (M-regels), en dit proces wordt weergegeven in een syntactische derivatieboom (syntactische D-boom) waarvan de terminale elementen bestaan uit basisexpressies en waarbij de niet-terminale knopen de namen van de toegepaste regels dragen. Met elke knoop van de derivatieboom correspondeert een S-boom.

In Rosetta wordt het onderscheid tussen betekenisvolle operaties en zuiver syntactische bewerkingen weerspiegeld in het onderscheid tussen respectievelijk regels (in de syntactische derivatiebomen weergegeven met R_n) en transformaties (in de syntactische derivatiebomen als T_n weergegeven). Het linkerdeel van Figuur 1 bevat een specificatie van de syntactische derivatieboom en van de tussenliggende S-bomen voor de zin Oscar slaapt.Ga naar eind3

Zinnen van de brontaal (of delen ervan), die natuurlijk altijd taalspecifieke

Figuur 1. Syntactische en semantische derivatie voor Oscar slaapt.

eigenschappen hebben, worden via de representatie van hun gemeenschappelijke betekenis afgebeeld op uitdrukkingen van de doeltaal. Volgens het Compositionaliteitsprincipe correspondeert het proces dat tot welgevormde oppervlaktestrings leidt met de derivatie van de betekenis van de gegenereerde string. Daarom kan de betekenis van een complexe uitdrukking worden weergegeven in een semantische derivatieboom (semantische D-boom): een boom met de namen van de betekenissen van de basisexpressies als terminale elementen, en de namen van de betekenissen van de syntactische regels als niet-terminale knopen (weergegeven met M_n).4 Het rechterdeel van Figuur 1 is een voorbeeld van een semantische derivatieboom. Omdat puur syntactische bewerkingen per definitie geen effect hebben voor de semantiek, zijn de transformaties bij de bepaling van de synonymie irrelevant. Ze zijn om zo te zeggen niet vertaalrelevant. Voor een uitgebreide bespreking van het formele onderscheid tussen regels en transformaties, zie Appelo, Fellinger & Landsbergen (1987). Voor de rol van de semantische derivatiebomen als interlingua, zie Appelo & Landsbergen (1986).

Voor de toekenning van een gemeenschappelijke semantische derivatieboom aan twee synonieme strings die tot verschillende talen behoren en die verschillende oppervlaktestructuren hebben, is een parallelle afleiding vereist. Het deel van de derivatie dat als ‘betekenisloos’ gemarkeerd is, namelijk het deel dat door transformaties wordt gedefinieerd, kan daarbij buiten beschouwing blijven. De inhoud van de syntactische regels, de M-regels is taalspecifiek. Bovendien kunnen M-regels complexe syntactische operaties definiëren. Daarom is een zorgvuldige opdeling van de syntactische inhoud over de verschillende stappen nodig.

In het vervolg zullen syntactische derivaties overigens in gereduceerde vorm

worden weergegeven. Slechts het betekenisvolle deel van de derivatie wordt gegeven. Syntactische transformaties worden dus weggelaten. (Als gevolg hiervan hebben de syntactische D-bomen dezelfde geometrie als de hiermee corresponderende semantische D-bomen). Bovendien worden enkele voor dit betoog minder belangrijke betekenisvolle regels buiten beschouwing gelaten. Bijvoorbeeld de regel die de NP-knoop boven eigennamen definieert, en soms ook de regels die de argumentvariabelen vervangen door volledige NP's.

Samenvattend: de syntactische regels en basisexpressies definiëren wat de betekeniseenheden zijn, en taalspecifieke syntactische generalisaties worden door de oppervlaktebomen tot uitdrukking gebracht. Het verband tussen syntactische en semantische derivatie wordt in de volgende paragraaf uitgebreid toegelicht. Deze paragraaf besluit met een schematische weergave van het Rosetta-vertaalproces (Figuur 2).

Figuur 2. Het Rosetta-vertaalproces.

4. Isomorfie

Volgens het ‘Isomorfieprincipe’ moeten zinnen die als elkaars vertalingen beschouwd worden, op vergelijkbare manier worden afgeleid, dat wil zeggen door middel van volledig parallelle processen. Om deze reden zullen hun gereduceerde syntactische derivatiebomen dezelfde geometrie vertonen. Om er zeker van te zijn dat voor equivalente uitdrukkingen een vertaalrelatie wordt gedefinieerd, moeten de verschillende stappen in de derivatie zorgvuldig gekozen worden, en wel zodanig dat elke basisexpressie op zijn (gestipuleerde) equivalent kan worden afgebeeld en dat er voor elk van de regels een gelijkwaardige tegenhanger bestaat. Dit ontwerpproces wordt dus gekenmerkt door afstemming van (de regels van) de grammatica's.

In Rosetta wordt informatie over de feitelijke inhoud van syntactische bewerkingen niet in de derivatiebomen weergegeven. De derivatiebomen

drukken dus verschillen als die tussen (1) en (2) alleen indirect uit. Dit is in overeenstemming met de analyse van Carnap:

[...] the use of a functor preceding the two argument signs instead of one standing between them may be regarded as an inessential syntactical device. (o.c.: p. 56)

For the intensional structure, in contrast to the merely syntactical structure, only the order of application is essential, not the order and manner of spelling. (o.c.: p. 59)

In de volgende paragraaf komen afbeeldingen aan de orde die aanzienlijk minder triviaal zijn dan die van (1) en (2). Dat de afstemming van grammatica's geen triviaal proces is wordt toegelicht aan de hand van enkele gevallen van incongruentie tussen twee talen. Sommige hiervan vereisen zelfs het stipuleren van synonymie van basisexpressies waar er op het eerste gezicht geen sprake is van betekenisidentiteit.

5. Incongruenties

Stel dat woordvolgorde of de volgorde van constituenten vanuit semantisch standpunt irrelevant is, zoals Carnap zegt. Dan hoeft de afbeelding van synonieme uitdrukkingen uit verschillende talen niet bemoeilijkt te worden door incongruenties ten gevolge van verschillen in oppervlaktevolgorde. Deze kunnen worden toegeschreven aan taalspecifieke aspecten van de grammatica's, bijvoorbeeld aan transformaties of de inhoud van betekenisvolle regels. Incongruenties kunnen echter ook met andere aspecten dan volgorde samenhangen. Om met een betrekkelijk eenvoudig voorbeeld te beginnen:

(4)	Oscar slaapt

(5)	Oscar is sleeping

Deze twee zinnen hebben verschillend georganiseerde predikaten: (5) bevat een hulpwerkwoord om de ‘progressive tense’ uit te drukken, terwijl in (4) uitsluitend het tegenwoordige-tijdmorfeem voorkomt. Om isomorfe derivaties voor deze zinnen af te leiden moet uitgemaakt worden of het Engelse hulpwerkwoord al dan niet een basisexpressie is. Een basisexpressie heeft een basisbetekenis. Maar aangezien het concept van de ‘progressive tense’ intuïtief eerder wordt verbonden met sententiële eigenschappen dan met het werkwoord be, lijkt het voor de hand liggend is in (5) te behandelen als een syncategorematisch ingevoerde expressie zonder onafhankelijk gedefinieerde basisbetekenis. Als we aannemen dat het tegenwoordige-tijdmorfeem in het Nederlands eveneens door middel van een regel ingevoerd wordt, kunnen (4) en (5) ondanks hun verschillen, toch op isomorfe wijze worden afgeleid. Figuur 3 toont de vereenvoudigde syntactische derivatiebomen voor (4) en (5). Zij laten de hier gevolgde strategie duidelijk zien: isomorfe syntactische derivaties worden verkregen door zowel voor de Nederlandse als voor de Engelse zin uit te gaan van twee basisexpressies in de derivaties. De regels R₅ en R₅′ combineren de beide basisexpressies, zodat een predicatieve structuur ontstaat, terwijl R₆ en R₆′ tempus toekennen.

Het verschil tussen de oppervlaktestrings (4) en (5) vloeit voort uit een verschil in de inhoud van R₆ en R₆′.

Figuur 3. Syntactische derivatiebomen voor (4) en (5)

Andere incongruenties hebben een minder triviaal karakter omdat zij tot analyses en/of afbeeldingen nopen die in zekere zin tegen de intuïtie ingaan. In deze paragraaf bespreken we drie voorbeelden. Allereerst twee voorbeelden van incongruenties van grammaticale relaties. Het derde voorbeeld heeft betrekking op de afbeelding van een bijwoord op een werkwoord.

1. Genitief-s ten opzichte van postnominale modificatie.

Neem de volgende twee NP's:

(6)	Conchita's boek

(7)	el libro de Conchita (Spaans)

In (6) wordt de possessieve modificatie door een genitieve NP tot uitdrukking gebracht. In (7) bevat de prenominale structuur een bepaald lidwoord terwijl de possessieve modificatie uitgedrukt wordt door een postnominale PP; (6) en (7) laten zien dat in het Nederlands en het Spaans de possessieve relatie met verschillende syntactische middelen wordt uitgedrukt, namelijk een determinator in het Nederlands en een complement in het Spaans. Figuur 4 bevat isomorfe syntactische derivatiebomen voor (6) en (7).Ga naar eind5

Figuur 4. Syntactische derivatiebomen voor (6) en (7).

De derivaties in Figuur 4 zijn gebaseerd op de volgende veronderstellingen.

.	De introductie van modificatie en de introductie van bepaaldheid worden in twee afzonderlijke stappen uitgevoerd. Een behandeling langs deze lijn wordt gemotiveerd door het feit dat in het Spaans de string libro de Conchita eveneens relevant is voor de onbepaalde NP un libro de Conchita (een boek van Conchita). Op basis van de syntactische eigenschappen van (6) alleen zou het niet nodig zijn uit te gaan van een derivatie in twee stappen. Overigens, ook vanuit monolinguaal standpunt zou een analyse in twee stappen voor (6) de voorkeur kunnen hebben, aangezien bepaaldheid en possessieve modificatie afzonderlijke semantische verschijnselen zijn.
.	Het bepaalde lidwoord el wordt syncategorematisch geïntroduceerd in plaats van als basisexpressie. Dit wordt niet gemotiveerd vanuit de analyse van Spaanse NP's in het algemeen. Maar als el als basisexpressie behandeld zou worden, zou de derivatie van (6) de deletie van het Nederlandse bepaalde lidwoord vereisen. In dit voorbeeld is de keuze tussen de twee alternatieven overigens arbitrair.
.	Iets dergelijks geldt voor de derde beslissing die door Figuur 4 geïmpliceerd wordt: het voorzetsel de in (7) wordt syncategorematisch ingevoerd omdat het vertaalequivalent van niet zichtbaar is in (6). Een analyse die van-deletie voor het Nederlands veronderstelt is echter even adequaat.

De synonymie van (6) en (7) wijst erop dat grammaticale relaties (of categorieën) zoals determinator en modificator op zichzelf niet vertaalrelevant zijn. Bovendien illustreren (6) en (7) de stelling dat de afbeelding van derivatiebomen niet altijd vanzelf spreekt, maar eerder het resultaat is van een nauwgezet afstemproces dat - met betrekking tot de vraag wat als basisexpressie beschouwd moet worden - met minder voor de hand liggende beslissingen gepaard kan gaan. Het voorbeeld dat in de volgende paragraaf besproken wordt is zelfs nog gecompliceerder omdat het daar gaat om de afbeelding van basisexpressies die intuïtief geen synoniemen van elkaar zijn.

2. Omwisseling van argumenten: bevallen versus like.

Neem de zinnen (8) en (9). Deze worden intuïtief beschouwd als vertalingen van elkaar: beide brengen tot uitdrukking dat de film Amadeus Jane aanspreekt:

(8)	Amadeus bevalt Jane

(9)	Jane likes Amadeus

In (8) is Amadeus het grammaticale subject en Jane het indirect object. Daarentegen is in (9) Amadeus het directe object en Jane het subject. De oppervlaktevolgorde van de argumenten in (8) en (9) is dus verschillend, mogelijk omdat bevallen een zogenaamd ergatief werkwoord is, terwijl like dat niet is. Toch lijken (8) en (9) dezelfde waarheidscondities te hebben. Isomorfe derivatiebomen voor deze zinnen krijgen we alleen als bevallen en like als elkaars vertalingen worden gezien. Uitgedrukt in formeel seman-

tische termen: er dient gestipuleerd te worden dat zij hetzelfde tweeplaatsige predikaat aanduiden, hier weergegeven als LIKE. Het argument van dit tweeplaatsige predikaat LIKE bestaat uit een paar, in dit geval de denotata van Jane en Amadeus. Met andere woorden: de betekenis van (8) en (9) dient een logische expressie te zijn langs de lijnen van (10). (De volgorde van de argumenten is in feite willekeurig.)

(10)	LIKE (JANE, AMADEUS)

Om (10) af te kunnen leiden als resultaat van een compositioneel proces, wordt een semantische derivatie als in Figuur 5 verondersteld. Geen enkele syntactische derivatie die ten opzichte van de derivatie uit Figuur 5 verschilt in het aantal stappen voor de vorming van het propositionele niveau kan als basis dienen voor isomorfe syntactische derivatiebomen.

Figuur 5. Semantische derivatieboom voor (8) en (9).

In Figuur 6 zijn de (gereduceerde) syntactische derivatiebomen voor (8) en (9) opgenomen die isomorf zijn met de semantische derivatieboom uit Figuur 5: de taalspecifieke syntactische regels R₁ en R₁′, die corresponderen met de gemeenschappelijke semantische regel M₁, specificeren de syntactische configuraties voor respectievelijk bevallen en like.

Figuur 6. Deel van de syntactische derivatiebomen voor (8) en (9) en afgeleide S-bomen.

Drie aspecten van deze analyse zijn van belang:

.	Om (8) en (9) als synoniem te kunnen behandelen, moet het tweetalige transfer-woordenboek van Rosetta de vertaling van bevallen in like en omgekeerd toestaan. Met andere woorden, het woordenboek moet de afbeelding van basisexpressies toestaan die misschien intuïtief geen synoniem zijn, maar alleen door stipulatie.
.	Uit de voorafgaande behandeling van (8) en (9) volgt dat de syntactische tweedeling subject-NP versus VP uitsluitend een rol speelt in de oppervlaktebomen. Het onderscheid is semantisch leeg en niet vertaal-relevant. Voor de analyse van het Nederlands alleen zou kunnen worden aangenomen dat eerst de VP x₁ beval (x₁ te vervangen door Jane) is afgeleid en vervolgens de zin x₂ x₁ beval(x₂ te vervangen door Amadeus). Hetzelfde zou kunnen worden opgemerkt voor de Engelse VP like x₂ en de zin x₁ like x₂. De vereiste isomorfie sluit echter derivaties uit die op corresponderende niveaus in de derivatie like en x₂, of bevallen en x₁ combineren. Ook dit laat weer zien dat taalspecifieke eigenschappen niet de enige motivatie vormen voor de Rosetta-grammatica's.Ga naar eind6 De hier gebruikte analyses komen in feite neer op de constructie (of reconstructie) van synonymie.
.	Het is binnen Rosetta niet mogelijk om op generaliserende wijze het bestaan van een één-op-één-correspondentie tussen semantische argumenten en syntactische relaties uit te drukken. Het eerste argument van een werkwoord is niet a priori het subject; het kan ook object zijn.

3. Het afbeelden van bijwoorden op werkwoorden.

Een klassiek vertaalprobleem heeft betrekking op de vertaling van de Engelse zin (11) en zijn Nederlandse equivalent (12).Ga naar eind7

(11)	Oscar likes to swim

(12)	Oscar zwemt graag

Het probleem is dat like beschouwd moet worden als vertaalsynoniem van graag, ondanks de verschillen tussen de categorieën waartoe deze twee basisexpressies behoren: like is een werkwoord en graag is een bijwoord. Dit verschil in categoriestatus dwingt tot de aanname van verschillende oppervlaktestructuren: de oppervlaktestructuur van (11) bevat een sententieel complement, terwijl (12) een enkelvoudige zin zonder ingebedde zin is. De isomorfie van het relevante deel van de grammatica kan als volgt gerealiseerd worden. Het tweeplaatsige predikaat like wordt afgebeeld op graag dat per stipulatie eveneens beschouwd wordt als een tweeplaatsig predikaat. De inhoud van de syntactische regels verantwoordt het verschil in oppervlaktevolgorde. Zie Figuur 7.

Om de synonymie van (11) en (12) aan te kunnen, moet het bijwoord graag als tweeplaatsig predikaat geanalyseerd worden. Overigens kan het relationele karakter van graag ook op monolinguale gronden verdedigd worden. De aanwezigheid van graag veronderstelt een levend subject: *het regent graag (cf. *it likes to rain). Het sterke verband tussen graag en het subject van

Figuur 7. Syntactische derivatiebomen voor (11) en (12)

de zin blijkt eveneens uit de onmogelijkheid een zin met graag met behoud van waarheidswaarde in de lijdende vorm te zetten.

Net als in de voorafgaande voorbeelden van incongruentie illustreert de synonymie van (11) en (12) de beperkte relevantie van oppervlakte-syntactische concepten vanuit het oogpunt van vertaling. Het Rosetta-kader biedt een adequate methode voor dit gegeven omdat betekenisbehoud wordt verwezenlijkt via de derivationele geschiedenis en niet via een oppervlakteanalyse.

6. Discussie

In de voorafgaande paragrafen is gedemonstreerd hoe intuïtieve oordelen over de synonymie van uitdrukkingen uit verschillende talen de opzet van de Rosetta-grammatica's kunnen sturen. Wat wij tot nu toe hebben willen benadrukken, zijn de consequenties van het feit dat de grammatica's in belangrijke mate beïnvloed zijn door het afstemproces, en slechts ten dele onafhankelijk gemotiveerd zijn. Het werk dat voorafgaat aan het afstemproces behoort tot de contrastieve linguïstiek. Het afstemmen zelf kan in sommige opzichten beschouwd worden als eclectisch: wanneer er incongruenties tussen de talen bestaan, kan er een keuze tussen conflicterende analyses worden gemaakt zonder aan welk principe dan ook te refereren.

Naast de ontwikkeling van een automatisch-vertaalsysteem bestaat er binnen Rosetta een meer empirisch perspectief: het biedt een kader voor het onderzoek naar de vraag of uitdrukkingen uit verschillende talen behandeld kunnen worden als behorend tot één en hetzelfde semantische systeem en, meer in het bijzonder, naar de vraag of synonymie verantwoord kan worden binnen een op compositionaliteit gebaseerd kader. Deze laatste paragraaf is bedoeld om enig licht te werpen op het aandeel van empirisch gemotiveerde linguïstische analyses binnen Rosetta, en daarmee op de relevantie

van die analyses voor het onderzoek naar de semantiek van natuurlijke talen in het algemeen en naar linguïstische universalia.

Allereerst moet hier benadrukt worden dat het Rosetta-kader onderscheid maakt tussen verschillende analyseniveaus. Zoals reeds in paragraaf 3.2 is aangegeven bestaan er twee soorten representaties die relevant zijn: oppervlaktebomen en derivatiebomen. Voor de compositionele afbeelding van uitdrukkingen op hun semantische interpretatie, en dus ook op hun pendant in de doeltaal, vormt de derivatieboom het cruciale niveau. De oppervlaktebomen representeren niet alleen het resultaat van betekenisvolle stappen in de derivatie, maar ook de taalspecifieke kenmerken van een taal. Daarom kunnen S-bomen configuraties bevatten die voor een bepaalde taal onafhankelijk gemotiveerd zijn. Als zodanig zijn zij van belang voor het onderzoek naar de syntaxis van natuurlijke talen. De taalafhankelijkheid van S-bomen heeft ook een praktisch voordeel: in het ontwerpproces is het cruciaal dat er een apart niveau bestaat voor de representatie van monolinguale generalisaties: om de greep op de gegenereerde structuren niet te verliezen moeten de linguïsten die de M-regels formuleren kunnen refereren aan taalspecifieke syntactische generalisaties. Zo kan het Nederlands gemakkelijker beschreven worden wanneer het als een SOV-taal in plaats van als een SVO-taal beschouwd wordt. Daarom is SOV de onderliggende volgorde in de S-bomen voor het Nederlands.

Een ander interessant effect van de formalisering van synonymie tussen talen is al ter sprake gekomen in paragraaf 5: het op elkaar afstemmen van grammatica's kan tot analyses leiden die vanuit monolinguaal standpunt niet voor de hand liggen, maar die in feite toch een monolinguale generalisatie uitdrukken, bijvoorbeeld de getrapte analyse van possessieve genitieven waarbij de bepaaldheid werd ‘losgeweekt’ uit de possessieve determinator, en de analyse van het bijwoord graag als tweeplaatsig predikaat.

De hierboven geclaimde relevantie van Rosetta in verband met onderzoek naar linguïstische universalia is gebaseerd op de volgende veronderstellingen: (a) de semantiek van natuurlijke taal dient het intuïtieve oordeel van de taalgebruiker over synonymie te verantwoorden, en (b) de verschillende natuurlijke talen moeten door hetzelfde semantische model beschreven worden. Daarom dient de intuïtieve synonymie van uitdrukkingen die tot verschillende talen behoren verantwoord te worden door er identieke betekenisrepresentaties aan toe te kennen. Gegeven het hierboven beschreven kader, veronderstelt dit parallelle derivaties voor synonieme uitdrukkingen.

Zoals boven is aangevoerd, kan de afstemming van grammatica's leiden tot willekeurige keuzes, bijvoorbeeld tussen een analyse gebaseerd op taal A en een analyse gebaseerd op taal B. Omdat Rosetta voor een beperkt aantal talen ontworpen is, kan er op basis van één derivatieboom niets geconcludeerd worden met betrekking tot de universaliteit van een bepaalde analyse. Uitgaande van een systeem voor een minder beperkt aantal talen worden de te maken keuzes minder willekeurig omdat er dan meer feiten zullen zijn om rekening mee te houden. Eén suggestie omtrent universaliteit is reeds geïmpliceerd door het voorafgaande: gegeven de analyse van like en bevallen als synonieme predikaten moet de notie VP beschouwd worden

als een oppervlakte-syntactisch concept, semantisch irrelevant, en in die zin wellicht niet behorend tot de gemeenschappelijke universele linguïstische categorieën. Deze conclusie wordt gesteund door een analyse van het Moderne Iers: zoals gesteld in McCloskey (1979) kan het Moderne Iers als een VSO-taal beschouwd worden, dat wil zeggen als een taal met een onderliggende structuur zonder syntactische VP.

Een meer algemene conclusie die getrokken kan worden op basis van de specifieke manier waarop Rosetta de synonymie tussen talen behandelt, is het feit dat de bepaling van het evenwicht tussen syntactische en semantische analyses aanleiding kan zijn tot het onderscheiden van meer representatieniveaus dan in het algemeen gebruikelijk is. Naast de representatie van de oppervlakte-syntactische generalisaties is er een niveau nodig dat de derivationele geschiedenis weergeeft. Onder die aanname moet de verantwoording van de correspondentie tussen syntaxis en semantiek niet gezocht worden in de specificatie van een correspondentie tussen oppervlaktesyntactische structuren en semantische representaties. Oppervlaktestructuur hoeft derhalve ook niet door overwegingen van semantische aard gecompliceerd worden. In dit opzicht zouden de critici van Montague (1974) gelijk kunnen hebben. Als echter een onderscheid wordt gemaakt tussen oppervlaktestructuur enerzijds, en de afleiding ervan anderzijds, waarbij beide onafhankelijk gemotiveerd zijn, dan kan de relatie tussen oppervlaktestructuur en semantische representatie zwakker zijn dan vaak beweerd is. Aangenomen dat Montague niet de bedoeling heeft gehad syntactische welgevormdheid te verantwoorden, dan zou de hier beschreven verklaring van synonymie zelfs als steun beschouwd kunnen worden voor het feit dat Montague oppervlaktestructuur volledig buiten beschouwing heeft gelaten.

Bibliografie

Appelo, L., Fellinger en J. Landsbergen, 1987. ‘Subgrammars, Rule Classes and Control in the Rosetta Translation System’ Philips Research M.S. 14.131. Ook in: Proceedings of 3rd Conference ACL, Copenhagen.

Appelo, L. en J. Landsbergen, 1986. ‘The Machine Translation Project Rosetta’. Philips Research M.S. 13.801. Ook in: Proceedings of the First Conference on the State of the Art in Machine Translation, Saarbrücken.

Carnap R., 1947. Meaning and Necessity: A study in Semantics and Modal Logic. The University of Chicago Press, Chicago.

Landsbergen, J., 1984. ‘Isomorphic Grammars and Their Use in the Rosetta Machine Translation System’ Philips Research M.S. 12.950. Ook in: M. King, (ed.), Machine Translation Today. Edinburgh University Press, Edinburgh, 1987.

Landsbergen, J., 1987. ‘Montague Grammar and Machine Translation’. Philips Research M.S. 14.026. Ook in: P. Whitelock et al. (eds.), Linguistic Theory and Computer Applications. Academic Press, London.

McCloskey, J., 1979. Transformational Syntax and Model Theoretic Semantics. Reidel, Dordrecht.

Montague, R., 1974. ‘The Proper Treatment of Quantification in Ordinary English’. In: R. Montague, Formal Philosophy. Selected Papers of Richard Montague, edited by R.H. Thomason. Yale University Press, New Haven.

eind*: Deze bijdrage is een verkorte, niet-automatische vertaling van het Engelstalige artikel ‘Synonymy and Translation’, dat verschenen is in J. Groenendijk, M. Stokhof en F. Veltman (eds.), Proceedings of the Sixth Amsterdam Colloqiuim, Amsterdam, 1987. We bedanken hier nogmaals Carel Fellinger, Jan Odijk en speciaal Jan Landsbergen voor hun commentaar op Engelse versies van dit artikel.

eind1: Het Rosetta-project wordt uitgevoerd aan het Natuurkundig Laboratorium van Philips in Eindhoven.

eind2: Op dit moment geldt deze beperking uitsluitend voor het systeem dat nu ontworpen wordt, namelijk Rosetta3. In de follow-up van dit systeem, Rosetta4, wordt voor de keuze van de beste vertaling de kennis van enkele specifieke onderwerpsgebieden opgenomen. De resterende ambiguïteiten zullen ‘opgelost’ worden door middel van interactie met de gebruiker.

eind3: Overigens, alle derivatiebomen, hierbij inbegrepen het diagram uit Figuur 1, zijn in feite vereenvoudigde versies van het type derivatiebomen dat in werkelijkheid in Rosetta gebruikt wordt. Ook de S-bomen zijn vereenvoudigd weergegeven.

eind4: In Rosetta hoeven de basisbetekenissen en de betekenisoperaties niet geëxpliciteerd te worden. Zij worden echter geacht verenigbaar te zijn met de semantische component van de Montague-Grammatica of uitbreidingen daarvan.

eind5: In het Nederlands komen beide configuraties voor. Naast Conchita's boek (6) bestaat de equivalente vorm het boek van Conchita. Dit zijn echte synoniemen. Daarom kunnen isomorfe derivaties voor (6) en (7) een goede basis vormen voor een formele verantwoording van de synonymie in het Nederlands.

eind6: Als gevolg van de hier beschreven analyse is er geen semantisch niveau dat met de syntactische VP correspondeert. Dit beïnvloedt de behandeling van wat gewoonlijk beschouwd wordt als VP-modificatie. Bovendien compliceert dit de verklaring van enkele scope-verschijnselen.

eind7: Merk op dat het werkwoord like in (11) mogelijk een andere betekenis heeft dan in (9).

Vorige Volgende

Spektator. Jaargang 18

Rosetta: Synonymie en VertalingGa naar eind*
Franciska De Jong, Lisette Appelo

1. Inleiding

2. De notie synonymie

3. Het Rosetta-kader

3.1 Enkele Rosetta-principes

3.2 Representaties in Rosetta

4. Isomorfie

5. Incongruenties

6. Discussie

Bibliografie

Over dit hoofdstuk/artikel

auteurs

taalkunde

Rosetta: Synonymie en VertalingGa naar eind* Franciska De Jong, Lisette Appelo

1. Inleiding

2. De notie synonymie

3. Het Rosetta-kader

3.1 Enkele Rosetta-principes

3.2 Representaties in Rosetta

4. Isomorfie

5. Incongruenties

6. Discussie

Bibliografie

Over dit hoofdstuk/artikel

auteurs

taalkunde

Rosetta: Synonymie en VertalingGa naar eind*
Franciska De Jong, Lisette Appelo