Foredrag: Morfologiske Effekter i Dansk Auditiv Ordgenkendelse – and beyond!

Via Afdelingens nyhedsbrev:
Fredag d. 29. maj får Afdeling for Lingvistik besøg af Laura Winther Balling fra Copenhagen Business School, som vil fortælle om sit ph.d.-projekt om morfologiens betydning på ordgenkendelse i talt sprog. Det lyder utroligt spændende, så jeg vil opfordre Jer alle til at slå et smut forbi, hvis I skulle være i nærheden:

I får lige Lauras egen beskrivelse af, hvad hun vil tale om:

Jeg vil gerne præsentere resultaterne af mit ph.d.-projekt hvor jeg undersøgte hvordan ord genkendes på dansk, med særligt fokus på morfologiens rolle. Jeg vil præsentere og diskutere fire hovedresultater: For det første genkendes morfologisk komplekse ord signifikant hurtigere end ellers tilsvarende simple ord; morfologien spiller altså en gavnlig rolle for ordgenkendelsen. For det andet påvirkes genkendelsen af et komplekst ord både af faktorer der har at gøre med ordets morfemer, og af faktorer der har at gøre med hele det komplekse ord. Dette indikerer at fordelen for de komplekse ord skyldes at genkendelsen af dem kan trække på flere forskellige typer viden. For det tredje viser eksperimenterne at jo længere tid et ord overlapper med både relaterede og urelaterede ord i ordforrådet, des længere tid tager det at genkende det ord der faktisk høres. At sådan leksikalsk konkurrence spiller en rolle i ordgenkendelsen er velkendt, men jeg introducerer to nye Uniqueness Points (UP’er) der måler denne konkurrence på en præcis og ensartet måde for ord med mere end et morfem. For det fjerde vil jeg tale lidt om de kønsforskelle jeg har observeret i mine data.

Til sidst vil jeg kort præsentere de foreløbige resultater af nogle nye eksperimenter. For det første er jeg begyndt at undersøge hvilken rolle de forskellige morfologiske parametre spiller i læsning af sammenhængende tekst på dansk og engelsk og i oversættelse fra engelsk til dansk. For det andet vil jeg tale om hvordan de nye UP’er jeg har introduceret for dansk, evt. manifesterer sig på engelsk.

Tid: 29. Maj 2009, kl. 13

Sted: Aarhus Universitet, Bygning 1410-034. (Kort)

Grammatisk Køn

Er der nogle der har et tip om hvor man kan finde en udførlig beskrivelse af de kriterier der er for hvilke subtantiver der har hvilket køn på dansk? Jeg mener ikke blot de generelle tendenser som Dansk Sprognævn har på deres hjemmeside;


Fælleskøn (en):

Ca. 75 % af alle danske substantiver (navneord) er fælleskøn. De omfatter bl.a.:

  1. Ord der betegner dyr og mennesker, fx en dreng, en far, en lærer, en kone, en udlænding, en tysker, en hund, en kat, en ko, en laks, en hest, en mus osv. Undtagelser er fx et barn, et menneske, et postbud, et dyr, et egern, et svin.
  2. Ord der betegner planter, træer og frugter, fx en birk, en blomst, en bøg, en nød, en pære, en banan, en eg, en rose, en tulipan osv. Undtagelser er fx et bær, et frø, et løg, et træ, et æble.
  3. Ord der betegner vandløb, fx en å, en flod, en strøm, en bæk osv.
  4. Ord der ender på -else, fx en bevægelse, en forsinkelse, en overraskelse, en skuffelse, en tilladelse osv. Undtagelser er fx et spøgelse, et værelse.
  5. Ord der ender på -ance, -ant, -dom, -ence, -er, -hed, -ing, -isme, -sion, -ør, fx en ambulance, en chance, en debutant, en variant, en ejendom, en sygdom, en kompetence, en konference, en bager, en hastighed, en lejlighed, en parkering, en stilling, fascismen, kommunismen, en diskussion, en direktør, en frisør osv.


Intetkøn (et):

  1. Ord der betegner stoffer eller masser, fx brødet, glasset, guldet, jernet, kødet, papiret, sølvet, vandet osv. Undtagelser er fx jorden, luften, regnen.
  2. Ord der betegner områder og steder, fx et amt, et distrikt, et kontinent, et land, et sogn, et torv osv. Undtagelser er fx en by, en gård, en ø.
  3. Ord der ender på -dømme, -ri, -ed, -um, fx et herredømme, et omdømme, et bageri, et batteri, et hoved, et marked, et gymnasium, et museum osv.

De er såmænd gode nok, men de giver ikke just nogle anvisninger for hvad man gør på dansk med de ord som ikke falder ind under disse kategorier af navneord. Hvad, fx, er grundet til at ‘bog’ er fælleskøn? Er der fonologisk kriterier? Er det overhovedet blevet kigget på? Så vidt jeg kan se siger de fleste grammatikker og kilder at dansk grammatisk køn er arbitrært, og uden underliggende regelsæt – men det siger man jo også om fransk og tysk, hvilket er noget vrøvl..
Anyone?

Google og internettets sproglige diversitet

Googles officielle blog kom igår et indlæg af stor lingvistisk relevans. Det var nemlig et forklaring af de datalingvistiske metoder, som Google bruger for at forbedre brugernes søgninger – navnlig hvis man søger på andre sprog end engelsk.

  • Spell corrections: We recently launched spell corrections in Estonian. If your Estonian is rusty, and you don’t remember how to spell “smoke detector,” we can suggest a spell correction for [suitsuantur], leading to better search results.
     
  • Diacritical marks: Many languages have diacritical marks, which alter pronunciation. Our algorithms are built to support them, and even help users who mis-type or completely ignore them. For example, if you’re a resident of Quebec, Canada and would like to know the weather forecast in Quebec City, we’ll serve good results whether you type with diacritical signs [Météo à Québec] or without [meteo quebec]. Czech users can read the same excellent results for a popular kids’ cartoon by searching for [krtecek] and [krte?ek]. On the other hand, sometimes diacriticals change the meaning of the word and we have to use them correctly. For example, in Thai, [????] is “rice,” with completely different results than [????], which is “news”; or in Slovakia, results for “child” [die?a] are different than results for “diet” [diéta].
     
  • Synonyms: A general case of diacritical support is the handling of synonyms in different languages. Korean searches showed that “samsung” can be viewed as a synonym of “??”, so that when users search for [samsung], they find results which have the company’s name in Korean.
     
  • Compounding: Some languages allow compounding, which is the formation of new words by combining together existing words. You can see a nice example in Swedish, where we return documents about a Swedish credit card for both compounded [Visakort] and non-compounded [visa kort] queries.
     
  • Stemming: Google has developed morphological models that can receive compound words as queries, and return pages which contain their stem, possibly as part of a different compound. For example, when searching for cars in Saudi Arabia, you can search for [?????] and [??????] because both are variants of the same stem, and both return many common results. A Polish user can search for “movie” [film], and get back results that contain other variants of the stem, such as “filmów,” “filmu,” “filmie,” “filmy.” A user from Belarus will find results for all word forms of the capital, Minsk [?????]: “??????,” “??????,” “????????.”

De beskriver også deres bestræbelser på at gøre Google brugbar til søgninger på sprog som bruger andre skriftsystemer end vores latinske alfabet bl.a. gennem brug af en art fonemisk transskription med latinske bogstaver.