Om utvecklingen av ett nytt korpusredskap för svenska

I vårt föredrag vill vi presentera arbetet med att utveckla ett nytt korpusredskap för svenska som taggar orden i en korpus för semantiska fält. I samarbete med Lancaster University skapar vi en svensk version av ”the USAS tagger” som har utarbetats i samband med arbetet med British National Corpus, och som sedan vidareutvecklats för ett korpusverktyg för engelska, WMatrix. Detta korpusverktyg kan tagga ord i en korpus för de olika semantiska fält orden hör till. De semantiska fälten baseras på Longman Lexicon of Contemporary English och har en flernivåstruktur med 21 övergripande fält som ’Pengar & Handel’, ’Antal & Mått’, men även möjlighet till ytterligare finkornig indelning.

Ambitionen är att skapa ett verktyg som kan söka ut ord i ett visst semantiskt fält i ett större material och även jämföra vilka semantiska fält som är överrepresenterade i ett visst korpusmaterial i jämförelse med andra. I föredraget ger vi exempel på hur detta redskap använts i engelskspråkig forskning och diskuterar relevansen av redskapet för forskning i t.ex. diskursanalys och metaforforskning.

Arbetet innebär att den ordlista som ligger till grund för WMatrix taggern automatöversätts till svenska med hjälp av ett fritt tillgängligt svenskt-engelskt onlinelexikon, Folkets lexikon, och en automatisk ordklasstaggare. Proceduren har tidigare prövats för ett flertal andra europeiska språk (Piao et al 2016). Den semantiskt taggade ordlista denna procedur resulterar i är av naturliga skäl ofullständig eller i vissa fall direkt felaktig (på grund av av problem i det svensk-engelska lexikonet, fel i ordklasstaggningen, eller i själva automatöversättningen). Ordlistan kontrolleras därför manuellt. I föredraget vill vi även redogöra för några av de problemställningar vi ställts inför i detta arbete.

Litteratur

Piao S., Rayson P., Archer D., Bianchi F., Dayrell C., El-Haj M., Jiménez, R-M., Knight D., Kren M., Löfberg L., Nawab R.M.A., Shafi J., The P.L and Mudraya O. (2016) Lexical Coverage Evaluation of Large-scale Multilingual Semantic Lexicons for Twelve Languages. In Proceedings of the 10th edition of the Language Resources and Evaluation Conference (LREC2016), Portoroz, Slovenia, pp. 2614-2619.