Rekonstruktion av stavningsvarianter i SAOB med normaliseringsregler från nusvenska till nysvenska

Detta är en Magister-uppsats från Göteborgs universitet/Institutionen för filosofi, lingvistik och vetenskapsteori

Sammanfattning: Svenska Akademins ordbok skall bli färdigställd under 2023. En återstående del är att återskapa äldre ord. Här härleder jag normaliseringsregler för att rekonstruera ortografiska varianter av ord som förekommit från 1500-talet till 1900-talet. I ordboken finns det korta sekvenser kopplade till orden med information om stavning som tidigare förekommit. Problemet att identifiera positionerna i orden där dessa sekvenser skall substitueras in har hittills ansetts olösbart. För detta problem har jag tagit fram en algoritm som bestämmer vilken kombination av normaliseringsregler informationen består av och var den skall substitueras in. Vissa ord är uppdelade i för- och efterled. När något av dessa led saknas, ställs det andra ledet mot huvudordet för att dela detta i två delar. Här används normaliseringsregler och metoden edit distance. Normaliseringsreglerna är framtagna från etablerad språkhistorielitteratur. Vid sökning med textord i ordlistan efter tillägg av de genererade orden minskar mätvärdet precision något, medan recall och F-score höjs ordentligt. Sökningen efter nysvenska ord förbättras. En lista med återskapade ord presenteras.

  HÄR KAN DU HÄMTA UPPSATSEN I FULLTEXT. (följ länken till nästa sida)