Utvärdering av löslighetsprediktion med hjälp av maskininlärning

Detta är en Uppsats för yrkesexamina på grundnivå från Uppsala universitet/Institutionen för farmaci

Författare: Wajd Kaima; [2023]

Nyckelord: ;

Sammanfattning: Abstrakt  Introduktion och syfte: Löslighet är en av de viktigaste parametrarna som spelar en viktig roll vid upptäckt och utveckling av läkemedel. Att ha kännedom om löslighet av något läkemedel är viktigt eftersom det hjälper till att formulera nya läkemedelskandidater. Olika teoretiska metoder används för att förutsäga löslighet, såsom kvantitativ struktur-egenskapsrelation (QSPR- modeller). Maskininlärning är ett ytterligare sätt att förutsäga löslighet. Syftet med denna studie är att göra en litteraturgenomgång för att fastställa hur olika maskininlärningsmodeller används för att förutsäga löslighet. Syftet är också att ta reda på om det finns trender i prestanda för olika maskininlärningsalgoritmer, samt trender i hur användningen av datasetet påverkar prestanda.  Metod: En litteratursökning fokuserad på användning av maskininlärning för att förutsäga löslighet genomfördes. PubMed och Google användes för att söka efter vetenskapliga artiklar. De olika maskininlärningsalgoritmerna delades in i fem olika kategorier. Dessutom bestämdes fördelningen mellan användandet av regression och klassificering vad gäller löslighetsprediktion. En intressant parameter att studera är hur storleken på felet varierar med storleken på dataseten. Det är också viktigt att veta hur storleken på felet beror på antalet deskriptorer. Slutligen undersökte denna studie hur storleken på felet varierar med andelen molekyler i ett dataset som används för träning, test och validering.  Resultat: Studien visar att både beslutsträd och neurala nätverk används mest i artiklar, och att beslutsträd har ett högre R2-värde än neurala nätverk. Bayesianska metoder förefaller också ge goda resultat, men används inte lika mycket som andra metoder. De flesta artiklar använder regression för att erhålla en kontinuerlig variabel såsom löslighet. Ju större dataset, desto mindre felstorlek och ett bättre resultat. Fördelningen mellan tränings-, test- och validerings-set spelar en viktig roll för att minska storleken på felet. Antalet deskriptorer spelar en viktig roll och ju fler deskriptorer, desto mindre storlek på felet.  Slutsats: Beslutsträd och neurala nätverk används mest i maskininlärningsalgoritmer och andelen artiklar för neurala nätverk och beslutsträd är 30% vardera. Medelvärdet för R2 är högst (0.88) för studier som använder någon variant av beslutsträd. Regression används mer än klassificering. Där är andelen artiklar som använder regression, klassificering eller en kombination 50%, 31% respektive 19%. De högsta R2 (0.9) och lägsta (0.67) RMSE-värdena observerades för studier som innefattar stora dataset (upp till 40 000 molekyler). På samma sätt erhölls bäst resultat (MAE, R2 och RMSE) också för studier som inkluderade ett stort antal deskriptorer. För de studier som använde mer än 1000 deskriptorer erhölls medel-R2-, RMSE- och MAE-värde på 0,83, 0,55 respektive 0,51. Vidare sågs i detta arbete att en fördelning mellan tränings- och test-set i proportionerna 80/20 verkar vara både vanligt och lämpligt för att erhålla resultat med ett så litet fel som möjligt. 

  HÄR KAN DU HÄMTA UPPSATSEN I FULLTEXT. (följ länken till nästa sida)