Problem
Det er ikke alltid riktig å fine-tune en språkmodell. Noen problemer kan løses med god prompting, retrieval eller enklere modeller, mens andre oppgaver krever modelltilpasning. Dette prosjektet undersøkte når prompt engineering er nok, og når fine-tuning gir målbar verdi.
Løsning
Oppgaven var treveis claim verification: modellen skulle klassifisere om evidens støttet, avviste eller ga blandet/utilstrekkelig støtte til en påstand. Først ble det laget en prompting-baseline med strenge instruksjoner, label parsing, evidensutvalg og lav temperatur.
Deretter ble en Qwen3-modell tilpasset med LoRA fine-tuning. Treningsløpet inkluderte JSON-datalasting, instruction-format, supervised fine-tuning, adapter-injeksjon, reproduserbar evaluering og lagring av metrikker.
Resultat
Prompting oppnådde 58.76% accuracy og 0.6494 weighted F1. Fine-tuning forbedret resultatet til 67.23% accuracy og 0.6889weighted F1.
Det viktigste funnet var ikke bare at fine-tuning ga bedre score, men at valg av løsning bør være evalueringsdrevet. Man bør starte med baseline, måle ytelse, forstå feilmodi og først deretter velge om prompting, retrieval, regler eller fine-tuning er riktig vei.