Nasser AI Solutions | AI-programvare, webutvikling og embedded systemer

Sammenligning av prompt engineering og LoRA fine-tuning for treveis faktasjekk og claim verification.

Problem

Det er ikke alltid riktig å fine-tune en språkmodell. Noen problemer kan løses med god prompting, retrieval eller enklere modeller, mens andre oppgaver krever modelltilpasning. Dette prosjektet undersøkte når prompt engineering er nok, og når fine-tuning gir målbar verdi.

Løsning

Oppgaven var treveis claim verification: modellen skulle klassifisere om evidens støttet, avviste eller ga blandet/utilstrekkelig støtte til en påstand. Først ble det laget en prompting-baseline med strenge instruksjoner, label parsing, evidensutvalg og lav temperatur.

Deretter ble en Qwen3-modell tilpasset med LoRA fine-tuning. Treningsløpet inkluderte JSON-datalasting, instruction-format, supervised fine-tuning, adapter-injeksjon, reproduserbar evaluering og lagring av metrikker.

Resultat

Prompting oppnådde 58.76% accuracy og 0.6494 weighted F1. Fine-tuning forbedret resultatet til 67.23% accuracy og 0.6889weighted F1.

Det viktigste funnet var ikke bare at fine-tuning ga bedre score, men at valg av løsning bør være evalueringsdrevet. Man bør starte med baseline, måle ytelse, forstå feilmodi og først deretter velge om prompting, retrieval, regler eller fine-tuning er riktig vei.

Teknologi brukt

LLMQwen3LoRAFine-tuningPrompt EngineeringOllamaUnslothPythonModel Evaluation

LLM Adaptation: Prompting vs Fine-Tuning

Problem

Løsning

Resultat

Teknologi brukt