Problem
Mange AI-problemer kan ikke løses godt nok med bare én datakilde. Informasjon kan ligge i tekst, bilder, tale, skjermbilder, video eller i konflikter mellom det som sies og det som vises. En ren tekstmodell kan derfor overse viktig visuell eller multimodal evidens.
Løsning
Prosjektet sammenlignet en tekstbasert baseline mot en multimodal LLM-pipeline. Baseline brukte TF-IDF og Logistic Regression på tekst fra beskrivelse, OCR og ASR. Den avanserte løsningen la til video-keyframes og brukte en multimodal LLM til å analysere både tekstlig og visuell informasjon.
Systemet krevde strukturert JSON-output fra modellen, blant annet label, confidence, begrunnelse, claim summary, text evidence strength, visual evidence strength, modality conflict og endelig sannsynlighet. Dette gjorde output mer maskinlesbar, enklere å evaluere og lettere å bruke i en større pipeline.
Resultat
Den multimodale løsningen forbedret macro F1 fra 0.679 til 0.700og forbedret recall for target-klassen fra 66.7% til 75.0%. Forbedringen var moderat, men nyttig fordi den viste at visuell evidens faktisk ga ekstra signal utover tekstbaselinen.
Prosjektet demonstrerer en viktig AI-engineering-prinsipp: ikke stol blindt på modelloutput. Systemet brukte baselinemåling, prompt-testing, strukturerte outputs, ablasjonstesting, error analysis og eksplisitt usikkerhetshåndtering.