Nasser AI Solutions | AI-programvare, webutvikling og embedded systemer

Pipeline som kombinerer tekst, OCR, tale og video-keyframes med strukturert LLM-output og evaluerbar beslutningslogikk.

Problem

Mange AI-problemer kan ikke løses godt nok med bare én datakilde. Informasjon kan ligge i tekst, bilder, tale, skjermbilder, video eller i konflikter mellom det som sies og det som vises. En ren tekstmodell kan derfor overse viktig visuell eller multimodal evidens.

Løsning

Prosjektet sammenlignet en tekstbasert baseline mot en multimodal LLM-pipeline. Baseline brukte TF-IDF og Logistic Regression på tekst fra beskrivelse, OCR og ASR. Den avanserte løsningen la til video-keyframes og brukte en multimodal LLM til å analysere både tekstlig og visuell informasjon.

Systemet krevde strukturert JSON-output fra modellen, blant annet label, confidence, begrunnelse, claim summary, text evidence strength, visual evidence strength, modality conflict og endelig sannsynlighet. Dette gjorde output mer maskinlesbar, enklere å evaluere og lettere å bruke i en større pipeline.

Resultat

Den multimodale løsningen forbedret macro F1 fra 0.679 til 0.700og forbedret recall for target-klassen fra 66.7% til 75.0%. Forbedringen var moderat, men nyttig fordi den viste at visuell evidens faktisk ga ekstra signal utover tekstbaselinen.

Prosjektet demonstrerer en viktig AI-engineering-prinsipp: ikke stol blindt på modelloutput. Systemet brukte baselinemåling, prompt-testing, strukturerte outputs, ablasjonstesting, error analysis og eksplisitt usikkerhetshåndtering.

Teknologi brukt

LLMMultimodal AIPrompt EngineeringOCRASRVideo KeyframesStructured JSONFew-shot PromptingEvaluationPython

Multimodal AI Pipeline

Problem

Løsning

Resultat

Teknologi brukt