A/B-testing er en velkjent og hyppig brukt metode for å optimalisere reklamekampanjer. Vi tester gjerne ulike varianter av annonsene, og ønsker å finne den mest effektive sammensetningen av ordlyd, bilde, format, layout budskap og kreativt konsept. Nyere forskning viser derimot at metoden ikke er så pålitelig som vi tror. Spesielt når testen gjennomføres på en av de store digitale plattformene som Meta og Google. Du kan rett og slett komme til feil konklusjon og velge en annonse eller et konsept som ikke er så effektivt. 

Når vi sier nyere forskning, så skriver Braun & Schwartz (2025) en artikkel hva som går galt med A/B-tesing, der kjernen er at det ikke er mulig å skru av algoritmene. Resultatet er at forutsetningene for et vellykket eksperiment ikke er til stede. 

For å undersøke dette nærmere, gjennomførte vi en A/B-test for et oppstartsselskap med en liten vri. Istedenfor å teste to ulike annonser, testet vi to helt identiske annonser i en kampanje. Alle innstillinger ble satt helt likt. Når alt likt, skal også resultatene bli like.  Det gjorde de ikke. Kreativ B fikk signifikant flere klikk og konverterte bedre enn kreativ A. Så hvorfor blir det sånn?

Forskningen til Michael Braun & Schwartz (2025) støtter våre funn. De avdekket et fenomen kalt «divergent delivery». Algoritmene til plattformer som Meta og Google målretter reklamer til forskjellige typer av brukere. Problemet oppstår når algoritmen sender forskjellige reklamer til ulike brukergrupper i en A/B-test. Den «vinnende» reklamen kan ha prestert bedre fordi algoritmen viste den til brukere som var mer tilbøyelige til å respondere på den, ikke nødvendigvis fordi reklamen var bedre. Dette viser at forskjellen i prestasjon ikke skyldtes utformingen av annonsen, men algoritmene og personene som så reklamen. De to utvalgene i vårt lille eksperiment ble altså forskjellige, selv om alle innstillingene var identiske, og dermed var de to gruppene ikke sammenlignbare.

Randomiserte kontrollerte eksperiment er regnet som beste praksis innen forskning, fordi metoden finner årsakssammenhenger. Det er tre forhold som må være på plass for at et eksperiment skal virke.

  1. Det må være minst to grupper, en kontrollgruppe og en eksperimentgruppe. 

  2. Gruppene skal være like. Det sikrer vi ved at det er tilfeldig hvem som havner i hvilken gruppe.

  3. Effekten måles etter at gruppene har blitt eksponert for ulike stimuli, i form av annonser.

På denne måten sikrer vi at den eneste forskjellen er at den ene gruppen har sett en versjon av annonsen, og den andre gruppen en annen versjon av annonsen. Alt annet er likt. For at eksperimentet skal ha en effekt, så må det føre til en signifikant forskjell mellom gruppene på en variabel vi måler, som for eksempel salg eller klikk.

Dagens A/-tester lever ikke opp til disse kravene! 

Den ene feilen er at det ikke er tilfeldig hvem som havner i hvilken gruppe. De kan presentere grupper som ser like ut, når det kommer til kjønn, alder, bosted og andre variabler. Likevel slutter ikke algoritmene å virke. Det er ikke tilfeldig hvem som havner i hvilken gruppe. 

Signifikante forskjeller testes sjeldent: De færreste plattformene presenterer signifikanstester.  De viser kun resultatene, så er det opp til brukeren å vurdere forskjellen. Dette betyr at vi ofte kan vurdere at en CTR på 0,15 og 0,18 er forskjellig, mens det egentlig bare er marginale forskjeller på grunn av tilfeldigheter.

Vår bekymring er ikke bruken av A/B-tester i seg selv. A/B-testing kan virke som en enkel måte å lære om effekten av reklamer, bilder og budskap, men markedsførere må være klar over hva de egentlig måler. Den store utfordringen i testmetoden som plattformselskapene bruker for å måle digital reklameeffekt og optimalisering av budskap. Ved å anerkjenne disse begrensningene, kan markedsførere ta mer informerte beslutninger og unngå fallgruvene ved å feiltolke data fra disse testene.

Hva bør du som annonsør gjøre? Her er noen tips:

  • Vurder andre mer robuste metoder for å teste budskap og reklameeffekter. Dette gjelder spesielt på et strategisk nivå som kan påvirke merkets posisjon og retning.
  • Signifikanstest! Er det en betydelig forskjell mellom de to kreativene? Selv ved en signifikant forskjell må vi være forsiktig med å konkludere, men det er en start å se om det er signifikant.
  • Dersom det er en signifikant forskjell, finn ut om det er målgruppen eller reklamen som påvirker resultatene. Dette krever mer testing og isolering av påvirkningsfaktorer, uten algoritmer som påvirker resultatene. Det må være tilfeldig hvem som ser reklamen og ikke.
  • Se forbi klikket, sett opp målinger som også ser på hva klikket betyr for videre interaksjon med merkevaren eller viktigere parametere som salg. 

Annonsører er opptatt av å få valuta for pengene når de annonserer på digitale plattformer. Utfordringen er at du ikke kan stole blindt på analysene du får av plattformselskapene. Da kreves det en annen bruk og mer robuste metoder.

Referanser: 

Braun, M., & Schwartz, E. M. (2025). Where A/B Testing Goes Wrong: How Divergent Delivery Affects What Online Experiments Cannot (and Can) Tell You About How Customers Respond to Advertising. Journal of Marketing, 89(2), 71-95. DOI: https://journals.sagepub.com/doi/pdf/10.1177/00222429241275886