AI-Gestuurde Productmatching op Schaal

De Klant

IB Data is marktleider in B2B-productdata-integratie voor de Nederlandse en Belgische bouwmaterialensector. Ze koppelen meer dan 300 fabrikanten aan 600+ groothandels en beheren een database van 17 miljoen unieke artikelen. Hun team van 16 dataspecialisten transformeert chaotische leveranciersdata naar schone, gestandaardiseerde formaten — en een enorm deel van hun tijd ging op aan één bottleneck.

Het Probleem

Productmatching — het koppelen van een leveranciersproduct aan het juiste artikel in de catalogus van een groothandel — slokte zo'n 20% van IB Data's totale operationele capaciteit op.

De uitdaging is bedrieglijk complex. De ene leverancier noemt het "Knauf A-plaat Horizonboard 4xAK 2600x1200x12,5 mm", de andere vermeldt exact hetzelfde product als "KNAUF GIPSPLAAT 4XAK 12,5MM 260X120CM". Verschillende afkortingen, verschillende eenheidsformaten, verschillende veldstructuren, soms zelfs compleet andere talen.

Wanneer productcodes beschikbaar zijn, is matchen rechttoe rechtaan. Maar wanneer de enige beschikbare informatie een vrije-tekst omschrijving is — wat regelmatig voorkomt — wordt matchen een handmatige puzzel die alleen domeinexperts kunnen oplossen.

IB Data had al geïnvesteerd in meerdere interne matchingtools, maar geen daarvan leverde de automatiseringsgraad die nodig was om de handmatige werklast daadwerkelijk te verminderen. Hun doel was helder: 60-70% van de matches automatisch afgehandeld, mensen beoordelen de rest.

Onze Aanpak

We structureerden het project in vier fasen, elk met een go/no-go beslismoment. Fase 1 was volledig op ons eigen risico — nul commitment vereist om te starten.

Fase 1: Analyse en Verkenning

Voordat we één regel code schreven, analyseerden we voorbeelddatasets, brachten datakwaliteitsproblemen in kaart en bestudeerden de bestaande matchingtools. We vonden onbenutte kansen: 100 miljoen historische matchrecords die nooit volledig benut waren, een interne synoniemendatabase met domeinspecifieke termen, en sterke verrijkingsextractielogica die het waard was om op voort te bouwen.

Fase 2: Matchingpipeline

We bouwden een drielaagse matchingarchitectuur:

Exacte matching — pure codevergelijking op EAN-nummers, barcodes en leverancierscodes. Geen AI nodig. Deterministisch en snel — hiermee werd al een aanzienlijk deel van de matches gevangen.

Semantische matching — voor producten zonder overeenkomende codes implementeerden we een hybride zoekmethode die vector-gebaseerde similarity (begrijpen van betekenis) combineert met keyword-gebaseerde matching (exacte termen vangen). Beide signalen draaien gelijktijdig, en het systeem leert welk signaal het meest te vertrouwen is per specifieke match.

Confidence scoring — elke match krijgt een betrouwbaarheidsscore. Hoog-betrouwbare matches worden automatisch goedgekeurd, gemiddeld-betrouwbare matches worden voorgesteld ter beoordeling, laag-betrouwbare matches gaan naar de handmatige wachtrij.

Fase 3: Custom Modeltraining

Hier kwam IB Data's grootste troef in het spel. We trainden een custom embedding model specifiek op bouwmaterialenterminologie, met de 100 miljoen historische matches als ground truth en de synoniemendatabase om de vectorruimte te bootstrappen.

De verbetering was dramatisch. Generieke modellen begrijpen niet dat "nagel" en "spijker" hetzelfde product zijn, of dat "RVS" roestvrij staal betekent. Het custom model wel — omdat het leerde van tientallen jaren aan expertmatchingbeslissingen.

We bouwden ook dynamische matchingstrategieën die zich aanpassen per productcategorie. Elektracomponenten prioriteren exacte codes. Grondstoffen prioriteren semantische matching. Het systeem routeert elk product via de meest effectieve strategie voor zijn categorie.

Fase 4: Productie-Deployment

Een strakke webinterface: drag-and-drop bestandsupload, real-time verwerking met live matchteller, kleurgecodeerde beoordelingstabel en bulk-goedkeuring voor hoog-betrouwbare matches. Elke actie van een specialist voedt terug in trainingsdata voor periodieke modelhertraining. Het systeem wordt meetbaar beter na verloop van tijd.

Het Resultaat

De matchingautomatiseringsgraad overtrof het doel van 60-70%. De verwerkingstijd per leveranciersonboarding daalde van dagen handmatig matchen naar minuten. Specialisten richten zich nu op echte randgevallen in plaats van routinematige matches.

Het systeem verbetert continu — elke bevestigde of afgewezen match voedt terug in de hertraining. Infrastructuurkosten blijven minimaal omdat het kernsysteem draait op open-source technologie.

"We hadden iets praktisch nodig — geen wetenschappelijk project. 60-70% automatisering was het doel. Ze leverden dat en meer, en het systeem wordt steeds beter naarmate we het meer gebruiken." — Jop Schillemans, Directeur, IB Data

Technologie

Python voor de kern van de matchingengine
Sentence Transformers met custom-getrainde embeddings voor bouwmaterialen
FAISS voor vector similarity search op schaal (17M+ artikelen)
Streamlit voor de webgebaseerde beoordelingsinterface
AWS Frankfurt voor EU-gebaseerde cloud deployment