Vragen van het lid Dekker-Abdulaziz (D66) aan de Minister van Buitenlandse Zaken over het antwoord op vragen over het bericht over het visumbeleid door het Ministerie van Buitenlandse Zaken (ingezonden 20 oktober 2023).

Antwoord van Minister Bruins Slot (Buitenlandse Zaken) (ontvangen 29 april 2024).

Vraag 1

In de bevindingen van Privacy Management Partners (PMP), in paragraaf 3.3, wordt gesteld dat «Of er bias in het algoritme zit, kunnen wij zonder nader statistisch validatieonderzoek niet vaststellen» en vervolgens «Mits er geen bias blijkt te zitten in het algoritme, achten wij het IOB/KVV-proces behoorlijk in de zin van de AVG», heeft u naar aanleiding van het PMP-rapport een statistisch validatieonderzoek (bias-toets) laten uitvoeren op het algoritme dat wordt gebruikt in het Informatie Ondersteund Beslissen/Kort Verblijf Visa-proces (IOB/KVV-proces)?1

Vraag 2

Indien u een bias-toets heeft laten uitvoeren, wat waren de uitkomsten van dit onderzoek en kunt u dit statistisch validatieonderzoek delen met de Tweede Kamer? Indien geen bias-toets is uitgevoerd, hoe kunt u in Antwoord 11 stellen dat «In de adviezen wordt geconcludeerd dat de inzet van dit risicomodel voldoet aan de eisen die de relevante wet- en regelgeving daaraan stellen»?

Antwoord 1 en 2

Ja, het Ministerie van Buitenlandse Zaken heeft een statistisch validatieonderzoek (bias-toets) laten uitvoeren en toetst daarnaast ook nog op andere wijze of zich bij de toepassing van het Informatie Ondersteund Beslissen (IOB) mogelijk vormen van bias voordoen. In zijn algemeenheid kunnen biases op twee manieren optreden: (i) in de wijze waarop beslismedewerkers gebruik maken van het door middel van IOB gegenereerd ondersteunend behandeladvies; en (ii) in het algoritme zelf.

Ad i) De eventuele bias in het gebruik van het ondersteunend behandeladvies wordt sinds de toepassing van IOB bij visumaanvragen door het ministerie gemonitord. Er zijn diverse maatregelen genomen om de beslismedewerkers te trainen op het gebruik van de informatie afkomstig van dit instrument. In dit kader vindt wekelijks een kwaliteitstoets plaats op basis van een selectie van de die week afgehandelde visumaanvragen. Afwijkingen van de benchmark worden met beslismedewerkers besproken en geëvalueerd. Het ministerie gebruikt daarnaast dashboards waarin het percentage honoreringen en weigeringen van visa volgend op de drie mogelijke IOB-adviezen2 wordt gevolgd, en waarbij wordt aangegeven welke trends hierbij waarneembaar zijn. De ontwikkeling in de trends laat zien dat de weigeringspercentages voor de fast track (redelijk) stabiel blijven en dat het weigeringspercentage voor de intensive track sinds 2017 is afgenomen – van bijna 56% naar ongeveer 33%. Dit duidt erop dat het onderliggende algoritme van de profielen niet leidt tot een mechanisme dat uitmondt in steeds hogere weigeringspercentages op de intensive tracks.

In dit verband heeft het ministerie reeds in 2019 een onderzoek uitgevoerd naar de invloed van de tracks op het besluit van de visumbeslismedewerkers. Hoewel de tracks slechts een indicatie geven voor de te verwachten intensiteit van behandeling van een visumaanvraag (en dus niet over de strekking van de te nemen beslissing), is het niet ondenkbaar dat een beslismedewerker wordt beïnvloed door de tracks (confirmation bias). Dit zou een ongewenst effect zijn van het IOB.

Naar aanleiding van het advies uit het PMP rapport is dit onderzoek3 onlangs herhaald. Centrale vraagstelling van dit onderzoek luidde: «In hoeverre heeft labelingvan visumaanvragen invloed op de uitkomsten van visumbeslissingen die worden genomen door beslismedewerkers?» Hierbij is als werkhypothese gesteld dat labelingvan visumaanvragen deze uitkomsten beïnvloedt. Bij het experiment werden zes fictieve casussen voorzien van verschillende labels (fast, regular en intensive) en voorgelegd aan verschillende groepen van in totaal 42 beslismedewerkers. Aan hen werd de volgende vraag gesteld: hoe zou jij op deze visumaanvraag beslissen en hoe zeker ben je over jouw beslissing?

Uit de resultaten van het onderzoek (bijgevoegd) bleek, statistisch onderbouwd, dat het label geen invloed had op de genomen beslissing. Er was ook geen significant verschil in de gemiddelde zekerheidsscore voor de drie tracks.

Ad ii) Voor het statistische onderzoek naar een mogelijke bias in het algoritme zijn twee externe en onafhankelijke partijen benaderd.

Het ministerie heeft in eerste instantie het Rijks ICT Gilde (RIG) een opdracht verstrekt om een dergelijk onderzoek te uit te voeren. Het ministerie heeft het eindrapport van dit instituut om een aantal redenen helaas niet kunnen accepteren.

Door het ministerie was gevraagd te onderzoeken of er sprake was van een bias in het algoritme. Het RIG is afgeweken van de door BZ gestelde onderzoeksvraag en heeft zich in haar onderzoek gericht op een mogelijke bias tussen het BAO profiel en de uiteindelijke beslissing van de beslismedewerker. Dit onderdeel van het proces wordt echter door BZ zelf al voortdurend gemonitord.

Verder zijn er, om een mogelijke bias te meten, aannames gedaan die niet stroken met de feitelijke werkwijze van de BAO/IOB. Zo werd gesteld dat de door deze applicatie geadviseerde track weergeeft of een KVV-aanvraag bonafide (fast track) of malafide (intensive track) is en respectievelijk dus goed- of afgekeurd zou moeten worden. Dit is niet juist; de geadviseerde track zegt hier niets over. Een track heeft alleen betrekking op de te verwachten intensiteit van het dossieronderzoek en geeft geen duiding aan het uiteindelijke besluit. Indien een track wel leidend zou worden komt dat in feite neer op een vorm van automatische besluitvorming waarvan BZ juist expliciet wil wegblijven en waarvoor de BAO dus ook niet ontwikkeld is. Daar komt bij dat het advies uit de BAO/IOB sowieso niet aangevoerd kan en mag worden als weigeringsgrond voor een visum. Deze gronden zijn limitatief vastgelegd in de EU-Visumcode

Het RIG concludeerde bovendien dat het feit dat beslissingen op visumaanvragen niet in lijn zijn met het track-advies zou kunnen duiden op een confirmation bias bij de beslismedewerker. Dat is niet het geval; uit het feit dat de uiteindelijke beslissing van de beslismedewerker niet 1-op-1 een samenvalt met het advies uit de BAO/IOB, blijkt dat de beslismedewerker niet blind vaart op dat advies.

Tot slot wordt in het rapport van het RIG de werkwijze van het Ministerie van Buitenlandse Zaken vergeleken met de werkwijze van het Verenigd Koninkrijk. Die werkwijze is echter fundamenteel anders en bij de ontwikkeling van de BAO/IOB is hier destijds juist bewust van afgeweken. Zo wordt, anders dan in het Verenigd Koninkrijk, het gegeven nationaliteit nooit als enige gegeven gebruikt voor de profielen, maar altijd in combinatie met andere kenmerken en informatie.

Vanwege het tekort schietende rapport van RIG heeft het ministerie een andere externe partij, i.c. het Canadese SigmaRed Technologies4, verzocht een onderzoek te doen naar een eventuele biasin het bij het IOB gebruikte algoritme. Voor een goede vergelijking is voor dit onderzoek een soortgelijke dataset gehanteerd zoals eerder door het RIG5. SigmaRed meet in haar aanpak in hoeverre er statistische afwijken zijn tussen de historische data die voor IOB worden gebruikt en de uitkomst in de vorm van een handeladvies. In dit verband gaat zij ook in op al dan niet toepasbare metrics (statistische meetmethoden) die een eventuele bias kunnen vaststellen6.

De conclusie van SigmaRed is dat er geen sprake is van onevenredige discriminatie op basis van leeftijd, burgerlijke staat, geslacht of nationaliteit. Alleen bij aanvragen met een Jemenitische nationaliteit (0,121% van alle aanvragen) werd geconstateerd dat deze een ongelijksoortige vertegenwoordiging in de profielen hebben ten opzichte van het aantal aanvragen7. Uit nadere analyse blijkt dit een verklaarbare afwijking8. Voor de overige nationaliteiten werd geen bias vastgesteld, ondanks het feit dat sommige nationaliteiten op basis van historische gegevens meer vertegenwoordigd zijn in de intensive track.

SigmaRed heeft als aanbevelingen dat het ministerie experimentele studies uitvoert naar de relatie tussen het behandeladvies en de beslissing van de beslismedewerker. Dit komt overeen met een advies van het RIG. Dit is inmiddels geschied in de vorm van een vervolgonderzoek van een eerder onderzoek uit 2019 (zie hierboven en bijgevoegd). Daarnaast beveelt SigmaRed aan om een continue monitoringsfunctie in te bouwen in de werkwijze van het IOB. De IOB werkwijze wordt daarom aangevuld met een continue modelbewaking, waarbij potentiële verkeerde classificaties van het IOB adequaat worden geïdentificeerd.


X Noot
1

Aanhangsel van de Handelingen II, vergaderjaar 2022–2023, nr. 2842.

X Noot
2

Fast, intensive en regular track. Zie voor een uitgebreide toelichting van de IOB-werkwijze de Notitie Informatie Ondersteund Beslissen – Buitenlandse Zaken Analyse Omgeving (augustus 2023) – Bijlage bij Kamerstuk 26 643, nr. 1065 d.d.7 september 2023 Informatie- en communicatietechnologie (ICT) | Tweede Kamer der Staten-Generaal.

X Noot
3

Bijgevoegd: BZ_Bias experiment invloed labels op beslissingen_150123

X Noot
4

Aangezien een aantal passages in beide onderzoeken niet openbaar kan worden gemaakt, zijn gelakte documenten mee gezonden bij de antwoorden op deze vragen. De documenten worden ongelakt vertrouwelijk bij de Kamer ter inzage gelegd.

X Noot
5

De periode is verschillend: het RIG betreft 2.459.293 miljoen aanvragen over de periode van 18-1-2018 t/m 2-12-2022 en SigmaRed omvat 2.470.413 miljoen aanvragen over de periode van 10-1-2019 t/m 8-1-2024.

X Noot
6

Vermeldenswaardig is hierbij conclusie nummer 3 van SigmaRed: Het BAO/IOB-classificatiemodel genereert geen voorspellingen, maar categoriseert toepassingen op basis van vooraf gedefinieerde criteria. Als zodanig is er geen concept van een «verkeerde groepering», waardoor statistieken zoals False Positive Rate en Family Wise Error Rate irrelevant worden. Deze maatstaven veronderstellen een binaire uitkomst van goed of fout, hetgeen niet overeenkomt met de functie van het BAO/IOB-model.

X Noot
7

Uit het SigmaRed rapport blijkt dat de drempelwaarden voor de toets normalized disparate impact ratio0,8 en 1,2 zijn. Voor de Jemen groep ligt de meetwaarde op 0,52, wat mogelijk kan wijzen op bias.

X Noot
8

Visumaanvragen met de Jemenitische nationaliteit bevatten, naast een hoog weigeringspercentage, ook hoge percentages «hits» op de lijsten van ketenpartners. Deze is voor alle lijsten gezamenlijk 2.46%, tegenover een gemiddelde van 0.63% voor alle andere nationaliteiten. De lijst die hierbij de grootste onevenredigheid aangeeft is de bron: «IND asiel na visum kort verblijf», die laat zien dat een relatief groot aandeel van toegewezen visumaanvragen met Jemenitische nationaliteit, na het verstrijken van hun kortverblijfvisum, over blijken te gaan tot het aanvragen van asiel (2.02% tegenover een gemiddelde van 0.17% voor alle andere nationaliteiten samen). Deze relatief grote discrepantie tussen de Jemenitische- en alle andere nationaliteiten, lijkt een duidelijke aanleiding te zijn waarom de Jemenitische nationaliteit in onevenredige mate voorkomt in de risicoprofielen, in vergelijking tot hun weigeringspercentage.

Naar boven

Disclaimer

De hier aangeboden pdf-bestanden van het Staatsblad, Staatscourant, Tractatenblad, provinciaal blad, gemeenteblad, waterschapsblad en blad gemeenschappelijke regeling vormen de formele bekendmakingen in de zin van de Bekendmakingswet en de Rijkswet goedkeuring en bekendmaking verdragen voor zover ze na 1 juli 2009 zijn uitgegeven. Voor pdf-publicaties van vóór deze datum geldt dat alleen de in papieren vorm uitgegeven bladen formele status hebben; de hier aangeboden elektronische versies daarvan worden bij wijze van service aangeboden.