De Kwaliteitsslag – Deel 7

Op deze prachtige laatlentedag gaan we het hebben over kwaliteit en zonnige vergezichten, oftewel: hoe zit het eigenlijk met het ‘doorontwikkelen’ van ROM? Voor wie nu pas ingeschakeld heeft een korte recap: in de eerdere afleveringen hebben we de achtergrond van de recente ROM-discussie behandeld, de redenen om überhaupt dit middel in te schakelen, het rapport van de Algemene Rekenkamer dat de opmaat vormde voor de actie Stop Benchmark met ROM, de voornaamste punten van de discussie die volgde, en de privacykwestie die de aanlevering van ROM gegevens aan SBG juridisch problematisch maakt. Belangrijke feiten waren het onderscheid tussen het gebruik van ROM op het niveau van behandelaar en cliënt(en), ter ondersteuning van de behandeling (klinische ROM of ROM-k), ROM data gebruiken binnen een instelling om op beleidsniveau verbeteringen door te voeren (ROM-i) en ROM data gebruiken om de kwaliteit van zorg tussen instellingen te vergelijken en daarmee zorg in te kopen (benchmarking of ROM-b). We concludeerden dat er, ondanks de nodige pittige retoriek, redelijk wat overeenstemming blijkt te zijn over de status van deze verschillende vormen van ROM: ROM-k wordt breed als waardevol en toepasbaar gezien, ROM binnen de context van instellingen is al meer aan kritiek en twijfel onderhevig (o.a. m.b.t. de juiste keuze van ROM instrumenten), terwijl benchmarken met ROM op dit moment niet als haalbaar en verstandig wordt gezien. De meningen verschillen vervolgens over twee dingen: de perspectieven voor het alsnog mogelijk maken van benchmarken, en de implicaties van de huidige situatie voor wat er de komende tijd zou moeten gebeuren met ROM. Een kernbegrip in de stellingnames hieromtrent is “doorontwikkelen” van ROM, wat in zou houden dat de huidige praktijk van aanlevering van ROM data, misschien (afhankelijk van de uitkomst van de privacykwestie) met aangescherpte informed consent procedures en databeveiliging, zo door zou moeten gaan, terwijl de wetenschap vooral zijn werk moet doen om de problemen rond de validiteit van de uitkomsten op te lossen. Als je ‘doorontwikkelen ROM’ googlet, dan kun je een tijdje aan het lezen blijven. Wat ik vandaag dus wil doen, is kijken wat er nu bekend is over de vooruitzichten op deze punten.
Wat waren ‘validiteit’ en ‘betrouwbaarheid’ ook alweer? Validiteit gaat over de vraag of de uitslag die een meetinstrument geeft, ook echt de werkelijkheid van de wereld vertegenwoordigt. Stel ik ga kamperen en ik wil precies weten hoe warm het is op het stekkie waar ik zit, dus ik neem een thermometer mee. Als die structureel 5 graden te laag aangeeft, dan heb je meer kans dat ik verbrand, als ik tenminste alleen op die thermometer af ga. Als je zo’n structurele meetfout kent, dan kun je daarvoor corrigeren, iets wat ook bij vertekenende invloeden in de statistiek gedaan wordt. Wat ook kan, is dat de thermometer gevoelig blijkt voor mijn lichaamstemperatuur als ik hem vasthoud, en daarom wisselende uitslagen geeft afhankelijk van wie hem wanneer vastgehouden heeft. Mijn lichaamswarmte is dan een zogenaamde confounder. Als de thermometer intern niet goed werkt waardoor hij bij een gelijke buitentemperatuur telkens verschillende uitslagen geeft, of zo slecht te lezen is dat mijn kampeerburen en ik allemaal een verschillende temperatuur aflezen van de meter, dan is hij onbetrouwbaar. Met deze termen in de hand zijn populair-wetenschappelijke discussies over ROM iets makkelijker te volgen. We kunnen nu over naar de vraag: wat zijn de perspectieven voor ‘doorontwikkelen’ van ROM-b? Wat zou er dan moeten veranderen?

Een van de grootste problemen is dus de invloed van confounders. In een eerdere aflevering hebben we het hier al over gehad: stel je wil twee looptrainers met elkaar vergelijken, kijken wie de beste is, en je doet dat door ze elk 10 mensen te laten trainen, en dan een voor- en nameting te doen van hun loopprestaties, dan krijg je een vertekend beeld als de ene trainer een groep jonge atleten krijgt, en de ander een groep mid-life kantooraardappels. Wat je in feite wilt, is dat je een gelijk speelveld hebt voor en tijdens de wedstrijd. Om dat op te lossen ga je dus groepen op leeftijd indelen en vergelijk je dus tussen dezelfde leeftijdsklassen. Hetzelfde kun je dan vervolgens ook doen voor andere verstorende factoren, zoals bijvoorbeeld of iemand werkt, of iemand in de stad woont of op het platteland, wat het inkomen is, enzovoort. Maar je kunt je voorstellen, dat als je tien man traint, en je gaat zulke groepen maken, je al heel snel tot hele kleine groepen komt, en ook met een paar man over die nergens in passen. Dat betekent weer, dat je geen valide vergelijking kunt maken, want een groep van een paar man is niet representatief voor de totale groep mensen die je wel vertegenwoordigd wil zien in je onderzoek. Dit is dus één van de redenen waarom men afgesproken heeft om een ondergrens te stellen aan hoeveel ROM-gegevens verzameld worden; net als met verkiezingen geldt: hoe hoger de opkomst, hoe beter de uitslag de mening van de groep vertegenwoordigt.
Demografische factoren zoals leeftijd, inkomen, burgerlijke status, lichamelijke problemen, andere psychische problemen, of sociale problemen zoals huisvesting of werkloosheid, zijn bekende confounders: ze kunnen allemaal de uitkomst van de behandeling beïnvloeden. Dat betekent, dat als je als zorginstelling toevallig in een streek woont waarin veel van deze factoren de uitkomsten van de behandeling ‘omlaag drukken’, je met een even goede behandeling lager zult scoren dan een instelling zonder deze factoren. Een verwant probleem is de variatie die onder een diagnose schuil kan gaan. Wie een vaste lezer is van deze blog weet dat we eerder al de nodige aandacht besteed hebben aan de beperkingen en problemen rond de classificatie die we in de ggz in Nederland gebruiken, de DSM. Een daarvan is de verscheidenheid aan problemen die schuil kunnen gaan onder één DSM-diagnose. Omdat die classificaties tot stand komen op basis van het voldoen aan een x aantal verschijnselen uit een lijst van x + y aantal mogelijkheden (dus bijvoorbeeld 5 van de 9 mogelijke symptomen van depressie), krijg je onvermijdelijk dat problemen die zich op verschillende manieren manifesteren, met verschillende verschijnselen, toch voldoen aan dezelfde DSM-diagnose. En dan kun je ook weer dezelfde vraag stellen: stel je bent twee groepen van mensen met een depressie aan het vergelijken (dat je die subgroep eruit pikt is al één manier om confounding tegen te gaan), dan is het best mogelijk dat de ene groep veel meer symptomen x heeft, en de andere veel meer symptomen y. Dan is de vervolgvraag, of dat uitmaakt voor de behandelbaarheid en de kans op herstel van ‘de depressie’ tussen de beide groepen, want zo ja, dan heb je weer een ongelijk speelveld bij de vergelijking. En verder weten we dat de DSM de werkelijkheid van psychisch lijden in heel veel aandoeningen en aandoeninkjes opdeelt, waardoor het veel voorkomt dat mensen meer dan één aandoening geclassificeerd krijgen. En wat betekent het dan, als je naast je depressie nog kampt met verslaving, trauma, of psychose? Dat maakt waarschijnlijk wel iets uit voor de kansen op herstel. Dus daar moet dan ook rekening mee gehouden worden. Dit is nog maar een tipje van de sluier van de methodologische uitdagingen voor vergelijken op een goede, valide manier.

Nu zou je denken dat na de StopROM petitie, er een offensief zou komen waarin uitgelegd zou worden hoe men de methodologische bezwaren gaat aanpakken. Maar dat valt wat tegen. Bekijk deze blog maar eens van Gert Westert, nota bene lid van de Wetenschappelijke Raad van SBG. Je zou verwachten: die gaat met een klinkend verweer komen met specifieke antwoorden op bovenstaande problemen. Helaas staat daar niks over in zijn stuk, merkwaardig gezien zijn functie. Interessant om te lezen is ook de reactie van hoogleraar ROM Edwin de Beurs. Ik heb goed gezocht meen ik, maar in dit stuk niks gelezen over hoe de validiteitsproblemen zullen worden aangepakt. Des te opvallender is dit, omdat deze bezwaren ook al vijf jaar eerder opgetekend waren in het bekende multi-hoogleraren artikel. Als daar een respons op was, zou je toch verwachten dat prof. de Beurs de eerste zou zijn die te kennen en te vermelden. Maar nee. De vraag is dan waarop het vertrouwen in ‘doorontwikkelen’ van de ROM (in wetenschappelijk opzicht) gebaseerd is. Maar laten we vooral verder zoeken dan de blogosphere.

Het onvolprezen Tijdschrift voor Psychiatrie, dat gratis te lezen is online, heeft recent in haar aprilnummer aandacht besteed aan deze punten. In het artikel ‘Red ROM als kwaliteitsinstrument‘ wordt een aantal voorstellen gedaan voor het aanpakken van de problemen. Daar staat onder het hoofdje ‘ROM en benchmarking’ iets over ‘corrigeren voor de casemix door subgroepselectie’. ‘Casemix’, letterlijk het mengsel aan gevallen, verwijst dus naar de samenstelling van de patiëntengroep van de aanbieder en dus de mogelijke variatie die daar in zit. Subgroepselectie is dan, net als boven, het selecteren van groepen die tussen twee aanbieders goed of beter vergelijkbaar zijn. Dus alleen mensen vergelijken met angststoornissen, of depressies. Uit het artikel blijkt dat deze methode toepassen inderdaad leidt tot andere rangordes op vergelijkingslijsten, maar wat er niet bij staat, is of hiermee ook voor alle confounders gecorrigeerd is. Want een verandering in volgorde wil nog niet zeggen dat de veranderde versie de werkelijkheid goed vertegenwoordigt. Verderop in het artikel wordt een lans gebroken voor ‘het vergelijken van homogenere groepen patiënten’. Afijn, het geeft wel een idee over in welke richting de oplossing wordt gezocht.

Offline valt er gelukkig ook nog genoeg te lezen, en onlangs kreeg ik (full disclosure) van Edwin de Beurs tijdens een interessante discussiebijeenkomst over ROM het boek ‘Behandeluitkomsten‘ cadeau. Deze geeft een aardig beeld van de huidige stand van zaken weer in Nederland vanuit het perspectief van de ‘doorontwikkelaars’. Deel IV van het boek is gewijd aan de ‘Methodologische Uitdagingen’. Els Blijd-Hoogewys schreef een mooie introductie van de knelpunten, en Lisanne Warmerdam een hoofdstuk over de aanpak van confounding en selectiebias (ik laat de problemen over het betrouwbaar gebruiken van vragenlijsten en hoe te vergelijken met verschillende vragenlijsten even achterwege, omdat die iets eenvoudiger aan te pakken zijn. Toch leveren die ook weer fundamentele vragen op, daar komen we misschien in een vervolgaflevering op terug). Warmerdam geeft een paar heldere illustraties over hoe casemixcorrectie werkt, en voegt als waarschuwing toe: dat direct vergelijken van gecorrigeerde gegevens van aanbieder alleen werkt als de casemix van die aanbieders niet heel erg veel van elkaar afwijkt. Daarnaast bestaat de mogelijkheid dat niet alle relevante confounders bekend zijn, of voldoende geregistreerd of aangeleverd zijn. Dat is dus een beetje Rumsfeld in de ROM:

Goed, dit alles is beschreven vanuit het perspectief van auteurs die dicht bij SBG en ROM staan. Het beeld dat ontstaat, is dat er véél data nodig zullen zijn, zodat subgroepselecties kunnen worden gemaakt, en dat het project om voor confounders te corrigeren nog veel vraagtekens kent. Een aantal andere problemen is hiermee nog niet benoemd, bijvoorbeeld strategische verzameling van data door zorgaanbieders (vooral de tevreden klanten meten), eenduidigheid in het verzamelen, timing, enzovoorts. Eigenlijk is het zo, dat als je dit goed wil doen, het in feite de opzet zou moeten volgen van wetenschappelijk onderzoek. Doe je dat niet, dan zal er altijd kritiek mogelijk zijn. Ziehier het stuk van Delespaul en van Os waarin bondig deze kritiek wordt verwoord, en alternatieven geschetst worden.

Eén ding bedacht ik zelf al over deze doorontwikkeling: hoe zal dat gaan lukken voor kleine aanbieders? Kunnen die wel genoeg data leveren om subgroepen op een valide manier te selecteren? Dit punt werd inderdaad in ‘Behandeluitkomsten’ herkend, maar een oplossing was er (nog) niet. Dus deze aanpak zal wel werken voor de grote aanbieders, maar lastig zijn voor de kleintjes. Dat geeft dan weer een volgend probleem, want sommige grote instellingen zijn zo groot dat ze in hun regio, in elk geval voor sommige doelgroepen, monopolisten zijn. Dan is al helemaal de vraag hoe die selectieve zorginkoop zou moeten werken. Het systeem vraagt dan eigenlijk tegengestelde dingen aan de instelling: kleiner worden om de monopolie te doorbreken, en groter worden ten behoeve van de ROM. Ingewikkeld! Concluderend is mijn indruk dat er nog veel onduidelijk is over het perspectief van doorontwikkelen, dat het opvallend is hoe weinig daarover in de tamelijk publieke discussie geschreven wordt, maar dat er nog steeds overeenstemming is over twee dingen: ROM-k ja, ROM-b nee, althans, voorlopig.

Dat brengt mij bij een tweede, voorlopige, conclusie: als hierover zoveel overeenstemming is, dan zou het logisch zijn, als de sturende prikkel van de zorgverzekeraar verplaatst wordt van het aanleveren van benchmarkdata naar het integreren van ROM-k in de behandelpraktijk. Op dit moment, zo betoogt SBMR, wordt ROM-k verdrongen door ROM-b. Het zou representatief zijn voor de huidige discussie als nu ROM-k wordt geprioriteerd, door behandelaars, instellingen, en verzekeraars, terwijl ondertussen tijd en ruimte gelaten wordt voor het verder bestuderen en ontwikkelen van benchmarking. Daarbij is echter ROM niet the only game in town. Volgende keer dus meer over hoe de toekomst er ook uit zou kunnen zien. In deze week waarin de eens verguisde Corbyn Groot-Brittannië op zijn kop zette is het wijs dat we ons realiseren dat de werkelijkheid ons telkens weer kan verbazen. So keep your mind open, but don’t let your brain fall out.

~AR

Advertenties

Geef een reactie

Vul je gegevens in of klik op een icoon om in te loggen.

WordPress.com logo

Je reageert onder je WordPress.com account. Log uit / Bijwerken )

Twitter-afbeelding

Je reageert onder je Twitter account. Log uit / Bijwerken )

Facebook foto

Je reageert onder je Facebook account. Log uit / Bijwerken )

Google+ photo

Je reageert onder je Google+ account. Log uit / Bijwerken )

Verbinden met %s