How to Read a Study

Waarom dit Belangrijk is

Bij het evalueren van claims over peptiden is het vermogen om wetenschappelijke studies kritisch te beoordelen van onschatbare waarde. Marketingmateriaal, socialemediaposts en online forums citeren vaak selectief studies, vertekenen bevindingen of verwarren dieronderzoek met bewezen effectiviteit bij mensen. Deze gids biedt een praktisch kader om zelf onderzoek te evalueren, zodat u echt bewijs kunt onderscheiden van hype.

U hebt geen wetenschappelijke graad nodig om studies te evalueren — u hebt een systematische aanpak en begrip van de belangrijkste concepten nodig. Tegen het einde van deze gids zou u een wetenschappelijk artikel moeten kunnen oppakken, de sterke en zwakke punten ervan moeten kunnen identificeren en moeten kunnen bepalen hoeveel gewicht u aan de conclusies moet geven.

De Structuur van een Wetenschappelijk Artikel

De meeste onderzoeksartikelen volgen een gestandaardiseerd formaat dat bekend staat als IMRAD (Introduction, Methods, Results, and Discussion). Het begrijpen van deze structuur helpt u te weten waar u naar specifieke informatie moet zoeken.

Titel en Auteurs

De titel moet duidelijk beschrijven wat er is bestudeerd en hoe. Kijk naar de affiliaties van de auteurs — zijn ze verbonden aan gerenommeerde instellingen? Is de onderzoeksgroep bekend om werk op dit gebied? Noteer voor peptidonderzoek of alle auteurs van dezelfde instelling komen (wat kan duiden op een bevinding van één laboratorium die nog niet elders is gerepliceerd).

Abstract

Een korte samenvatting (meestal 200-300 woorden) van het doel, de methoden, de resultaten en de conclusies van de studie. Het abstract is nuttig voor een snel overzicht, maar het laat vaak belangrijke nuances, beperkingen en negatieve bevindingen weg. Evalueer een studie nooit uitsluitend op basis van het abstract.

Gestructureerde versus ongestructureerde abstracts: Veel tijdschriften vereisen gestructureerde abstracts met gelabelde secties (Achtergrond, Methoden, Resultaten, Conclusies). Deze zijn over het algemeen informatiever en gemakkelijker te ontleden dan ongestructureerde narratieve abstracts.

Introductie

Biedt achtergrondcontext, stelt de onderzoeksvraag of hypothese, en verklaart waarom de studie is uitgevoerd. Deze sectie moet duidelijk een kennishiaat identificeren dat de studie beoogt aan te pakken.

Waar op te letten: Vertegenwoordigt de introductie de bestaande literatuur nauwkeurig en eerlijk, of citeert het selectief studies die de hypothese van de auteurs ondersteunen, terwijl tegenstrijdig bewijs wordt genegeerd?

Methoden

De belangrijkste sectie voor het beoordelen van de studiekwaliteit. Deze sectie beschrijft precies hoe de studie is uitgevoerd en moet voldoende detail bevatten voor een andere onderzoeker om het experiment te repliceren.

Kritieke elementen om te controleren:

Studiedesign (RCT, cohort, case series, dierstudie, in vitro)
Populatie (wie was inbegrepen en uitgesloten, en waarom)
Details van de interventie (dosis, route, frequentie, duur)
Controlegroep (placebo, actieve comparator, of geen)
Randomisatiemethode en toewijzingsverberging
Blinding (wie was geblindeerd — deelnemers, clinici, uitkomstbeoordelaars)
Primaire en secundaire uitkomsten (vooraf gedefinieerd of post-hoc)
Rechtvaardiging van de steekproefgrootte (powerberekening)
Plan voor statistische analyse
Ethische goedkeuring en geïnformeerde toestemming

Resultaten

Presenteert de gegevens, idealiter met tabellen, figuren en statistische analyses. Deze sectie moet alle vooraf gespecificeerde uitkomsten presenteren, niet alleen de significante.

Waar op te letten: Zijn de resultaten consistent met de methodensectie? Zijn alle primaire eindpunten gerapporteerd? Worden betrouwbaarheidsintervallen verstrekt naast p-waarden? Worden bijwerkingen gerapporteerd?

Discussie

De interpretatie van de resultaten door de auteurs, geplaatst in de context van bestaande literatuur. Dit is de meest subjectieve sectie en moet kritisch worden gelezen.

Waar op te letten: Volgen de conclusies logisch uit de gegevens? Erkennen de auteurs beperkingen? Overdrijven ze de implicaties? Bespreken ze de generaliseerbaarheid van hun bevindingen op passende wijze?

Belangenconflicten en Financiering

Meestal aan het einde van het artikel. Zoek naar openbaarmaking van financiering door de industrie, advieskosten, aandelenbezit of andere relaties die de resultaten of interpretatie zouden kunnen beïnvloeden.

Inzicht in Studiedesigns

Gerandomiseerde Gecontroleerde Onderzoeken (RCT's)

De gouden standaard voor het evalueren van therapeutische interventies. Belangrijke subtypes:

Parallelle groep: Deelnemers worden willekeurig toegewezen aan een van de twee of meer behandelgroepen en blijven gedurende de duur in die groep. Het meest voorkomende design.

Crossover: Elke deelnemer ontvangt beide behandelingen na elkaar (gescheiden door een uitwasperiode), en dient als zijn eigen controle. Verhoogt de statistische power met minder deelnemers, maar is alleen geschikt wanneer de aandoening stabiel is en het behandelingseffect omkeerbaar is.

Factorieel: Test twee of meer behandelingen tegelijkertijd. Een 2x2 factorieel onderzoek zou bijvoorbeeld patiënten kunnen randomiseren naar: (A) peptide + oefening, (B) peptide + geen oefening, (C) placebo + oefening, (D) placebo + geen oefening. Efficiënt voor het evalueren van interacties tussen behandelingen.

Non-inferioriteit: Ontworpen om aan te tonen dat een nieuwe behandeling niet "slechter" is dan een bestaande behandeling met meer dan een vooraf gedefinieerde marge, in plaats van superioriteit aan te tonen. Gebruikelijk wanneer de nieuwe behandeling andere voordelen biedt (gemak, kosten, minder bijwerkingen).

Clustergerandomiseerd: Groepen (klinieken, ziekenhuizen, gemeenschappen) in plaats van individuen worden gerandomiseerd. Gebruikt wanneer individuele randomisatie onpraktisch is.

Blinding

Open-label: Iedereen weet wie wat krijgt. Meest vatbaar voor bias, vooral bij subjectieve uitkomsten.

Single-blind: Deelnemers kennen hun toewijzing niet, maar de onderzoekers wel. Vermindert effecten van deelnemersverwachtingen, maar onderzoekers kunnen nog steeds uitkomsten beïnvloeden.

Double-blind: Noch deelnemers, noch onderzoekers kennen de toewijzingen. De standaard voor het minimaliseren van bias. Ontblinding vindt plaats nadat de gegevensverzameling is voltooid.

Triple-blind: Deelnemers, onderzoekers en data-analisten zijn allemaal geblindeerd. De meest rigoureuze aanpak.

Waarom blinding belangrijk is voor peptiden: Veel peptideclaims betreffen subjectieve uitkomsten (pijnvermindering, cognitieve verbetering, slaapkwaliteit, energieniveaus, gevoel van welzijn). Deze zijn zeer gevoelig voor placebo-effecten. Zonder adequate blinding is het vrijwel onmogelijk om een werkelijk medicijneffect te scheiden van verwachtingseffecten. Injectie zelf heeft een sterk placebo-effect — alleen al het ontvangen van een injectie (zelfs met zoutoplossing) kan meetbare verbeteringen in pijn en subjectief welzijn veroorzaken.

Observationele Studiedesigns

Prospectief cohortonderzoek: Onderzoekers identificeren een groep mensen, meten hun blootstellingen (bv. peptidegebruik) en volgen hen in de tijd om te zien wie de uitkomst van interesse ontwikkelt. Sterker dan retrospectieve designs omdat gegevens worden verzameld naarmate gebeurtenissen plaatsvinden.

Retrospectief cohortonderzoek: Gebruikt bestaande gegevens (medische dossiers, databases) om terug te kijken naar blootstellingen en uitkomsten. Sneller en goedkoper, maar beperkt door de kwaliteit van de bestaande gegevens.

Patiënt-controleonderzoek: Identificeert mensen met een uitkomst (gevallen) en zonder (controles), en kijkt vervolgens terug om blootstellingen te vergelijken. Nuttig voor zeldzame ziekten, maar vatbaar voor herinneringsbias.

Cross-sectioneel onderzoek: Meet blootstelling en uitkomst op één enkel tijdstip. Kan associaties aantonen, maar kan de temporele volgorde niet bepalen (kwam de blootstelling vóór de uitkomst?).

Steekproefgrootte en Statistische Power

Waarom Steekproefgrootte Belangrijk is

Grotere studies zijn over het algemeen betrouwbaarder. Kleine studies zijn vatbaarder voor willekeurige variatie en produceren waarschijnlijker valse positieven (effecten detecteren die niet echt bestaan) of valse negatieven (effecten die wel bestaan niet detecteren).

Poweranalyse

Voordat een studie begint, moeten onderzoekers de benodigde steekproefgrootte berekenen om een klinisch zinvol effect met voldoende waarschijnlijkheid te detecteren. Dit wordt een poweranalyse genoemd en hangt af van:

Verwachte effectgrootte: Hoe groot het behandelingseffect naar verwachting zal zijn (gebaseerd op eerdere studies of pilotgegevens)
Significantieniveau (alpha): Meestal ingesteld op 0,05
Power (1 - bèta): De waarschijnlijkheid om een werkelijk effect te detecteren, conventioneel ingesteld op 0,80 (80%) of 0,90 (90%)
Variabiliteit: Hoeveel de uitkomstmaat varieert tussen individuen

Een studie die "underpowered" is (te klein) kan een werkelijk effect missen en concluderen dat de behandeling niet werkt, terwijl de studie simpelweg onvoldoende deelnemers had om het te detecteren. Omgekeerd kan een extreem grote studie statistisch significante verschillen vinden die te klein zijn om klinisch zinvol te zijn.

Rode vlag: Als een studie geen powerberekening of rechtvaardiging van de steekproefgrootte vermeldt, is dit een methodologisch punt van zorg, met name voor studies die negatieve resultaten rapporteren.

Primaire versus Secundaire Eindpunten

Primair Eindpunt

De belangrijkste uitkomstmaat die de studie was ontworpen en gepowered om te detecteren. Dit moet vooraf worden gedefinieerd in het studieprotocol en idealiter worden geregistreerd op ClinicalTrials.gov voordat de studie begint. Het primaire eindpunt stuurt de berekening van de steekproefgrootte en vormt de basis voor de belangrijkste conclusie van de studie.

Secundaire Eindpunten

Aanvullende uitkomstmaten van belang. Deze zijn doorgaans verkennend en moeten met meer voorzichtigheid worden geïnterpreteerd. Een studie die faalt op zijn primaire eindpunt, maar slaagt op een secundair eindpunt, is fundamenteel mislukt — de secundaire bevinding moet worden beschouwd als hypothese-genererend en vereist bevestiging in een toekomstige proef die is ontworpen om die specifieke uitkomst te testen.

Post-Hoc Analyses

Analyses die niet vóór de studie werden gepland en na het bekijken van de gegevens werden uitgevoerd. Deze zijn het minst betrouwbaar omdat onderzoekers (bewust of onbewust) veel uitkomsten kunnen testen en alleen degenen rapporteren die significant lijken. Post-hoc bevindingen zijn strikt hypothese-genererend.

Rode vlag in peptideonderzoek: Als een studie een peptide testte op één primair eindpunt, geen significant effect vond, maar een significant resultaat rapporteert op een secundair of post-hoc eindpunt, wees dan voorzichtig. Dit is vaak hoe marginale resultaten positief lijken te worden gemaakt.

Intention-to-Treat versus Per-Protocol Analyse

Intention-to-Treat (ITT)

Alle gerandomiseerde deelnemers worden in de analyse opgenomen volgens hun oorspronkelijke groepstoewijzing, ongeacht of ze de studie hebben voltooid, het protocol hebben gevolgd, of zelfs de behandeling hebben ontvangen. ITT behoudt de voordelen van randomisatie en biedt een realistische schatting van de effectiviteit van de behandeling.

Per-Protocol (PP)

Alleen deelnemers die de studie volgens het protocol hebben voltooid, worden opgenomen. Dit schat de effectiviteit van de behandeling onder ideale omstandigheden, maar kan bias introduceren als uitval niet willekeurig is (bv. als patiënten die bijwerkingen ervaren uit de behandelgroep vallen, zijn de resterende deelnemers een geselecteerde, potentieel tolerantere subset).

Modified Intention-to-Treat (mITT)

Een veelvoorkomend compromis dat deelnemers uitsluit die geen enkele behandeling hebben ontvangen of die geen metingen na de baseline hadden. De exacte definitie varieert tussen studies, wat vergelijkingen kan bemoeilijken.

Beste praktijk: Zowel ITT- als PP-analyses moeten worden gerapporteerd. Als ze overeenkomen, neemt het vertrouwen in de resultaten toe. Als ze aanzienlijk verschillen, moeten de redenen worden onderzocht.

Inzicht in P-waarden

Wat een P-waarde Is

De p-waarde is de waarschijnlijkheid om resultaten te observeren die minstens zo extreem zijn als de verkregen resultaten, ervan uitgaande dat de nulhypothese (geen behandelingseffect) waar is.

P = 0,05 betekent: "Als de behandeling werkelijk geen effect heeft, is er een kans van 5% om resultaten te zien die zo extreem of extremer zijn door puur toeval."
P = 0,001 betekent dat de waarschijnlijkheid 0,1% is.

Wat een P-waarde NIET Is

Niet de waarschijnlijkheid dat de hypothese waar of onwaar is. Een p-waarde van 0,03 betekent niet dat er een kans van 97% is dat de behandeling werkt.
Niet een maat voor effectgrootte. Een zeer significante p-waarde (bv. 0,0001) betekent niet een groot effect. Met een zeer grote steekproefgrootte worden zelfs triviale effecten statistisch significant.
Niet een maat voor klinisch belang. Statistische significantie en klinische significantie zijn verschillende concepten.
Niet een maat voor repliceerbaarheid. Een p-waarde van 0,04 betekent niet dat er een kans van 96% is dat de bevinding wordt gerepliceerd.

Het Probleem van Meervoudige Vergelijkingen

Als een studie 20 onafhankelijke uitkomsten test op het significantieniveau van 0,05, zal ongeveer 1 "significant" zijn door puur toeval — zelfs als de behandeling geen werkelijk effect heeft. Dit staat bekend als het probleem van meervoudige vergelijkingen.

Correctiemethoden: Bonferroni-correctie (deel alpha door het aantal tests), Holm-Bonferroni (sequentiële aanpassing), Benjamini-Hochberg (controleert de false discovery rate). Als een studie veel uitkomsten test zonder correctie voor meervoudige vergelijkingen te vermelden, is dit een rode vlag.

P-Hacking

De praktijk van het manipuleren van data-analyse totdat een significant resultaat verschijnt. Technieken omvatten: het testen van veel uitkomsten en alleen significante rapporteren, het toevoegen of verwijderen van deelnemers, het toevoegen van covariaten totdat significantie is bereikt, het transformeren van gegevens, en het veranderen van het eindpunt na het zien van voorlopige resultaten. P-hacking kan opzettelijk of onbewust zijn.

Betrouwbaarheidsintervallen

Een 95% betrouwbaarheidsinterval (BI) biedt een bereik waarbinnen het werkelijke effect waarschijnlijk valt. Het communiceert zowel de omvang als de precisie van de schatting.

Voorbeeld: Een studie rapporteert dat een peptide de genezingstijd met 3,2 dagen verkort (95% BI: 1,5 tot 4,9 dagen, p = 0,002).

Dit vertelt ons:

De beste schatting van het effect is 3,2 dagen snellere genezing
We kunnen 95% zeker zijn dat het werkelijke effect tussen 1,5 en 4,9 dagen ligt
Het resultaat is statistisch significant (het BI kruist nul niet)

Contrast: Een andere studie rapporteert een verbetering van 3,2 dagen (95% BI: -0,5 tot 6,9 dagen, p = 0,09). Dezelfde puntschatting, maar het brede BI dat nul kruist, vertelt ons dat het resultaat onnauwkeurig en niet significant is — het werkelijke effect zou plausibel nul of zelfs negatief kunnen zijn.

Waarom BI's informatiever zijn dan p-waarden alleen: BI's tonen het bereik van plausibele effectgroottes, waardoor u de klinische relevantie kunt beoordelen. Een "significant" resultaat met een BI van 0,1 tot 0,3 dagen verbetering is statistisch reëel, maar klinisch triviaal.

Absolute versus Relatieve Risicoreductie

Relatieve Risicoreductie (RRR)

De proportionele vermindering van het risico. Als de controlegroep een gebeurtenispercentage van 10% heeft en de behandelgroep een gebeurtenispercentage van 5%, is de RRR 50%.

Absolute Risicoreductie (ARR)

Het eenvoudige verschil in gebeurtenispercentages. In het bovenstaande voorbeeld is de ARR 10% - 5% = 5 procentpunten.

Waarom dit Onderscheid Belangrijk is

Relatieve maatstaven kunnen dramatisch misleidend zijn. Als de controlegroep een gebeurtenispercentage van 0,2% heeft en de behandelgroep een gebeurtenispercentage van 0,1%, is de RRR nog steeds 50% (klinkt indrukwekkend), maar de ARR is slechts 0,1% (één op de duizend patiënten profiteert). Marketingmateriaal gebruikt bijna altijd relatieve risicoreducties omdat ze indrukwekkender klinken.

Zoek altijd naar absolute cijfers. Als een studie alleen relatieve risicoreducties rapporteert, bereken dan zelf de absolute reductie uit de gebeurtenispercentages.

Aantal Benodigd voor Behandeling (NNT) en Aantal Benodigd voor Schade (NNH)

NNT

Het aantal patiënten dat moet worden behandeld voordat één extra patiënt profiteert in vergelijking met de controle. Berekend als 1 / ARR.

NNT = 1: Elke patiënt profiteert (vrijwel onmogelijk)
NNT = 5: Behandel 5 patiënten; 1 profiteert meer dan wat placebo zou bieden
NNT = 50: Behandel 50 patiënten voor 1 om te profiteren
NNT = 100+: Marginale klinische voordelen

Context is belangrijk: Een NNT van 20 voor het voorkomen van overlijden is heel anders dan een NNT van 20 voor het verminderen van de frequentie van milde hoofdpijn. De ernst van de te voorkomen uitkomst moet worden afgewogen.

NNH

Het aantal patiënten dat wordt behandeld voordat één een specifieke bijwerking ervaart. Berekend op een vergelijkbare manier als NNT, maar met gebruik van schadelijkheidspercentages. De ideale behandeling heeft een lage NNT en een hoge NNH.

Inzicht in Forest Plots

Forest plots zijn de standaard grafische weergave in meta-analyses. Ze tonen de resultaten van individuele studies en de gecombineerde (gepoolde) schatting.

Hoe een forest plot te lezen:

Elke horizontale lijn vertegenwoordigt één studie. Het vierkant in het midden is de puntschatting (het resultaat van de studie). De grootte van het vierkant weerspiegelt het gewicht van de studie (grotere studies krijgen grotere vierkanten). De horizontale lijn door het vierkant is het 95% BI.
De verticale lijn bij 0 (voor verschillen) of 1,0 (voor ratio's) vertegenwoordigt "geen effect".
De ruit onderaan vertegenwoordigt de gepoolde schatting van alle studies. De breedte ervan is het 95% BI.
Als het BI van een studie de lijn voor geen effect kruist, is die individuele studie niet statistisch significant.
Als de ruit de lijn voor geen effect niet kruist, is het gepoolde resultaat statistisch significant.

Heterogeniteit: De I-kwadraat statistiek meet hoeveel de resultaten tussen studies variëren buiten wat verwacht zou worden door toeval. I-kwadraat groter dan 50% duidt op aanzienlijke heterogeniteit, wat betekent dat de studies mogelijk niet hetzelfde meten en het combineren ervan ongepast kan zijn.

Trechterplots en Publicatiebias

Een trechterplot graficeert de effectgrootte van elke studie tegen zijn precisie (meestal standaardfout of steekproefgrootte). Bij afwezigheid van bias moeten punten een symmetrische trechtervorm vormen: grotere, preciezere studies clusteren nabij het gemiddelde, terwijl kleinere studies breder, maar symmetrisch verspreid zijn.

Asymmetrie in trechterplots suggereert publicatiebias — met name dat kleine studies met negatieve resultaten ontbreken (ongepubliceerd). Als de linkerkant van de trechter (waar negatieve kleine studies zouden verschijnen) minder punten heeft dan de rechterkant, suggereert dit dat negatieve bevindingen niet zijn gepubliceerd, waardoor de schijnbare effectiviteit van de behandeling wordt opgeblazen.

Statistische tests voor trechterplotasymmetrie: Egger's test en Begg's test kunnen formeel beoordelen of asymmetrie aanwezig is.

Rode Vlaggen in Studies

Let op deze waarschuwingssignalen bij het evalueren van peptideonderzoek:

Rode Vlaggen in Studiedesign

Geen controlegroep of ontoereikende controle (vergelijking met historische gegevens in plaats van gelijktijdige controle)
Geen blinding voor subjectieve uitkomsten
Zeer kleine steekproefgroottes met sterke conclusies
Geen powerberekening of rechtvaardiging van de steekproefgrootte
Primair eindpunt gewijzigd na aanvang van de studie (zonder duidelijke rechtvaardiging)
Per-protocol analyse gepresenteerd als de primaire analyse zonder ITT

Statistische Rode Vlaggen

P-waarden gerapporteerd als "kleiner dan 0,05" in plaats van exacte waarden
Veel uitkomsten getest zonder correctie voor meervoudige vergelijkingen
Alleen relatieve risicoreducties gerapporteerd zonder absolute cijfers
Betrouwbaarheidsintervallen niet gerapporteerd
Post-hoc subgroepanalyses gepresenteerd als belangrijkste bevindingen
Statistische methoden ongepast voor het datatype

Rapportage Rode Vlaggen

Conclusies in het abstract komen niet overeen met de werkelijke resultaten
Selectieve rapportage van alleen positieve uitkomsten
Discrepantie tussen geregistreerd protocol (op ClinicalTrials.gov) en gepubliceerde resultaten
Belangrijke beperkingen niet besproken
Overdreven enthousiast taalgebruik ("baanbrekend", "revolutionair", "wonder")

Bron Rode Vlaggen

Gepubliceerd in een roofzuchtig tijdschrift (controleer Beall's lijst of Think.Check.Submit)
Geen peer review
Alle auteurs van één instelling, vooral als die instelling het product commercialiseert
Volledig gefinancierd door het bedrijf dat het product verkoopt, zonder onafhankelijke replicatie
Niet geïndexeerd in PubMed of grote databases

Roofzuchtige Tijdschriften

Roofzuchtige tijdschriften zijn publicaties die winst prioriteren boven academische strengheid. Ze rekenen auteurs publicatiekosten, maar bieden minimale of geen peer review. Hun artikelen verschijnen vaak in zoekresultaten naast legitiem onderzoek, waardoor ze voor niet-experts moeilijk te identificeren zijn.

Waarschuwingssignalen van roofzuchtige tijdschriften:

Agressieve e-mailsollicitaties voor manuscriptindieningen
Zeer snelle doorlooptijd van indiening tot publicatie (dagen in plaats van maanden)
Geen herkenbare redactieraad (of een raad met leden die niet weten dat ze vermeld staan)
Geen impactfactor, of een valse impactfactor van een niet-erkende indexeringsdienst
Vage of afwezige peer review-procedure
Grammaticale fouten op de website van het tijdschrift zelf

Hoe te controleren: Gebruik bronnen zoals Think.Check.Submit (thinkchecksubmit.org), controleer of het tijdschrift is geïndexeerd in PubMed of de Directory of Open Access Journals (DOAJ), en zoek ernaar in de Journal Citation Reports voor impactfactorgegevens.

Praktische Checklist voor het Evalueren van een Peptide Studie

Gebruik deze checklist wanneer u een studie tegenkomt die wordt aangehaald ter ondersteuning van een peptideclaim:

Wat voor soort studie is het? In vitro, dierlijk of menselijk? Indien dierlijk, hoe relevant is het model?
Is er een controlegroep? Wat was de controle (placebo, actieve comparator, niets)?
Was de studie gerandomiseerd en geblindeerd? Zo niet, waarom niet, en hoe kan dit de resultaten beïnvloeden?
Hoeveel proefpersonen/dieren werden opgenomen? Werd een powerberekening uitgevoerd?
Wat waren de primaire eindpunten? Waren ze vooraf gedefinieerd en klinisch zinvol?
Wat zijn de werkelijke effectgroottes? Niet alleen p-waarden, maar de omvang van het effect.
Worden betrouwbaarheidsintervallen gerapporteerd? Hoe breed zijn ze?
Wie heeft de studie gefinancierd? Zijn er belangenconflicten?
Waar is het gepubliceerd? Is het een gerenommeerd, peer-reviewed tijdschrift?
Is de bevinding gerepliceerd? Door onafhankelijke groepen in verschillende settings?
Komt de conclusie overeen met de gegevens? Of overdrijft het abstract de bevindingen?
Indien diergegevens, zijn deze bevestigd bij mensen? Zo niet, dan is dit alleen hypothese-genererend.