Utilizzando metodi simili a quelli descritti precedentemente per la valutazione dello strumento ROBINS-I , un team internazionale di ricercatori esperti di quattro centri partecipanti intraprenderà in modo collaborativo questo studio. Gli obiettivi principali sono i seguenti:
- I.
Misurare l’IRR e l’ICR tra i revisori nel valutare il ROB di NRSE usando ROB-NRSE (senza e con formazione e guida personalizzata)
- II.
Misurare la validità concorrente di ROB-NRSE
- III.
Misurare l’onere del valutatore (tempo impiegato per applicare ROB-NRSE, tempo impiegato per arrivare a un consenso, tempo impiegato per applicare NOS)
Per affrontare gli obiettivi di cui sopra, condurremo uno studio analitico trasversale su un campione di pubblicazioni NRSE seguendo questo protocollo. Questo protocollo sarà registrato con l’Open Science Framework (https://osf.io/). Il manoscritto finale dello studio sarà riportato secondo la lista di controllo STROBE-cross-sectional.
I: Affidabilità inter-rater e affidabilità inter-consensuale
Il nostro primo obiettivo è quello di valutare l’IRR di ROB-NRSE nella prima fase, senza formazione personalizzata e documento di guida dal ricercatore principale, e poi nella seconda fase, con formazione personalizzata e guida. In entrambe le fasi, i valutatori avranno accesso alla guida dettagliata disponibile al pubblico. Per la seconda fase, un documento di guida personalizzato sarà sviluppato utilizzando Microsoft Word (Word v1.5, Microsoft Corp., Redmond, WA, USA), da un membro anziano del team in possesso di laurea di dottorato (MJ). Dopo la revisione e il feedback da parte di un altro membro senior esperto del team (MA), completeremo il documento. Il documento guida conterrà regole decisionali semplificate, una guida aggiuntiva per i concetti avanzati e chiarimenti sulla risposta alle domande di segnalazione che guideranno i revisori nel fare valutazioni per ogni dominio nello strumento ROB-NRSE. Una volta sviluppato, invieremo il documento guida a tutti i revisori, per aiutarli con le valutazioni nella seconda fase del progetto. Inoltre, una sessione di formazione (via Skype) sarà organizzata da un formatore (MJ), che è un membro senior del team e lo sviluppatore del documento guida personalizzato. Durante la sessione di formazione, il formatore esaminerà il documento guida con tutti i revisori e fornirà chiarimenti. Useremo i seguenti metodi per valutare l’IRR e l’ICR.
Centri partecipanti
Interverremo due coppie di revisori (LC, NA, RCR, CB e KH) con vari livelli di esperienza e titoli accademici conseguiti, provenienti da più team di ricerca per valutare l’IRR e l’ICR. I team partecipanti sono i seguenti: (centro di coordinamento) The Knowledge Synthesis platform, George & Fay Yee Center for Healthcare Innovation, University of Manitoba (Canada) (MJ, AMAS, LC, NA, RR); Knowledge Synthesis Team, Knowledge Translation Program, Li Ka Shing Knowledge Institute of St. Michael’s Hospital, Unity Health Toronto (Canada) (ACT e RCR); Evidinno Outcomes Research Inc. (Canada) (KH e MSF); Pharmalytics Group, Vancouver (Canada) (CB).
Calcolo della dimensione del campione
Abbiamo calcolato la dimensione del campione (numero di pubblicazioni NRSE) necessaria per le valutazioni IRR (n = 44) prendendo in considerazione un errore di tipo I del 5%, una potenza statistica dell’80% e un margine di errore presunto del 30% . Come suggerito da Gwet , abbiamo assunto la probabilità di accordo casuale (Pe) come zero (scenario migliore) e abbiamo stimato la dimensione del campione richiesta per l’IRR utilizzando le formule e i calcoli disponibili su: http://agreestat.com/blog_irr/sample_size_determination.html. Abbiamo ottenuto la probabilità di accordo osservato (Pa) tra i revisori necessaria per il calcolo della dimensione del campione da un test pilota iniziale di 10 pubblicazioni NRSE.
Selezione del campione
Proponiamo di utilizzare un campione di convenienza di pubblicazioni di coorte prospettiche pubblicate in inglese (n = 44), (basato sui calcoli della dimensione del campione) identificato da una recente revisione sistematica. Identificheremo quindi un risultato pre-specificato (l’esito primario di ogni studio), per le valutazioni ROB per ogni NRSE incluso. Se uno studio non riporta un esito primario, il ricercatore principale identificherà un esito importante riportato nello studio, per la valutazione del ROB. Con l’aiuto di esperti di contenuti, identificheremo una lista di confondenti e co-esposizioni importanti per l’associazione specifica di interesse riportata in ciascuna delle pubblicazioni NRSE incluse.
Raccolta dati
Dopo il test pilota iniziale su 10 studi, procederemo con le valutazioni ROB per IRR. Consiglieremo ai revisori di rivedere le linee guida generali disponibili per il ROBINS-I fornite dagli sviluppatori dello strumento ROBINS-I disponibili all’indirizzo https://methods.cochrane.org/news/robins-i-tool. Questo rifletterebbe la normale pratica per i nuovi ricercatori che non hanno avuto una precedente formazione/esperienza con lo strumento. Consiglieremo anche a tutti i revisori dei centri partecipanti di leggere il rapporto completo di ogni NRSE incluso prima di fare valutazioni. I revisori avranno a disposizione la lista dei confondenti e delle co-esposizioni importanti durante le loro valutazioni. All’inizio, due revisori valuteranno indipendentemente il ROB per l’NRSE incluso utilizzando lo strumento ROB-NRSE, senza utilizzare alcuna formazione formale o guida personalizzata. Per ogni NRSE incluso, i due revisori valuteranno i sette domini dello strumento ROB-NRSE come, ROB basso, ROB moderato, ROB grave, ROB critico, o nessuna informazione (Tabella 1). Alla fine, i due revisori risolveranno i conflitti e arriveranno a un consenso.
Come passo successivo, ogni coppia di revisori valuterà nuovamente in modo indipendente lo stesso set di NRSE dopo una formazione formale e utilizzando un foglio guida personalizzato dopo le prime valutazioni ROB “senza guida”. Alla fine delle valutazioni, di nuovo i revisori si incontreranno per risolvere i conflitti e arrivare a un consenso. Tutti gli studi sono valutati prima senza guida, prima di qualsiasi valutazione con guida, per evitare che la valutazione con guida possa influenzare la valutazione senza guida. Il ricercatore principale (MJ) del centro di coordinamento coordinerà questo processo tra i revisori dei diversi centri partecipanti.
Al termine, il centro di collaborazione raccoglierà, organizzerà e trasferirà i dati di valutazione ROB dai vari revisori in una cartella di lavoro Excel, prima di procedere all’analisi dei dati. Valuteremo e riporteremo l’IRR e l’ICR per le valutazioni ROB “senza guida” e “con guida”, separatamente.
Analisi dei dati
Un biostatistico esperto (RR) del centro collaborativo condurrà tutte le analisi in collaborazione con gli altri membri del team di ricerca. Trasferiremo tutti i dati raccolti dalla cartella di lavoro Microsoft Excel (Excel v14, Microsoft Corp., Redmond, WA, USA) a SAS (9.4), (SAS Institute Inc., Cary, NC, USA) per le analisi. La statistica kappa (κ) è tipicamente usata per valutare l’IRR in quanto corregge l’accordo “casuale” tra i due revisori e permette ai diversi tipi di disaccordo di avere pesi diversi. La probabilità di accordo casuale valutata dalla statistica κ presuppone che tutte le valutazioni osservate possano produrre accordi per caso, portando così a risultati imprevedibili in presenza di un elevato accordo tra i revisori. La statistica AC1 sviluppata da Gwet calcola il vero accordo casuale complessivo in presenza di revisori ad alto accordo, producendo così valori più vicini al “vero” IRR. Analizzeremo anche l’affidabilità di inter-consenso (ICR) utilizzando la statistica AC1 di Gwet.
Gli accordi tra i revisori (IRR e ICR) saranno classificati come segue: scarso (0), lieve (0,1-0,2), discreto (0,21-0,4), moderato (0,41-0,6), sostanziale (0,61-0,8), o quasi perfetto (0,81-0,99). Tabuleremo i valori AC1 e gli intervalli di confidenza (CI) al 95% separatamente (senza o con guida), come mostrato nella tabella 2. Inoltre, valuteremo le correlazioni tra le decisioni prese durante entrambe le fasi (“con guida” e “senza guida”) per ogni revisore per garantire che l’effetto della formazione e della guida non sia distorto.
II: Validità concorrente
Il secondo obiettivo di questo studio è quello di valutare la validità concorrente dello strumento ROB per la NRS delle esposizioni rispetto alla NOS. La validità concorrente si riferisce a quanto bene uno strumento appena sviluppato sia correlato a domini simili di uno strumento ampiamente utilizzato nello stesso momento. In altre parole, la validità concorrente valuta la misura in cui c’è concordanza di giudizio per domini simili in entrambi gli strumenti che vengono confrontati. Attualmente, non esiste uno strumento “gold standard” per valutare il ROB in NRSE. Quindi, per valutare la validità concorrente dello strumento ROB in NRS dello strumento delle esposizioni, proponiamo di utilizzare NOS, poiché è lo strumento di valutazione della qualità più comunemente usato per NRSE che era stato precedentemente raccomandato da Cochrane.
In questo studio trasversale, esploreremo la concordanza tra le valutazioni fatte su domini simili in ROB-NRSE e NOS, e le valutazioni complessive per ogni NRSE incluso.
Raccolta dei dati
Come detto in precedenza, useremo un campione di NRSE (n = 44) per le valutazioni della validità concorrente. Abbiamo confrontato e abbinato sia il NOS che lo strumento ROB in NRS dello strumento delle esposizioni (come mostrato nelle tabelle 3 e 4) per identificare gli item che si sovrappongono completamente, si sovrappongono parzialmente o sono unici per ogni strumento. Poiché il costrutto teorico differisce tra NOS (qualità metodologica) e ROB-NRSE (ROB), non ci aspettavamo una completa corrispondenza tra tutti i domini.
Per la valutazione della validità concorrente, un revisore (MJ) esperto in revisioni sistematiche valuterà i NOS su un campione di NRSE (n = 44). Confronteremo poi queste valutazioni NOS con le valutazioni post-consenso di ROB-NRSE (fatte dopo una formazione personalizzata e la guida di due coppie di revisori), per lo stesso set di studi che sono stati utilizzati per le valutazioni ICR.
Calcoleremo la correlazione tra i due strumenti per ciascuno dei domini e per le valutazioni complessive. Per il confronto delle valutazioni complessive tra i due strumenti, useremo il seguente algoritmo: 0-2 stelle in NOS saranno considerate simili a “ROB critico” in ROB-NRSE, 3-5 stelle in NOS saranno considerate simili a “ROB grave” in ROB-NRSE, 6-8 stelle in NOS saranno considerate simili a “ROB moderato” in ROB-NRSE, e 9 stelle in NOS saranno considerate simili a “ROB basso” in ROB-NRSE. Inoltre, per qualsiasi discordanza osservata tra i domini o la valutazione complessiva, esploreremo le possibili ragioni e cercheremo di fornire spiegazioni.
Analisi dei dati
Un biostatistico esperto (RR) del centro collaboratore condurrà tutte le analisi in collaborazione con gli altri membri del team di ricerca. Trasferiremo tutti i dati raccolti dalla cartella di lavoro Excel a SAS (9.4), (SAS Institute Inc., Cary, NC, USA) per l’analisi.
Utilizzeremo il seguente algoritmo per il confronto tra elementi simili (parzialmente o completamente sovrapposti) nei due strumenti (NOS e ROB-NRSE):
-
per il dominio “selezione” in NOS. Le valutazioni con 4 stelle saranno considerate equivalenti alla valutazione “low ROB” in ROB-NRSE. Le valutazioni con 3 stelle saranno considerate equivalenti alla valutazione “moderata ROB” in ROB-NRSE. Le valutazioni con 2 stelle saranno considerate equivalenti alla valutazione “ROB grave” in ROB-NRSE, e le valutazioni con 0 o 1 stella saranno considerate equivalenti alla valutazione “ROB critico” in ROB-NRSE.
-
Per il dominio “comparabilità” in NOS. Le valutazioni con 2 stelle saranno considerate equivalenti alla valutazione “low ROB” in ROB-NRSE. Le valutazioni con 1 stella saranno considerate equivalenti alla valutazione “moderata ROB” in ROB-NRSE. Le valutazioni con 0 stelle saranno considerate equivalenti alla valutazione “ROB grave o critica” in ROB-NRSE.
-
Per il dominio “valutazione dell’esito” in NOS. Le valutazioni con 3 stelle saranno considerate equivalenti alla valutazione “ROB basso” nel ROB-NRSE. Le valutazioni con 2 stelle saranno considerate equivalenti alla valutazione “moderata ROB” in ROB-NRSE. Le valutazioni con 1 stella saranno considerate equivalenti alla valutazione “ROB grave” in ROB-NRSE, e le valutazioni con 0 stelle saranno considerate equivalenti alla valutazione “ROB critico” in ROB-NRSE.
-
I domini NOS con valutazioni “no description/no statement” saranno considerati equivalenti alla valutazione “no information” in ROB-NRSE.
Per misurare la concordanza o discordanza tra vari domini di NOS e ROB-NRSE (cioè, per valutare la validità concorrente di ROB-NRSE), useremo il “tau di Kendall”, una statistica del coefficiente di correlazione di rango, e i suoi intervalli di confidenza al 95% (per le variabili ordinali) per ogni dominio e per le valutazioni complessive.
III: Onere del valutatore
Il tempo impiegato per applicare qualsiasi strumento di nuova concezione è un fattore importante da considerare, in quanto può contribuire a un carico significativo sul valutatore/revisore. È anche importante valutare i fattori che potrebbero ridurre il tempo di applicazione. In questo studio, confronteremo il tempo impiegato per applicare ROB-NRSE (senza e con guida), il tempo impiegato dalle coppie di revisori per arrivare a un consenso (senza e con guida), e il tempo impiegato per applicare NOS per il confronto con ROB-NRSE.
Processo di raccolta dei dati
I revisori registreranno (usando un orologio digitale) il tempo impiegato (in minuti) per applicare (tempo per leggere l’articolo più il tempo per decidere) lo strumento ROB-NRSE (senza e con guida), il tempo impiegato per il consenso e il tempo impiegato per applicare lo strumento NOS (tempo per leggere l’articolo più il tempo per decidere) per ogni NRSE incluso. I revisori useranno la cartella di lavoro Excel creata dal ricercatore principale per registrare l’ora di inizio, l’ora di fine e il tempo totale per applicare il ROB-NRSE al completamento della valutazione per ogni NRSE e dopo il processo di consenso con il secondo revisore. I revisori divideranno il tempo per applicare ROB-NRSE nel tempo impiegato per leggere il testo completo della NRSE e il tempo impiegato per le valutazioni. Il tempo per applicare il ROB-NRSE inizierà quando il revisore inizierà a leggere il testo completo dell’NRSE e terminerà quando le decisioni per tutti i domini saranno completate e sarà stabilita una valutazione complessiva del ROB per lo studio. Verrà calcolato il tempo medio complessivo per applicare ROB-NRSE per lo stesso set di articoli valutati da ciascun revisore. Inoltre, si calcolerà anche il tempo impiegato per risolvere i conflitti e arrivare a un consenso, e il tempo complessivo (tempo di applicazione più tempo impiegato per arrivare a un consenso) per ogni coppia di revisori. Il tempo per arrivare a un consenso inizierà quando i due revisori si riuniranno per risolvere i conflitti e finirà quando arriveranno a un consenso.
Analisi dei dati
Un biostatistico esperto (RR) del centro di coordinamento condurrà tutte le analisi in collaborazione con gli altri membri del team di ricerca. Trasferiremo tutti i dati raccolti dalla cartella di lavoro Excel a SAS (9.4), (SAS Institute Inc, Cary, NC, USA) per l’analisi.
-
Prima riassumeremo il tempo medio (media e SD) impiegato dai revisori per valutare la ROB-NRSE senza guida e con guida separatamente.
-
Per analizzare l’impatto della formazione personalizzata e della guida sui cambiamenti nel carico del valutatore (tempo di valutazione della ROB-NRSE così come il tempo impiegato dalle coppie di revisori per arrivare al consenso), confronteremo due centri separatamente (n = 44 rispettivamente). Useremo modelli lineari generalizzati per valutare i cambiamenti nel tempo impiegato per valutare la ROB-NRSE dopo la guida personalizzata (rispetto a quella senza guida). Controlleremo la correlazione tra i revisori utilizzando effetti casuali. La distribuzione dei risultati sarà aggiustata utilizzando una funzione di collegamento.
-
Per analizzare il tempo impiegato per applicare ROB-NRSE rispetto a NOS, useremo un modello lineare generalizzato a effetto fisso. La distribuzione del modello sarà scelta da una funzione di collegamento.