Inter-rater reliability and validity of risk of bias instrument for non-randomized studies of exposures: a study protocol | Systematic Reviews

Używając metod podobnych do tych opisanych wcześniej dla oceny narzędzia ROBINS-I , międzynarodowy zespół doświadczonych badaczy z czterech ośrodków uczestniczących w badaniu podejmie to badanie we współpracy. Główne cele są następujące:

I.
Pomiar IRR i ICR między recenzentami podczas oceny ROB NRSE przy użyciu ROB-NRSE (bez i z dostosowanym szkoleniem i wskazówkami)
II.
Pomiar równoczesnej ważności ROB-NRSE
III.
Pomiar obciążenia ewaluatorów (czas potrzebny na zastosowanie ROB-NRSE, czas potrzebny na osiągnięcie konsensusu, czas potrzebny na zastosowanie NOS)

Aby zrealizować powyższe cele, przeprowadzimy przekrojowe badanie analityczne na próbie publikacji NRSE zgodnych z niniejszym protokołem. Protokół ten zostanie zarejestrowany w Open Science Framework (https://osf.io/). Końcowy manuskrypt badania będzie raportowany zgodnie z listą kontrolną STROBE-cross-sectional. Planujemy zgłaszać wszelkie zmiany protokołu w końcowym manuskrypcie badania.

I: Wiarygodność międzyosobnicza i wiarygodność międzykonsensusowa

Naszym pierwszym celem jest ocena IRR ROB-NRSE na pierwszym etapie, bez dostosowanego szkolenia i wytycznych od głównego badacza, a następnie na drugim etapie, z dostosowanym szkoleniem i wytycznymi. Na obu etapach, oceniający będą mieli dostęp do publicznie dostępnych szczegółowych wytycznych. Na drugim etapie, dostosowany do potrzeb klienta dokument ze wskazówkami zostanie opracowany przy użyciu programu Microsoft Word (Word v1.5, Microsoft Corp., Redmond, WA, USA) przez starszego członka zespołu ze stopniem doktora (MJ). Po dokonaniu przeglądu i uzyskaniu informacji zwrotnej od innego doświadczonego członka zespołu (MA), dokument zostanie sfinalizowany. Wytyczne będą zawierały uproszczone zasady podejmowania decyzji, dodatkowe wskazówki dotyczące zaawansowanych koncepcji oraz wyjaśnienia dotyczące odpowiedzi na pytania sygnalizacyjne, które pomogą recenzentom w podejmowaniu decyzji dla każdej dziedziny w narzędziu ROB-NRSE. Po opracowaniu, wytyczne zostaną wysłane do wszystkich recenzentów, aby pomóc im w orzekaniu w drugim etapie projektu. Dodatkowo, zostanie zorganizowana jedna sesja szkoleniowa (przez Skype) przez trenera (MJ), który jest starszym członkiem zespołu i twórcą dostosowanych wytycznych. Podczas sesji szkoleniowej trener dokona przeglądu dokumentu przewodniego ze wszystkimi recenzentami i udzieli wyjaśnień. Do oceny IRR i ICR zastosujemy następujące metody.

Uczestniczące ośrodki

Zaangażujemy dwie pary recenzentów (LC, NA, RCR, CB i KH) o różnym poziomie doświadczenia i uzyskanych stopniach naukowych, z wielu zespołów badawczych do oceny IRR i ICR. Zespoły uczestniczące w badaniu są następujące: (ośrodek koordynujący) The Knowledge Synthesis platform, George & Fay Yee Center for Healthcare Innovation, University of Manitoba (Kanada) (MJ, AMAS, LC, NA, RR); Knowledge Synthesis Team, Knowledge Translation Program, Li Ka Shing Knowledge Institute of St. Michael’s Hospital, Unity Health Toronto (Kanada) (ACT i RCR); Evidinno Outcomes Research Inc. (Kanada) (KH i MSF); Pharmalytics Group, Vancouver (Kanada) (CB).

Obliczenie wielkości próby

Obliczyliśmy wielkość próby (liczbę publikacji NRSE) wymaganą do oceny IRR (n = 44), biorąc pod uwagę 5% błąd typu I, 80% moc statystyczną i założony margines błędu 30% . Zgodnie z sugestią Gwet , przyjęliśmy prawdopodobieństwo porozumienia przypadkowego (Pe) jako zero (najlepszy scenariusz) i oszacowaliśmy wymaganą wielkość próby dla IRR przy użyciu wzorów i obliczeń dostępnych na stronie: http://agreestat.com/blog_irr/sample_size_determination.html. Uzyskaliśmy prawdopodobieństwo obserwowanej zgody (Pa) między recenzentami wymagane do obliczenia wielkości próby z początkowego badania pilotażowego 10 publikacji NRSE.

Wybór próby

Proponujemy wykorzystanie dogodnej próby prospektywnych publikacji kohortowych opublikowanych w języku angielskim (n = 44), (w oparciu o obliczenia wielkości próby) zidentyfikowanych z ostatniego przeglądu systematycznego. Następnie zidentyfikujemy jeden wstępnie określony wynik (wynik pierwotny każdego badania) dla oceny ROB dla każdej z włączonych NRSE. Jeśli w badaniu nie podano wyniku pierwszorzędowego, główny badacz wskaże ważny wynik podany w badaniu do oceny ROB. Z pomocą ekspertów merytorycznych, zidentyfikujemy listę czynników zakłócających i ważnych czynników współistniejących dla danego związku opisanego w każdej z włączonych publikacji NRSE.

Gromadzenie danych

Po wstępnych testach pilotażowych na 10 badaniach, przystąpimy do oceny ROB dla IRR. Doradzimy recenzentom, aby przejrzeli wszelkie dostępne ogólne wytyczne dla ROBINS-I dostarczone przez twórców narzędzia ROBINS-I, dostępne na stronie https://methods.cochrane.org/news/robins-i-tool. Odzwierciedlałoby to normalną praktykę dla nowych badaczy, którzy nie mieli wcześniejszego szkolenia / ekspertyzy z narzędziem. Będziemy również doradzać wszystkim recenzentom w uczestniczących ośrodkach, aby przeczytali pełny raport każdego włączonego NRSE przed dokonaniem oceny. W trakcie oceny recenzenci będą mieli dostępną listę czynników zakłócających i ważnych ekspozycji współistniejących. Na początku dwóch recenzentów będzie niezależnie oceniać ROB dla włączonej NRSE, używając narzędzia ROB-NRSE, bez formalnego szkolenia lub niestandardowych wskazówek. Dla każdej uwzględnionej NRSE, dwaj recenzenci ocenią siedem domen narzędzia ROB-NRSE jako: niski ROB, umiarkowany ROB, poważny ROB, krytyczny ROB lub brak informacji (Tabela 1). Na koniec obaj recenzenci rozwiążą konflikty i dojdą do konsensusu.

Tabela 1 Narzędzie ROB-NRSE

Jako następny krok, każda para recenzentów będzie niezależnie ponownie oceniać ten sam zestaw NRSE po formalnym szkoleniu i używając dostosowanego arkusza wskazówek po wstępnej ocenie ROB „bez wskazówek”. Po zakończeniu ocen recenzenci ponownie spotkają się, aby rozwiązać konflikty i dojść do konsensusu. Wszystkie badania są oceniane najpierw bez wskazówek, przed oceną z wskazówkami, aby zapobiec możliwości wpływu oceny z wskazówkami na ocenę bez wskazówek. Główny badacz (MJ) z ośrodka koordynującego będzie koordynował ten proces wśród recenzentów z różnych ośrodków uczestniczących w badaniu.

Po zakończeniu badania, ośrodek współpracujący zbierze, uporządkuje i przeniesie dane dotyczące oceny ROB od różnych recenzentów do skoroszytu programu Excel, przed przystąpieniem do analizy danych. Następnie ocenimy i przedstawimy IRR i ICR dla ocen ROB „bez wytycznych” i „z wytycznymi”, oddzielnie.

Analiza danych

Doświadczony biostatysta (RR) z ośrodka współpracującego przeprowadzi wszystkie analizy we współpracy z innymi członkami zespołu badawczego. Wszystkie zebrane dane zostaną przeniesione z skoroszytu Microsoft Excel (Excel v14, Microsoft Corp., Redmond, WA, USA) do SAS (9.4), (SAS Institute Inc., Cary, NC, USA) w celu analizy. Statystyka kappa (κ) jest zwykle używana do oceny IRR, ponieważ koryguje ona „przypadkowe” porozumienie między dwoma recenzentami i pozwala, aby różne rodzaje nieporozumień miały różną wagę. Prawdopodobieństwo przypadkowego porozumienia oceniane przez statystykę κ zakłada, że wszystkie obserwowane oceny mogą dawać przypadkowe porozumienie, co prowadzi do nieprzewidywalnych wyników w obecności wysokiego poziomu porozumienia między recenzentami. Statystyka AC1 opracowana przez Gwet oblicza prawdziwą ogólną szansę na porozumienie w obecności wysokiej zgodności recenzentów, dając w ten sposób wartości bliższe „prawdziwemu” IRR . Przeanalizujemy również wiarygodność międzykonsensusową (ICR) przy użyciu statystyki AC1 Gweta.

Zgodność między recenzentami (IRR i ICR) zostanie skategoryzowana w następujący sposób: słaba (0), niewielka (0.1-0.2), dobra (0.21-0.4), umiarkowana (0.41-0.6), znaczna (0.61-0.8) lub bliska doskonałości (0.81-0.99). W tabeli 2 przedstawiono wartości AC1 i 95% przedziały ufności (CI) oddzielnie (bez wskazań i ze wskazaniami). Dodatkowo ocenimy korelacje między orzeczeniami dokonanymi na obu etapach („ze wskazówkami” i „bez wskazówek”) dla każdego z recenzentów, aby upewnić się, że efekt szkolenia i wskazówek nie jest tendencyjny.

Tabela 2 Raportowanie IRR i ICR dla ROB-NRSE (z lub bez wytycznych)

II: Równoczesna ważność

Drugim celem tego badania jest ocena równoczesnej ważności instrumentu ROB dla NRS ekspozycji w porównaniu z NOS. Trafność współbieżna odnosi się do tego, jak dobrze nowo opracowane narzędzie jest skorelowane z podobnymi domenami powszechnie stosowanego narzędzia w tym samym momencie. Innymi słowy, ważność równoległa ocenia stopień, w jakim istnieje zgodność w ocenie dla podobnych domen w obu porównywanych narzędziach. Obecnie nie ma „złotego standardu” narzędzia do oceny ROB w NRSE. W związku z tym, aby ocenić zgodność narzędzia ROB z narzędziem NRS of exposures, proponujemy użycie NOS, ponieważ jest to najczęściej używane narzędzie do oceny jakości NRSE, które zostało wcześniej zalecone przez Cochrane.

W tym przekrojowym badaniu będziemy badać zgodność pomiędzy ocenami dokonanymi w podobnych domenach w ROB-NRSE i NOS, a także ogólną oceną dla każdej włączonej NRSE.

Gromadzenie danych

Jak wspomniano wcześniej, wykorzystamy próbę NRSE (n = 44) do oceny ważności równoległej. Porównaliśmy i dopasowaliśmy zarówno NOS, jak i instrument ROB w NRS narzędzia ekspozycji (jak pokazano w Tabelach 3 i 4), aby zidentyfikować pozycje, które całkowicie się pokrywają, częściowo pokrywają lub są unikalne dla każdego narzędzia. Ponieważ konstrukt teoretyczny różni się pomiędzy NOS (jakość metodologiczna) i ROB-NRSE (ROB), nie oczekiwaliśmy pełnej zgodności pomiędzy wszystkimi domenami.

Tabela 3 Porównanie domen pomiędzy NOS i ROB-NRSE

Tabela 4 Pozycje podobne pomiędzy NOS i ROB-NRSE

Do oceny ważności zbieżnej, jeden recenzent (MJ) z doświadczeniem w przeglądach systematycznych oceni NOS na próbce NRSE (n = 44). Następnie porównamy te oceny NOS z ocenami po konsensusie ROB-NRSE (dokonanymi po indywidualnym szkoleniu i wskazówkach przez dwie pary recenzentów), dla tego samego zestawu badań, które zostały użyte do oceny ICR.

Obliczymy korelację między tymi dwoma narzędziami dla każdej z domen i dla ocen ogólnych. Dla porównania ocen ogólnych między dwoma narzędziami zastosujemy następujący algorytm: 0-2 gwiazdki w NOS będą uznane za podobne do „krytycznego ROB” w ROB-NRSE, 3-5 gwiazdek w NOS będzie uznane za podobne do „poważnego ROB” w ROB-NRSE, 6-8 gwiazdek w NOS będzie uznane za podobne do „umiarkowanego ROB” w ROB-NRSE, a 9 gwiazdek w NOS będzie uznane za podobne do „niskiego ROB” w ROB-NRSE. Dodatkowo, w przypadku jakichkolwiek rozbieżności zaobserwowanych pomiędzy domenami lub ogólną oceną, zbadamy możliwe przyczyny i postaramy się dostarczyć wyjaśnień.

Analiza danych

Do porównania podobnych pozycji (częściowo lub całkowicie pokrywających się) w dwóch narzędziach (NOS i ROB-NRSE) użyjemy następującego algorytmu:

Dla domeny „wybór” w NOS. Oceny z 4 gwiazdkami będą uznawane za równoważne orzekaniu „low ROB” w ROB-NRSE. Oceny z 3 gwiazdkami będą uznawane za równoważne „umiarkowanemu ROB” w ROB-NRSE. Oceny z 2 gwiazdkami będą uznawane za równoważne z „poważnym ROB” w ROB-NRSE, a oceny z 0 lub 1 gwiazdką będą uznawane za równoważne z „krytycznym ROB” w ROB-NRSE.
Dla domeny „porównywalność” w NOS. Oceny z 2 gwiazdkami będą uznawane za równoważne z orzekaniem „niskiego ROB” w ROB-NRSE. Oceny z 1 gwiazdką będą uznawane za równoważne z „umiarkowaną ROB” w ROB-NRSE. Oceny z 0 gwiazdkami będą uznawane za równoważne z „poważną lub krytyczną ROB” w ROB-NRSE.
Dla domeny „ocena wyników” w NOS. Oceny z 3 gwiazdkami będą uznawane za równoważne z oceną „niski ROB” w ROB-NRSE. Oceny z 2 gwiazdkami będą uznawane za równoważne z „umiarkowanym ROB” w ROB-NRSE. Oceny z 1 gwiazdką będą uznawane za równoważne z „poważnym ROB” w ROB-NRSE, a oceny z 0 gwiazdkami będą uznawane za równoważne z „krytycznym ROB” w ROB-NRSE.
Domeny NOS z oceną „brak opisu/brak stwierdzenia” będą uważane za równoważne ocenie „brak informacji” w ROB-NRSE.

Dla pomiaru zgodności lub niezgodności pomiędzy różnymi domenami NOS i ROB-NRSE (tj, do oceny poprawności współbieżnej ROB-NRSE), użyjemy „tau Kendalla”, statystyki współczynnika korelacji rangowej i jej 95% przedziałów ufności (dla zmiennych porządkowych) dla każdej domeny i dla ocen ogólnych.

III: Obciążenie oceniającego

Czas potrzebny na zastosowanie każdego nowo opracowanego narzędzia jest ważnym czynnikiem do rozważenia, ponieważ może przyczynić się do znacznego obciążenia oceniającego/recenzenta. Ważne jest również, aby ocenić czynniki, które mogłyby skrócić czas stosowania. W tym badaniu porównamy czas potrzebny na zastosowanie ROB-NRSE (bez i z wytycznymi), czas potrzebny parom recenzentów na osiągnięcie konsensusu (bez i z wytycznymi) oraz czas potrzebny na zastosowanie NOS dla porównania z ROB-NRSE.

Proces zbierania danych

Reżyserzy będą rejestrować (używając zegara cyfrowego) czas potrzebny (w minutach) na zastosowanie (czas na przeczytanie artykułu plus czas na orzekanie) narzędzia ROB-NRSE (bez i ze wskazówkami), czas potrzebny na osiągnięcie konsensusu oraz czas potrzebny na zastosowanie narzędzia NOS (czas na przeczytanie artykułu plus czas na orzekanie) dla każdej włączonej NRSE. Recenzenci będą używać skoroszytu Excel stworzonego przez głównego badacza do zapisywania czasu rozpoczęcia, zakończenia i całkowitego czasu zastosowania ROB-NRSE po zakończeniu oceny dla każdej NRSE i po procesie konsensusu z drugim recenzentem. Recenzenci podzielą czas stosowania ROB-NRSE na czas potrzebny na przeczytanie pełnego tekstu NRSE i czas potrzebny na ocenę. Czas stosowania ROB-NRSE będzie się rozpoczynał w momencie rozpoczęcia czytania przez recenzenta pełnego tekstu NRSE, a kończył w momencie zakończenia podejmowania decyzji we wszystkich domenach i ustalenia ogólnej oceny ROB dla danego badania. Obliczony zostanie średni całkowity czas zastosowania ROB-NRSE dla tego samego zestawu artykułów ocenianych przez każdego recenzenta. Dodatkowo, obliczymy również czas potrzebny na rozwiązanie konfliktów i osiągnięcie konsensusu, a także czas całkowity (czas na zastosowanie plus czas potrzebny na osiągnięcie konsensusu) dla każdej pary recenzentów. Czas do osiągnięcia konsensusu rozpocznie się, gdy dwaj recenzenci zbiorą się, aby rozwiązać konflikty i zakończy się, gdy osiągną konsensus.

Analiza danych

Doświadczony biostatysta (RR) z ośrodka koordynującego przeprowadzi wszystkie analizy we współpracy z innymi członkami zespołu badawczego. Wszystkie zebrane dane zostaną przeniesione z skoroszytu Excel do programu SAS (9.4), (SAS Institute Inc, Cary, NC, USA) do analizy.

W pierwszej kolejności podsumujemy średni czas (średnia i SD) potrzebny recenzentom na ocenę ROB-NRSE bez wytycznych i z wytycznymi osobno.
Aby przeanalizować wpływ zindywidualizowanego szkolenia i wytycznych na zmiany w obciążeniu oceniających (czas oceny ROB-NRSE, jak również czas potrzebny parom recenzentów na osiągnięcie konsensusu), porównamy dwa ośrodki osobno (odpowiednio n = 44). Zastosujemy uogólnione modele liniowe do oceny zmian w czasie potrzebnym na ocenę ROB-NRSE po zastosowaniu indywidualnych wytycznych (w porównaniu z czasem bez wytycznych). Będziemy kontrolować korelację między recenzentami za pomocą efektów losowych. Rozkład wyniku zostanie dopasowany za pomocą funkcji link.
Aby przeanalizować czas potrzebny na zastosowanie ROB-NRSE w porównaniu z NOS, użyjemy uogólnionego modelu liniowego o stałym efekcie. Rozkład modelu zostanie dobrany za pomocą funkcji łączącej.

I: Wiarygodność międzyosobnicza i wiarygodność międzykonsensusowa

Uczestniczące ośrodki

Obliczenie wielkości próby

Wybór próby

Gromadzenie danych

Analiza danych

II: Równoczesna ważność

Gromadzenie danych

Analiza danych

III: Obciążenie oceniającego

Proces zbierania danych

Analiza danych

Dodaj komentarz Anuluj pisanie odpowiedzi