English: Histogram of sepal widths for Iris versicolor from Fisher's Iris flower data set. SVG redraw of original image. (Photo credit: Wikipedia) |
Autores: Ochoa Sangrador C1
1Servicio de Pediatría. Hospital Virgen de la Concha. Zamora (España).
Correspondencia: Carlos Ochoa Sangrador. Correo electrónico: cochoas@meditex.es
Palabras clave: riesgo; resultado del tratamiento; métodos y procedimientos estadísticos; práctica clínica basada en la evidencia
Fecha de aceptación: 14/06/2010 Fecha de publicación: 21/06/2010
Cuando
un clínico tiene que tomar decisiones sobre la eficacia de un
tratamiento o el nivel de riesgo asociado a un factor de exposición y
busca información en estudios publicados, tiende a juzgar la importancia
de los resultados en función de su significación estadística. Sin
embargo, este abordaje resulta incorrecto. La significación estadística
no informa de la dimensión o importancia de los resultados, tan sólo de
la probabilidad de que dichos resultados sean atribuibles al azar. Si
el tamaño del efecto encontrado en un estudio resulta insignificante
desde el punto de vista clínico, no importa su nivel de significación,
ya que su aplicabilidad será cuestionable. De hecho, cualquier
diferencia, por pequeña que sea, puede alcanzar significación
estadística, si el tamaño muestral del estudio es suficientemente
grande.
Mientras
que los criterios para juzgar la significación estadística de los
resultados de estudios clínicos cuentan con suficiente consenso, no
existen estándares reconocidos a la hora de establecer su importancia
clínica. Además, las publicaciones biomédicas no facilitan su
interpretación, ya que en ellas no se prima la presentación de
resultados en forma de parámetros sencillos de fácil interpretación,
sino que existe cierto culto por la utilización de estimadores o
estadísticos complejos sin sentido clínico. Asimismo, muchos estudios
siguen presentando los resultados con su nivel de significación (“p”;
probabilidad de error tipo I en un contraste de hipótesis) sin los
correspondientes intervalos de confianza. A diferencia del nivel de
significación, que por debajo de un umbral no ofrece información de
interés (p<0 confianza="confianza" de="de" en="en" font="font" importancia="importancia" informaci="informaci" intervalos="intervalos" la="la" los="los" mismos="mismos" n="n" nbsp="nbsp" ofrecen="ofrecen" precisi="precisi" resultados.="resultados." si="si" sobre="sobre" y="y">0>
Es
excepcional que en el planteamiento de los estudios se hagan
consideraciones sobre la magnitud del efecto a la que se atribuye
importancia clínica. Sin embargo, esta información resulta fundamental,
especialmente para el diseño del estudio, por lo que debe establecerse
“a priori”. Aunque muchos autores mencionan la diferencia considerada en
el contraste de hipótesis para el cálculo del tamaño muestral, pocas
veces se hace una justificación clínica de la magnitud de dicha
diferencia, surgiendo la sospecha de que haya podido ser fijada o
modificada “a posteriori”, en función de los resultados. Aunque más
adelante revisaremos con detalle este aspecto, podemos decir que una
diferencia clínicamente importante debería reflejarse en cambios sobre
la toma de decisiones diagnósticas o terapéuticas, por parte del
clínico, e idealmente en un beneficio objetivo sobre el paciente.
Es
frecuente que a la hora de resaltar la importancia de los resultados de
un estudio se emplee el término “significativo” (ejemplo: “encontramos
un significativo descenso de la duración de los síntomas”), cuando lo
“significativo” no es el tamaño del efecto encontrado (ejemplo: descenso
en la duración de un síntoma de gripe de 0,5 días) sino la probabilidad
de que no se deba al azar (su significación estadística). Debemos ser
precisos a la hora de presentar los resultados científicos diferenciando
claramente lo que es “clínicamente importante” y lo que es
“estadísticamente significativo”. Para evitar confusión parece
recomendable limitar el uso del vocablo “significativo” a la indicación
del nivel de significación estadístico de un contraste de hipótesis.
A
la hora de interpretar la importancia clínica de los resultados de un
estudio deben tenerse en cuenta algunos factores: la variable de
resultado elegida (su relación directa con el escenario clínico1),
su escala de medición (discreta, ordinal o continua), su precisión y
reproducibilidad, su aplicabilidad (medidas objetivas y primarias frente
a medidas subjetivas, subrogadas o compuestas), y su ámbito de interés
(clínico, paciente, gestor, industria farmacéutica, autoridad
sanitaria). El grado de relación de la variable de resultado con el
escenario clínico será fundamental; por ejemplo, no es lo mismo comparar
la eficacia de dos tratamientos en términos de mortalidad que en una
escala subjetiva de valoración de síntomas. También el ámbito de interés
influirá en la valoración; por ejemplo, un clínico puede asignar mayor
valor a la curación, mientras que un paciente primará su calidad de
vida.
En
el proceso de valoración de la importancia clínica de los resultados de
un estudio debemos realizar en primer lugar una valoración cuantitativa
de los mismos. Si la magnitud del efecto es suficiente, hemos de hacer,
en un segundo paso, una valoración cualitativa (rendimiento clínico).
En tercer lugar tendremos que hacer una valoración comparativa con los
resultados de otros estudios o con otras variables de resultado.
Superados los pasos anteriores realizaremos una valoración de la
relación entre beneficios, riesgos y costes (tabla 1). A continuación
desarrollaremos algunos fundamentos metodológicos de interés a la hora
de realizar estas valoraciones.
Tabla 1. Proceso de valoración de la importancia clínica de los resultados de un estudio Mostrar/ocultar
Tamaño del efecto
Los
resultados de los estudios epidemiológicos deben ser expresados en
forma de medidas de salud o enfermedad, con las que indicamos
frecuencias, diferencias, asociación, riesgo o impacto. La forma de
presentar los resultados va a depender del tipo de estudio realizado,
pero sobre todo de las características de la variable o variables de
interés.
A
efectos de presentación y análisis podemos distinguir entre variables
continuas (variables cuantitativas medidas en escalas de razones o
intervalos), variables ordinales (variables cuantitativas o cualitativas
medidas en escalas ordinales) y discretas (variables cualitativas
medidas en escalas nominales, dicotómicas o politómicas). En función del
tipo o tipos de variables implicados podremos recurrir a distintas
medidas epidemiológicas.
En
epidemiología, el escenario más simple lo constituye el estudio de 2
variables discretas dicotómicas. Este escenario corresponde al supuesto
habitual de estudio de la asociación entre presencia-ausencia de un
determinado factor de exposición y presencia-ausencia de enfermedad. La
forma más simple de analizar estos resultados es mediante una
comparación de porcentajes (por ejemplo: porcentaje de enfermos en
expuestos y en no expuestos).
Otro
escenario habitual es el que evalúa la asociación entre una variable
discreta y otra continua. Este escenario corresponde a estudios que
evalúan la repercusión de un factor de exposición (por ejemplo:
tratamiento versus placebo) sobre un efecto cuantificable en un
rango continuo de valores (por ejemplo: presión arterial); en estos
estudios la presentación de resultados se basará en las diferencias de
medidas de tendencia (media, mediana) y dispersión (desviación típica,
rango intercuartílico) de la variable continua entre grupos.
Para
completar el espectro de relación entre variables, quedarían las
medidas de asociación entre variables continuas (por ejemplo: asociación
entre niveles de bilirrubina transcutánea y bilirrubina sérica) que se
exploran con coeficientes de correlación (Pearson, Spearman,
intraclase). El coeficiente de correlación presenta valores entre -1 y
+1 (correlaciones inversa y directa máximas), siendo 0 el valor de nula
correlación.
Se
han descrito ciertas medidas estandarizadas o ajustadas que permiten
clasificar el tamaño del efecto para diferencias de medias o porcentajes2.
Con respecto la magnitud de una correlación puede calcularse a partir
del cuadrado del coeficiente de correlación (coeficiente de
determinación) que indica la proporción de variación (varianza) de una
variable que se explica por la variación de la otra variable. La
utilidad de estas valoraciones resulta limitada, ya que no pueden
sustituir la valoración cualitativa del rendimiento clínico del efecto
encontrado. Asimismo en los estudios epidemiológicos es necesario
realizar estimaciones de frecuencia, riesgo, eficacia o validez que
ofrecen información cuantitativa y cualitativa con gran interés clínico,
que no se contemplan en las medidas anteriormente expuestas.
Medidas de frecuencia y riesgo
Incidencia
y prevalencia son las expresiones de frecuencia de enfermedad más
utilizadas en la literatura médica. Es importante distinguir entre
ambas. La incidencia es el
número de nuevos casos que han ocurrido durante un intervalo de tiempo,
dividido por el tamaño de la población en riesgo al comienzo del
intervalo. Esta información es habitualmente obtenida de estudios de
cohortes y expresada en forma de tasas. La prevalencia es
el número de individuos con una enfermedad o característica en un
determinado punto en el tiempo, dividido por la población en riesgo en
ese momento. Se calcula habitualmente a partir de estudios transversales
y se expresa como una proporción.
Mientras
la incidencia y prevalencia expresan frecuencia de enfermedad en grupos
concretos de pacientes, otras medidas permiten comparar las diferencias
de frecuencia entre dos grupos distintos o estimar el incremento de
riesgo asociado a una exposición concreta (tablas 2 y 3). Las
principales medidas de riesgo son el riesgo relativo y la odds ratio (razón de ventajas).
Tabla 2. Análisis de los estudios de cohortes. Medidas de riesgo e impacto Mostrar/ocultar
Tabla 3. Análisis de estudios de casos y controles. Odds ratio Mostrar/ocultar
El riesgo relativo (RR)
se calcula dividiendo la incidencia en el grupo de sujetos expuestos a
un determinado factor de riesgo o protección entre la incidencia en el
grupo no expuesto. Sólo puede ser calculado en estudios de seguimiento y
mide la fuerza de la asociación entre exposición y enfermedad. Adopta
valores entre 0 e infinito, menores de 1 para factores de protección y
mayores para factores de riesgo; un RR de “1” supone el valor nulo (el
riesgo en los 2 grupos es igual), cuanto más se aleje el valor de 1, por
arriba o por abajo, mayor será la fuerza de la asociación.
Cuando
el seguimiento realizado a los sujetos incluidos en un estudio es
heterogéneo, en vez de considerar la incidencia acumulada, para el
cálculo de riesgos, se recurre a la densidad de incidencia, en la que
cada sujeto es considerado en función del tiempo que es seguido. Para
calcular la densidad de incidencia se realiza un cociente en el que en
el numerador se sitúa el número de casos nuevos y en el denominador el
número de sujetos seguidos por el número de unidades de tiempo
(habitualmente años) que es seguido cada uno de ellos. En este caso el
riesgo relativo es estimado a partir de la razón de densidades de incidencia (RDI) entre grupos.
En
los estudios sin seguimiento longitudinal (estudios de casos y
controles), como no es posible calcular la incidencia, no puede
calcularse el riesgo relativo. Por ello, para estimar el riesgo se
calcula la odds ratio (OR), que compara la odds de
exposición (probabilidad de estar expuesto a un factor de riesgo
dividida entre su complementario) en el grupo con enfermedad y la odds de exposición en el grupo control sin enfermedad, y que se calcula dividiendo ambas odds.
La interpretación de la OR es similar a la del RR; “1” supone el valor
nulo, valores menores de 1 indican disminución del riesgo y mayores
aumento del riesgo. Hay que tener en cuenta que sólo cuando la
enfermedad estudiada es muy poco frecuente el RR y la OR ofrecen valores
similares.
Medidas de impacto
Aunque
con las medidas anteriores podemos estimar el riesgo que genera un
factor de exposición sobre un efecto o enfermedad, esas medidas no nos
informan del impacto que dicha exposición puede originar en el conjunto
de casos existentes en una población. Esta información podemos extraerla
de otras medidas, como la diferencia de riesgos o la proporción
atribuible (tabla 2).
Ambas
medidas son estimadores del efecto absoluto que ejerce la exposición
sobre la incidencia de un suceso en el grupo expuesto o en la población
total. Se usan para evaluar la importancia clínica o sanitaria de una
exposición y nos informan del porcentaje de incidencia que se reduciría
si se eliminara el referido factor de exposición. Son, por consiguiente,
muy útiles, tanto en la clínica como en salud pública, para cuantificar
el posible impacto de diferentes medidas de intervención.
La diferencia de riesgos (DR)
se calcula restando de la incidencia en el grupo expuesto al factor de
riesgo, la incidencia en el grupo no expuesto. Adopta valores entre 0 y
1 (entre 0 y 100 si se expresa en tantos por ciento), constituyendo el
“0” el valor nulo de ausencia de diferencias. La DR ofrece información
independiente del riesgo relativo y puede variar, entre distintos grupos
de pacientes, en función del riesgo propio de cada grupo. Así, podemos
encontrarnos que factores que muestran un riesgo relativo muy alto
apenas presenten modificaciones en la diferencia de riesgos porque el
riesgo en la población (al margen de la contribución de dicho factor)
sea muy bajo.
La proporción atribuible (PA),
también conocida como riesgo atribuible, fracción etiológica, fracción
atribuible o población de riesgo atribuible, se define como la
proporción de casos nuevos de la enfermedad, en el grupo de sujetos
expuestos, que son atribuibles al factor de riesgo de interés. Se
calcula dividiendo la diferencia de riesgos, anteriormente calculada,
entre la incidencia en el grupo expuesto. Una extensión de esta medida
es la proporción atribuible poblacional, que extiende la proporción de
casos nuevos a toda la población, esto es, al conjunto de sujetos tanto
expuestos como no expuestos.
Los
resultados de los ensayos clínicos suelen reflejar el efecto
beneficioso de intervenciones terapéuticas que reducen el riesgo en el
grupo expuesto. Por ello, la diferencia de riesgos en este supuesto,
conocida como reducción absoluta del riesgo (RAR),
se calcula en sentido contrario, restando del riesgo en el grupo
control el riesgo en el grupo de intervención (tabla 4). Otra medida de
impacto aplicable a estos estudios, de gran interés clínico, es el número necesario a tratar (NNT),
que corresponde al inverso de la RAR (1/RAR), y que nos informa del
número de pacientes que deberían ser tratados con la intervención
terapéutica para que un caso se viera beneficiado, evitando un evento
desfavorable. Si aplicamos el NNT a efectos adversos asociados al
tratamiento (invirtiendo la dirección del riesgo), podemos calcular el
número necesario a dañar (NND) con el que ponderaríamos la relación
beneficio-riesgo. En la tabla 4 podemos ver cómo calcular un NNT a
partir de resultados expresados como RR o OR, forma habitual de
presentar los datos agrupados en revisiones sistemáticas.
Tabla 4. Análisis de los ensayos clínicos Mostrar/ocultar
La
utilidad de una prueba diagnóstica depende fundamentalmente de su
validez y de su fiabilidad, pero también de su rendimiento clínico y de
su coste. Si una prueba es suficientemente precisa y válida, a partir de
los indicadores de validez podremos estimar su rendimiento diagnóstico,
concretado en una modificación de la predicción inicial del diagnóstico
(probabilidad preprueba) a la predicción final (probabilidad postprueba). Esta variación predictiva será la que nos permitirá juzgar la importancia clínica y rentabilidad de la prueba diagnóstica.
Importancia Clínica
Como
se ha comentado anteriormente, resulta poco habitual encontrar en los
estudios publicados comentarios sobre la magnitud del efecto que se
considera clínicamente importante. Aunque esta valoración tiene un
cierto componente subjetivo y no existe consenso sobre los criterios a
seguir para su establecimiento, resulta fundamental a la hora de diseñar
un estudio e interpretar sus resultados.
Diferentes
autores han tratado de definir el concepto de “diferencia clínicamente
importante”, mencionándolo la mayoría de ellos como “significación
clínica”, pudiendo intuirse en la heterogeneidad de las definiciones
algunos de sus componentes principales.
Hollon y Flick3 consideran
que “la unidad mínima de significación clínica debería ser definida en
términos del más pequeño de los cambios válidos, que sea de interés para
algunas, pero no necesariamente todas las partes implicadas” en un
escenario clínico.
Lindgren et al4, indican que “cuando dos métodos de tratamiento son comparados, sería clínicamente significativa la diferencia más pequeña, con respecto a una variable de resultado importante, que justificara una decisión de modificar un tratamiento”.
Lindgren et al4, indican que “cuando dos métodos de tratamiento son comparados, sería clínicamente significativa la diferencia más pequeña, con respecto a una variable de resultado importante, que justificara una decisión de modificar un tratamiento”.
LeFort5 refiere
que sería “la magnitud de cambio que supone una diferencia real para la
vida de los pacientes, con un efecto duradero, aceptable para los
usuarios, coste-efectiva y fácil de aplicar.
Hujoel et al6sugieren una definición operativa de “significación clínica” como “la diferencia estadísticamente significativa, en una variable de resultado clínicamente importante, en un ensayo clínico fase III definitivo”.
Hujoel et al6sugieren una definición operativa de “significación clínica” como “la diferencia estadísticamente significativa, en una variable de resultado clínicamente importante, en un ensayo clínico fase III definitivo”.
Kingman7 establece
que la significación estadística debería ser considerada una condición
necesaria para la “significación clínica” y que ambas significaciones,
estadística y clínica, deberían coincidir. Para cumplir este
requerimiento, sería necesario que un consenso de expertos reconocidos
definiera la “significación clínica”.
Killoy8 considera
que la “significación clínica” es el resultado de una evaluación
subjetiva por parte de un clínico y que antes de establecer un resultado
como “clínicamente significativo” debería haber alcanzado significación
estadística.
Por último, Greenstein9 indica
que “significación clínica implica un cambio que puede alterar cómo un
clínico tratará a un paciente, lo que variará en función de la
situación”. En este sentido, considera que la relevancia clínica será
valorada de forma diferente por parte de los clínicos, los
investigadores, los pacientes, la industria farmacéutica o las agencias
financiadoras, ya que pueden poner atención en diferentes tipos de
resultados (por ejemplo: tamaño del efecto, coste, tiempo necesario para
el tratamiento, facilidad de aplicación, duración de los resultados y
grado de aceptación por los usuarios).
Podemos
resumir estas definiciones recogiendo los principales componentes de lo
que sería una “diferencia clínicamente importante”:
- Que debe medirse en una variable de resultado válida y con sentido clínico.
- Que debe ser valorada al menos por alguna de las partes implicadas en el proceso asistencial.
- Que justifica una modificación en el manejo del paciente.
- Que supone un beneficio para el paciente.
- Que es duradera, fácil de aplicar, aceptable (por los pacientes) y coste-efectiva.
- Que ha alcanzado significación estadística en un estudio válido (ausencia de sesgos).
- Que debe ser definida por consenso de expertos.
- Que debe ser adaptada a las circunstancias (diferente según la situación).
- Que depende de la perspectiva desde la que se juzgue: clínicos, investigadores, pacientes, industria farmacéutica o agencias financiadoras.
Aunque
muchos de estos factores tienen un cierto componente subjetivo, su
análisis detallado permite que los distintos agentes implicados realicen
un juicio sistemático. Otras consideraciones a realizar en la
valoración de la importancia clínica pueden ser tomadas de los criterios
de causalidad. Un resultado clínicamente importante, tendrá que ser
coherente con el estado actual del conocimiento o tener algún fundamento
fisiopatogénico que lo respalde (plausibilidad biológica). Asimismo, se
valorará la fuerza de la asociación, cuanto mayor sea el tamaño del
efecto más verosímil será. Además se tendrá en cuenta si existe algún
tipo de gradiente biológico (a mayor exposición mayor efecto), su
concordancia externa (con otros estudios o medidas relacionadas) y su
secuencia temporal o direccionalidad. Este último criterio resulta
fundamental, ya que la exposición debe anteceder al efecto. Sólo los
diseños epidemiológicos de direccionalidad anterógrada (ensayos clínicos
y estudios de cohortes) permiten controlar dicha relación temporal.
Merece
la pena revisar la influencia que tiene la perspectiva desde la que se
evalúa la importancia clínica. El clínico valorará fundamentalmente el
tamaño del efecto medido en variables objetivas y primarias, la
facilidad de aplicación, la demora y la duración del efecto, aunque
también tendrá en cuenta sus efectos secundarios y su coste. El paciente
primará la resolución de los síntomas y su calidad de vida. El
investigador dará importancia a diferencias mínimas que sean
significativas, aunque sean basadas en medidas subrogadas o compuestas,
que le permitan obtener resultados cuantificables, en los que poder
apoyar su financiación. La industria farmacéutica tratará de justificar
la autorización y financiación de sus productos sobre diferencias
estadísticamente significativas, aunque se hayan obtenido en análisis de
subgrupos o a posteriori, al margen de la importancia clínica de los
resultados. Las agencias reguladoras se centrarán en la comprobación de
la existencia de un efecto no debido al azar y en la seguridad de los
productos. Las agencias proveedoras de asistencia (públicas o privadas)
buscarán la financiación de productos que supongan un impacto clínico a
un coste asumible y tratarán de ahorrar costes promoviendo prácticas
preventivas. Por último, las autoridades de salud pública (el estado)
pondrán la atención en opciones que sean accesibles a toda la población
en un entorno de financiación competitivo, procurando un resultado sobre
la salud pública y la productividad social.
Precisión de los resultados científicos
En
cualquier interpretación de la importancia clínica de unos resultados,
ha de tenerse en cuenta que éstos proceden de estudios en los siempre
hay un cierto grado de error. Existen dos posibles fuentes de error: el
error aleatorio (falta de precisión) y el error sistemático (sesgo). No
entraremos a analizar los fundamentos de los errores sistemáticos, cuya
existencia cuestionaría la validez de cualquier resultado, porque excede
el objetivo de esta revisión. Sin embargo, resulta trascendental tener
en cuenta el error aleatorio, lo que se traduce en el grado de precisión
de los resultados de los que vamos a juzgar su importancia.
En
un estudio epidemiológico, la manera principal de reducir el error
aleatorio consiste en aumentar el tamaño de la muestra. De esta manera,
minimizamos el riesgo de obtener resultados distorsionados por azar, ya
que la repetición de la medición tenderá a producir resultados distintos
pero cercanos al valor verdadero del parámetro a medir. Asumiendo que
la repetición de un experimento con un mismo número de pacientes puede
dar resultados diferentes por mero azar, la inferencia estadística nos
permite cuantificar el rango de error, a partir de medidas de dispersión
de los resultados obtenidos y del tamaño muestral (error estándar). A
menor dispersión de los resultados y mayor tamaño muestral tendremos
menor rango de error.
Sea
cual sea el parámetro elegido para expresar los resultados de un
estudio, el rango de error de nuestra estimación puede expresarse como
un intervalo de confianza,
situado entre un valor por abajo y otro por arriba del resultado
obtenido. Cuanto más grado de confianza queramos atribuir a nuestra
estimación de error, más amplio será el rango de dicho intervalo.
Habitualmente empleamos el intervalo de confianza al 95%, cuya
interpretación es: “si repetimos 100 veces un experimento en las mismas
condiciones y con igual número de sujetos, el verdadero valor del
parámetro poblacional que queremos estimar, se encontrará incluido
dentro de 95 intervalos de confianza de los 100 construidos a partir de
los resultados de cada experimento”.
La
presentación de la incertidumbre sobre el tamaño del efecto obtenido en
un estudio en forma de intervalos de confianza es el método más
recomendable. A diferencia del nivel de significación obtenido en un
contraste de hipótesis (“p”), que sólo expresa la probabilidad de que la
diferencia encontrada sea debida al azar (error tipo I o de falso
positivo), el intervalo de confianza refleja la incertidumbre del
resultado en las propias unidades de medida del efecto a evaluar, lo que
facilita la interpretación de su relevancia clínica. Por otra parte, el
intervalo de confianza permite juzgar la significación estadística del
resultado, ya que sólo será significativo cuando no esté comprendido en
su rango el valor nulo de ausencia de efecto (ej. “0” para diferencias
de medias o riesgos, el “1” para medidas de riesgo).
Frente
al planteamiento frecuencista clásico de cálculo e interpretación de la
precisión de los resultados científicos, existe un planteamiento
alternativo denominado “bayesiano” en el que al cálculo de
probabilidades se incorpora una estimación de la verosimilitud “a
priori” de los diferentes resultados posibles de un estudio. Esta
información “a priori” se obtiene del conocimiento previo procedente de
otros estudios, fundamentos fisiopatológicos o de la experiencia. En el
caso de que la información “a priori” no permitiera jerarquizar entre
los posibles resultados, el cálculo de la precisión y, en consecuencia,
de los intervalos de confianza coincidiría con el del planteamiento
frecuencista. Por el contrario, si se tiene cierto grado de certeza “a
priori” que apoye alguno de los resultados, éste se traducirá en una
modificación de los límites de los intervalos de confianza y el nivel de
significación. Puede ampliarse información sobre los fundamentos e
implicaciones del planteamiento bayesiano en otros textos10-12.
Equivalencia, superioridad y no inferioridad.
Una
vez establecida la magnitud del efecto y su grado de precisión
(intervalos de confianza), la interpretación de su relevancia requiere
su comparación con la diferencia que hemos considerado anteriormente
como clínicamente importante. Si los resultados se refieren a dos
opciones entre las que tenemos que elegir, esa comparación permitirá que
juzguemos su equivalencia, superioridad o no inferioridad. Veamos con
unos ejemplos gráficos el fundamento de esta valoración.
En
la figura 1 podemos ver los intervalos de confianza de una serie de
estudios en los que se estimaron riesgos relativos. Comparando los
intervalos con el valor nulo (en este caso RR=1) podemos ver que sólo
los estudios C, D y E son estadísticamente significativos. Sin embargo
si los comparamos con la diferencia clínicamente importante, sólo el
resultado E es clínicamente importante, aunque otros dos estudios (B y
D) podrían serlo; el estudio B no permite realizar una interpretación
clara por ser muy impreciso, mientras que en el D el efecto parece
importante, ya que más de la mitad del intervalo está situado a la
izquierda del límite de importancia clínica. Estas apreciaciones
cualitativas pueden ser cuantificadas mediante cálculo de
probabilidades, ofreciendo la probabilidad de que la diferencia sea
clínicamente importante (área de la distribución de probabilidad que
queda a la izquierda del límite de importancia clínica).
Figura 1. Intervalos
de confianza de cinco estudios con estimación de riesgo relativo (RR).
Comparación con la diferencia clínicamente importante (modificado de
Kaul et al12). Mostrar/ocultar
En
la figura 2 se representan los intervalos de confianza de 9 estudios,
de los que se puede juzgar su importancia clínica y significación
estadística, comparándolos con la línea de valor nulo (en este caso
podría corresponder a una comparación de medias o porcentajes, cuyo
valor nulo sería 0) y con los límites de la diferencia clínicamente
importante. Puede observarse cómo no todos los resultados
estadísticamente significativos pueden ser considerados clínicamente
importantes. Además, en función del área que ocupan los intervalos a un
lado u otro de la diferencia clínicamente importante, pueden ser
interpretados como superiores, inferiores, no inferiores o equivalentes.
De igual manera a como mencionamos anteriormente, estas valoraciones
cualitativas pueden ser cuantificadas mediante cálculo de
probabilidades, para facilitar la interpretación clínica del efecto
encontrado.
Es
evidente que la elección de la magnitud de la diferencia considerada
clínicamente importante va a ser fundamental en la valoración de los
resultados. En el apartado de importancia clínica vimos la subjetividad y
complejidad que conlleva el establecimiento de esa magnitud. Por ello,
es preciso advertir que no podemos hacer una interpretación estadística
estricta de estos cálculos, ya que ignoraríamos los múltiples factores
implicados en el escenario clínico que tenemos que resolver.
Figura 2. Interpretación
de los intervalos de confianza de nueve estudios (datos figurados que
podrían corresponder a diferencias de medias o proporciones). Valoración
de significación estadística, superioridad, inferioridad, equivalencia y
no inferioridad. Mostrar/ocultar
Proceso de valoración. Un ejemplo
Al
inicio de este artículo se sugirieron los pasos a seguir en la
valoración de la importancia clínica de los resultados de un estudio:
valoración cuantitativa, valoración cualitativa, valoración comparativa y
valoración de la relación entre beneficios, riesgos y costes (tabla 1).
Esta propuesta no puede ser entendida como una norma, tan sólo como una
guía que permite repasar los principales factores implicados en un
orden lógico. Seguramente pueden hacerse propuestas alternativas que
mejoren este proceso.
Veamos
un ejemplo de valoración por pasos de la importancia clínica de los
resultados de un estudio. Para facilitar la presentación hemos optado
por una valoración simplificada13. Craig et al14 publicaron
en 2009 un ensayo clínico en el que se evaluaba la eficacia de la
profilaxis antibiótica tras una infección del tracto urinario (ITU),
para prevenir recurrencias de ITU sintomáticas (medida principal de
resultado). Compararon dos grupos de pacientes, uno con 12 meses de
profilaxis con trimetoprima-sulfametoxazol (T-S) y otro con placebo. El
13% del grupo con T-S frente al 19% del grupo con placebo presentaron
recurrencia de la ITU (reducción absoluta del riesgo [RAR] 6%; intervalo
de confianza del 95% [IC95%]: 1 a 13%; p=0,02). También se encontró una
reducción del 7% de ITU febriles, pero no hubo diferencias en el riesgo
de daño renal a los 12 meses. El estudio presenta un buen diseño,
aunque cuenta con un porcentaje de pérdidas muy importante (31%) que,
pese a estar equilibrado entre los grupos, podría cuestionar los
resultados, especialmente si éstos no fueran consistentes.
Para valorar la importancia sigamos los pasos sugeridos:
-
Valoración cuantitativa: repasar la magnitud del efecto (variable de
resultado principal), calculando si es necesario la medida de impacto
más apropiada.
La profilaxis antibiótica con T-S durante 12 meses se asocia a una reducción del 6% (RAR 0,06; IC95%: 1 a 13%;) en la recurrencia de ITU sintomática. Esta reducción equivale a que deben tratarse 14 pacientes para evitar una recurrencia (NNT 14; IC95%: 9 a 86).
- Valoración cualitativa: ponderar la importancia clínica del efecto. Buscar si los autores han definido la diferencia clínicamente importante (generalmente en el cálculo del tamaño muestral), en caso contrario juzgar por nosotros mismos.
La profilaxis antibiótica con T-S durante 12 meses se asocia a una reducción del 6% (RAR 0,06; IC95%: 1 a 13%;) en la recurrencia de ITU sintomática. Esta reducción equivale a que deben tratarse 14 pacientes para evitar una recurrencia (NNT 14; IC95%: 9 a 86).
- Valoración cualitativa: ponderar la importancia clínica del efecto. Buscar si los autores han definido la diferencia clínicamente importante (generalmente en el cálculo del tamaño muestral), en caso contrario juzgar por nosotros mismos.
La
magnitud del efecto parece discreta, de hecho, es menor que la
estimación considerada por los autores en el cálculo del tamaño muestral
(10%). Observemos que gran parte del intervalo de confianza está por
debajo de esa magnitud. Por otra parte, no está claro si un NNT de 14
resulta útil, ya que a falta de otras ventajas (como sería una reducción
del riesgo de daño renal), significa dar profilaxis a 14 pacientes
durante 12 meses, para evitar el tratamiento de ITU a un paciente.
-
Valoración comparativa: buscar resultados de otros estudios publicados
(idealmente revisiones sistemáticas). Comparar la medida principal de
resultado con otras medidas alternativas; si otras medidas alternativas
concuerdan, la importancia del efecto sale reforzada.
No
se encontró efecto sobre prevención del daño renal, principal objetivo
invocado en el planteamiento de la profilaxis; tampoco sobre la
hospitalización. Una revisión sistemática de la Colaboración Cochrane15 cuestiona
la utilidad y justificación de la profilaxis antibiótica sistemática,
fundamentalmente, por no prevenir el desarrollo de daño renal y tener un
escaso impacto en la recurrencia.
-
Valoración de la relación entre beneficios, riesgos y costes: ponderar
los posibles efectos perjudiciales y la relación coste-beneficio.
La
profilaxis se asocia a un aumento del 3,8% en las ITU con
microorganismos resistentes a T-S. Es poco probable que el coste de la
profilaxis supere al del tratamiento de un episodio de ITU.
Como
vemos, esta aproximación permite introducir cierta sistemática en una
valoración en la que no debe olvidarse nunca el sentido clínico de los
resultados. Los números nunca han de suplantar al juicio sensato del
clínico bien informado.
Cómo citar este artículo
Ochoa
Sangrador C.Evaluación de la importancia de los resultados de estudios
clínicos. Importancia clínica frente a significación estadística. Evid
Pediatr. 2010;6:40.
Bibliografía
- Atkins D, Best D, Briss PA, Eccles M, Falck-Ytter Y, Flottorp S, et al. Grading quality of evidence and strength of recommendations. BMJ. 2004;328(7454):1490.
- Hojat M, Xu G. A visitor’s guide to effect sizes: statistical significance versus practical (clinical) importance of research findings. Adv Health Sci Educ Theory Pract. 2004;9(3):241-9.
- Hollon SD, Flick SN. On the meaning if clinical significance. Behav Assess.1988;10:197-206.
- Lindgren BR, Wielinski CL, Finkelstein SM, Warwick WJ. Contrasting clinical and statistical significance within the research setting. Pediatr Pulmonol.1993;16(6):336-40.
- LeFort SM. The statistical versus clinical significance debate. Image J Nurs Sch. 1993;25(1):57-62.
- Hujoel PP, Armitage GC, Garcia RI. A perspective on clinical significance (editorial). J Periodontol. 2000;71:1515-8.
- Kingman A. Statistical vs clinical significance in product testing: can they be designed to satisfy equivalence? J Public Health Dent.1992;52(6):353-60.
- Killoy WJ. The clinical significance of local chemotherapies. J Clin Periodontol. 2002; (supplement 2):22-9.
- Greenstein G. Clinical versus statistical significance as they relate to the efficacy of periodontal therapy. J Am Dent Assoc. 2003;134(5):583-91.
- Martínez-González MA, Seguí-Gómez M, Delgado-Rodríguez M. ¿Cómo mejorar los intervalos de confianza? Med Clin (Barc). 2009. doi:10.1016/j.medcli.2009.10.033 2009.
- Burton PR, Gurrin LC, Campbell MJ. Clinical significance not statistical significance: a simple Bayesian alternative to p values. J Epidemiol Community Health. 1998;52(5):318-23.
- Kaul S, Diamond GA. Trial and error. How to avoid commonly encountered limitations of published clinical trials. J Am Coll Cardiol. 2010;55(5):415-27.
- Ochoa Sangrador C, Buñuel Álvarez JC. La profilaxis antibiótica podría disminuir discretamente la recurrencia de infección urinaria, aunque no está claro si nuestros pacientes se beneficiarían de ella. Evid Pediatr. 2009;5:84.
- Craig JC, Simpson JM, Williams GJ, Lowe A, Reynolds GJ, McTaggart SJ, et al. Antibiotic prophylaxis and recurrent urinary tract infection in children. N Engl J Med. 2009;361:1748-59.
- Williams G, Wei L, Lee A, Craig JC. Long-term antibiotics for preventing recurrent urinary tract infection in children. Cochrane Database of Systematic Reviews. 2006, Issue 3. Art. No.: CD001534. DOI: 10.1002/14651858.CD001534.pub2
Related articles
- Presentacio australia novembre 2012
- witggenstein sobre importância de biografias
- Language Processing Techniques for Statistical Machine Translation, Diego Bartolome, TAUS Open Source Machine Translation Showcase, Seattle, 17-10-12
- An Interview with "Fringe Latino"
- Writer Wanted for Gizmodo en Español
- Bainha de Copas X Estúdio Fera #2
- House in Pilar by Estudio Parysow (Schargrodsky Arquitectos) + Estudio Tarnofsky (Wilhelm)
- The empty heart, is poverty - El vacío corazón, es la pobreza
No hay comentarios.:
Publicar un comentario
Write here your comment