DISEÑO ESTADÍSTICO DE ESTUDIOS CLÍNICOS EN FASE II Y SUS APLICACIONES EN CÁNCER DE MAMA: ACTUALIZACIÓN DE UNA INVESTIGACIÓN SOBRE LAS MODALIDADES DE EVALUACIÓN Y COMUNICACIÓN DE LA TOXICIDAD EN EL MISMO CONTEXTO CLÍNICO

Artículo completo

"Estudio de modalidades de valoración y comunicación de toxicidad en estudios prospectivos no comparativos de quimioterapia en cáncer de mama". Resumen
Recientemente realizamos una investigación ¹ acerca de la forma de valorar y registrar la toxicidad en trabajos clínicos prospectivos no comparativos en cáncer de mama publicados entre 1995 y 1999 en siete revistas distinguidas de la especialidad (Annals of Oncology; Breast Cancer Research and Treatment; British Journal of Cancer; Cancer; Clinical Cancer Research; European Journal of Cancer y Journal of Clinical Oncology). Los artículos incluidos se seleccionaron en forma manual; dos investigadores independientes completaron un formulario de registro (study report form,SRF). En estos formularios se captaron dos clases de información: datos sobre las características del estudio incluido (revista, año de publicación, año de inicio del trabajo, organización del estudio, apoyo de un patrocinador, número de ramas de la investigación, indicación de la fase del trabajo, diseño estadístico y puntos primarios de evaluación) y datos de las variables asociadas con el registro de toxicidad (escala empleada para codificar la toxicidad, indicación de exámenes planificados y su momento de realización, uso de tablas descriptivas de toxicidad, tipo de mediciones y frecuencia con la que se realizó hemograma). La idoneidad de las modalidades de valoración de toxicidad se estableció en función de cuáles fueron las evaluaciones indicadas por los autores y en qué momento fueron planificadas. Las modalidades pudieron ser adecuadas cuando se publicaron los detalles de ambos interrogantes e inadecuadas cuando uno o ambos parámetros estaban ausentes. Las revistas se clasificaron en dos subgrupos según el factor de impacto: impacto muy alto, representado por el Journal of Clinical Oncology, que siempre tuvo un puntaje cercano o superior a 7, y las de impacto alto en la que se incluyeron las seis publicaciones restantes, cuyo factor de impacto estuvo siempre por encima de dos pero por debajo de 4. Los datos se cruzaron en tablas de eventos fortuitos con cinco variables relacionadas con el contexto (número de instituciones participantes; patrocinador; presencia de un diseño estadístico identificable y presencia de un rótulo explícito de fase II). Finalmente evaluamos las asociaciones entre las modalidades de valoración y registro de la toxicidad y de los factores relacionados con el contexto por la prueba de chi cuadrado.

Entre los 122 estudios seleccionados y revisados encontramos que la escala de la OMS fue la utilizada más frecuentemente (45.9%) para evaluar toxicidad, seguida por las escalas CTC (35.2%). Las modalidades de valoración de toxicidad se comunicaron en forma inadecuada o no se comunicaron en más del 20% de los estudios. La toxicidad fue una variable primaria de evaluación en el 45.9% de los estudios y se resumió predominantemente por paciente (69.7%). Se identificaron tres patrones de frecuencia de solicitud de recuento de blancos: semanal (la modalidad más común); una vez al finalizar cada ciclo (la menos habitual) y más de una vez por semana. En el 21.3% de los trabajos no hubo información en relación con este parámetro. En la mayoría de los artículos, la toxicidad y su gravedad fueron comunicadas en forma completa (82.8% y 68.9%, respectivamente). En forma llamativa notamos que un factor de alto impacto se asoció significativamente con un uso más frecuente de las escalas CTC (p= 0.001) y con mayor frecuencia de hemogramas (p= 0.002). En los trabajos que refirieron los resultados de investigaciones multicéntricas más frecuentemente se adoptaron mediciones por paciente para comunicar la toxicidad (p= 0.006). La indicación explícita de la fase de estudio se correlacionó con el uso más frecuente de tablas para comunicar la toxicidad (p= 0.0006). Asimismo, la presencia de un patrocinador se correlacionó con un incremento relevante del uso de escalas CTC (p= 0.0006). El diseño estadístico identificable también se asoció en forma significativa con el uso de escalas CTC (p= 0.006) y con la aplicación de tablas para referir la toxicidad (p = 0.05). En forma similar, los estudios de inicio más reciente (1993-1997 versus 1986 a 1992) se asociaron con mayor uso de escalas CTC (p = 0.03) y de tablas para mostrar la toxicidad (p = 0.05). No hubo correlación significativa de las modalidades de valoración de la toxicidad y de su registro según el año de publicación y las variables principales de análisis del estudio. Dada la amplia diversidad de modalidades de registro y comunicación de la toxicidad observada, en nuestra opinión los estándares actuales deberían ser revisados y compaginados para mejorar la confiabilidad de cada dato.

Aspectos metodológicos ocultos en estudios publicados de fase II de tratamiento de cáncer de mama
Durante el análisis de los datos previos otro defecto importante fue la falta de un diseño estadístico formal el cual sólo pudo identificarse en un tercio de los trabajos seleccionados (34.4%), de manera que la mayoría carecía de un plan estadístico de estudio y una estimación a priori del tamaño de la muestra. Por otro lado, observamos que un diseño estadístico se asoció con el uso más frecuente de las escalas CTC y de tablas de toxicidad. Por este motivo, en el trabajo actual prestamos mayor atención a la aplicación de diseños en fase II en el contexto clínico del estudio previo y también analizamos datos de 23 trabajos de terapia hormonal que habían sido eliminados del ensayo anterior por el bajo índice de toxicidad. De hecho, esta actualización se basó en 145 ensayos de tratamiento de cáncer de mama publicados en las mismas revistas entre 1995 y 1999. En la misma revisamos la magnitud de las estrategias estadísticas aplicadas en estudios en fase II de cáncer de mama. Recientemente se ha publicado un artículo extenso al respecto.².

Aplicación de los diseños de fase II a la investigación clínica en cáncer de mama: actualización del "Estudio de modalidades de valoración y comunicación de toxicidad en estudios prospectivos no comparativos de quimioterapia en cáncer de mama"
La investigación de drogas antineoplásicas se realiza con estudios en fase I, luego en fase II y, finalmente, con ensayos clínicos prospectivos en fase III. Las investigaciones en fase II tienen por objetivo evaluar si existe evidencia de acción antitumoral que justifique estudios futuros con la droga experimental; así se reduce la probabilidad de planificar investigaciones prolongadas, costosas y no éticas con terapias ineficaces. La metodología de los estudios en fase II intenta minimizar el número de pacientes tratados con terapias posiblemente inútiles, reducir el riesgo de concluir erróneamente que el nuevo fármaco es ineficaz o de rechazar en forma equivocada un fármaco potencialmente útil. El diseño estadístico de los estudios en fase II puede agruparse según las principales características: principales parámetros o criterios de valoración, número de tratamientos, tipo de estructura de la inferencia, cantidad de estadios, número de drogas (tabla 1).

También se tuvieron en cuenta otras variables relacionadas con la planificación de la fase de los estudios, pertinentes para esta actualización: presencia de un estudio en fase I, tipo de tratamiento experimental, cantidad de drogas (agentes en forma aislada o en combinación), número de pacientes enrolados. La aleatorización no se consideró per se un diseño estadístico identificable. Se consideró que los trabajos no estuvieron diseñados cuando no se reconoció un método en la planificación del tamaño de la muestra. Los artículos rotulados como de fase II pero planificados con métodos que son típicos en los trabajos en fase III se consideraron con diseño, a pesar de lo inapropiado que pudiese ser el plan estadístico. Se registraron otras variables relacionadas con el éxito del estudio como la duración y los resultados. Estos últimos se definieron como negativos cuando estuvieron explícitamente comunicados en esta forma o cuando fueron ambiguos pero estuvieron seguidos por la convicción categórica de que la droga en cuestión no era apta para estudios futuros. Aquellos artículos en los cuales se concluyó que el tratamiento debería ser posteriormente evaluado en estudios en fase III se consideraron positivos. La duración de la investigación se definió como el tiempo transcurrido desde el inicio del trabajo hasta su publicación, utilizando al año como medición de ambas; usualmente no se dispuso de información más precisa. Las correlaciones entre la presencia o no de un diseño estadístico identificable y de otras variables se establecieron con la prueba de chi cuadrado. Los valores de P ≤ 0.05 se consideraron significativos. Las variables de contexto clínicamente significativas en el análisis univariado se incorporaron posteriormente en el modelo de regresión logística de multivariado. Las asociaciones se comunicaron como odds ratios (OR) con intervalo de confianza de 95% (IC 95%). Se aplicó la prueba de orden de suma (rank-sum) de Mann-Whitney para comparar la duración de los estudios con diseño estadístico o sin él.

Las características generales y metodológicas de los estudios se muestran en la tabla 2 y 3.

En 50 (34.5%) no se dispuso de información sobre la fecha de inicio del trabajo. En los restantes 95, la duración promedio (tiempo entre el inicio y la publicación del estudio) fue de 4.5 años (DE 2.2). La mitad tuvo una organización multicéntrica. No se informó patrocinador en el 53.1% de los casos. Más de la mitad de las investigaciones (57.2%) evaluó una combinación de drogas y no un único agente. En el 37.9% de los artículos no hubo referencia de un estudio previo en fase I. Como era de esperar, la respuesta tumoral fue el punto primario de análisis en el 89% de los trabajos, en forma aislada o en simultáneo con el registro de toxicidad; este última fue el único parámetro de evolución en el 6.9% de las investigaciones. En número promedio de pacientes enrolados fue de 39 (rango intercuartilo: 26 a 51). En 24 (19.3%) de los ensayos no hubo indicación explícita de la fase del estudio; no se identificó un diseño estadístico en 94 (64.8%) trabajos. Entre estos estaban los 24 estudios en los cuales no había indicación explícita de la fase de investigación. La referencia de un estudio previo en fase I, el inicio del trabajo en años más recientes, el tratamiento experimental con un único fármaco, la organización multicéntrica y el apoyo de un patrocinador se asociaron significativamente con la presencia de un diseño estadístico específico en el análisis de variables únicas (tabla 4). El tratamiento con un único agente (OR 2.35; IC 95%: 1.01-5.51) y la organización multicéntrica (OR 3.24; IC 95%: 1.47-7.15) fueron factores predictivos independientes de la presencia de un plan estadístico en el modelo de regresión logística de múltiples variables (tabla 4). Tal como se muestra en la tabla 5, los trabajos con planificación estadística más frecuentemente se publicaron en revistas de alto impacto y tuvieron, en forma global, menor duración: transcurrió alrededor de un año menos entre el momento de inicio y de publicación en comparación con aquellos sin planificación estadística (3.9 versus 4.9 años). No se encontró asociación entre el diseño estadístico del estudio y los resultados finales en general.

Discusión, críticas y debates sobre los datos actualizados
En esta actualización sólo 51 de los 145 trabajos (35.2%) seleccionados para el análisis tuvieron un diseño explícito; la organización multicéntrica y el tratamiento con un único fármaco experimental fueron las variables que más se relacionaron con la presencia de un diseño estadístico. Los artículos con un plan estadístico formal fueron de menor duración y se publicaron con un factor de alto impacto. El índice de estudios sin un diseño formal es "demasiado" elevado (64.8%). En más de 20 artículos no se hizo referencia en ninguna parte a un diseño estadístico o en fase II. Si bien los mismos se comunicaron como estudios prospectivos es difícil saber si fueron realmente prospectivos o simplemente fueron la recolección retrospectiva de datos. Por ende, sus resultados son cuestionables porque las dos formas de valorar resultados (prospectiva versus retrospectiva) pueden dar lugar a información muy distinta.

El hallazgo de que el diseño estadístico fuese más frecuente en estudios con un único fármaco en comparación con investigaciones de dos drogas en forma simultánea debe considerarse con mucha atención. De hecho, el objetivo de los estudios en fase II de combinación de drogas no es simplemente el de mostrar eficacia sino también revelar que la actividad alcanza un nivel suficiente de interés que justifica la realización de estudios más amplios en fase III. La falta de modelo estadístico complica la interpretación de los resultados aún más que en los primeros estudios en fase II cuyo objetivo es mostrar, al menos, algo de actividad incluso cuando sea muy baja.

Sin embargo, el índice de artículos con comunicación de un diseño estadístico es mayor que el recientemente encontrado por Mariani y Marubini³ quienes mostraron que en sólo el 19.7% de los 308 estudios en fase II de cáncer publicados durante 1997 se identificaba un modelo estadístico. No obstante, estos investigadores prestaron atención a todos las revistas disponibles a través de Medline mientras que nuestra búsqueda se limitó a unas pocas revistas de muy buena calidad (por ejemplo, aquellas con un factor de impacto constantemente superior a 2 publicadas durante 1994-1999); es por ello que nuestros datos también deben considerarse negativos.

El índice bajo de estudios con planificación estadística puede tener varias explicaciones. En primer lugar, las asociaciones entre un plan estadístico y la organización multicéntrica y un inicio más reciente indican que la difusión de la cultura de la metodología es cada vez mayor, particularmente en aquellas situaciones en las que ciertos aspectos metodológicos y estadísticos específicos se tienen en cuenta durante la planificación de la investigación. Sin embargo, en una enfermedad frecuente como lo es el cáncer de mama, es posible alcanzar el tamaño de la muestra requerida para la mayoría de los estudios en fase II en muchas unidades clínicas y esto favorece el inicio de ensayos en fase II sin planificación. Además, la forma usual de resumir los datos provenientes de estudios en fase II sobre una determinada droga es una forma elemental de comunicar el índice de respuesta o de toxicidad, en el mejor de los casos con intervalos de confianza; desafortunadamente, los datos rara vez son interpretados y presentados acorde con el plan estadístico del estudio. Aún así, este tipo de interpretación requeriría una homogeneidad sustancial en los métodos para la planificación estadística que no podemos analizar en esta revisión por el escaso número de artículos con diseño encontrados.

Otro problema es la interpretación errónea del papel de los trabajos en fase II en investigación clínica. En forma ideal, deberían realizarse uno o unos pocos estudios en fase II para cada nueva droga o combinación de fármacos, inmediatamente después de la investigación en fase I y, en caso de resultados positivos, antes de trabajos en fase III. La mayoría de los planes estadísticos incluyen aspectos éticos y operativos coherentes con este contexto. Lamentablemente, muchos de los artículos que revisamos no reúnen este paradigma fundamental. En aproximadamente el 40% de los estudios no se menciona un análisis previo en fase I. Algunos trabajos que abordan drogas no nuevas podrían leerse en forma optimista como estudios confirmatorios en fase II, pero más bien parecen tener la apariencia de un diseño hecho a medida acorde con la práctica clínica común. Por último, muchos artículos tienden a dar mensajes definitivos acerca de la utilidad clínica de la droga, a pesar de que deberían ser dados por estudios en fase III. Las futuras investigaciones de seguimiento podrían evaluar cuántos de estos estudios en fase II con hallazgos positivos culminan realmente en estudios en fase III.

Los ensayos en fase II aleatorizados⁴ son particularmente proclives a este tipo de error, especialmente cuando se incluye un estándar o un brazo control como base de comparación. El pasaje desde el abordaje de selección (que es en sí preliminar) al abordaje de la evaluación de la hipótesis podría asociarse con un riesgo inaceptablemente alto de resultados falsos positivos. ⁵ Tal como se estableció en forma reciente, a menos que el estudio de seguimiento en fase III esté garantizado por algún mecanismo externo -regulaciones gubernamentales para la aprobación de un nuevo fármaco; el diseño de selección puede ser más dañino que beneficioso por la propensión a ser usado en forma incorrecta. ⁶

No encontramos diferencia en el número de pacientes enrolados en trabajos según la presencia o no de un plan estadístico. Por supuesto, en los trabajos que carecen de plan no pudimos verificar a posteriori si el número de pacientes tratados era el adecuado. La selección de revistas de alto impacto podría nuevamente ser una posible explicación. Es factible que tales revistas acepten estudios bien planificados o sólo aquellos no planificados con un tamaño razonable de muestra (ni demasiado alto ni demasiado bajo). Sin embargo, esto no significa que se produzca información de la misma cantidad y calidad, independientemente del diseño estadístico ya que la interpretación de la mayoría de los estudios sin planificación sólo se deja al criterio de sus Autores, frecuentemente no relacionado con los objetivos propuestos y la literatura de contexto. Si bien en el grupo de artículos que revisamos no hubo diferencia entre el índice de resultados negativos entre los ensayos con y sin planificación, los Autores usualmente tendieron a hacer hincapié en los hallazgos positivos y a minimizar los negativos. Sin el control adecuado de los hallazgos falsos positivos y falsos negativos, muchos trabajos con un bajo índice de respuesta son presentados como "bien tolerados". Es preocupante por ejemplo que la distribución de los índices de respuesta oscilara entre el 32% y el 94% en 16 trabajos limitados a la quimioterapia de primera línea en enfermedad en estadio IV que concluyen con un mensaje "positivo".

Los resultados de la revisión llaman la atención
Nuestra revisión demostró que sólo una minoría de los estudios en fase II en cáncer de mama publicados entre 1995 y 1999 en revistas de alta calidad tiene un buen diseño estadístico, fenómeno que se observó particularmente en aquellos con organización multicéntrica. La falta de un diseño formal aparentemente no indujo diferencias sustanciales en el número de pacientes enrolados y en el índice de resultados "positivos". Sin embargo, se asoció con un tiempo mayor desde el inicio hasta la publicación y con un factor de impacto menor. Un número bastante grande de los trabajos seleccionados fue cuestionable por el hecho de que no parecieron ser verdaderamente prospectivos. En forma global, parece requerirse mayor aplicación de una metodología estadística en la planificación de estudios en fase II en cáncer de mama con la finalidad de aumentar la confiabilidad de los resultados y de reducir el número de publicaciones innecesarias y a veces cuestionables.