¿Y Si Todos Los Backtests Fueran Mentira?

Si Vd. lleva tiempo en el trading cuantitativo, seguramente os haya asaltado alguna vez esta pregunta: ¿y si los resultados de nuestros backtests no fueran más que resultado del más puro azar y no tuvieran realmente importancia alguna de cara al futuro?

Pero lo cierto es que existe una nueva corriente dentro del campo denominado metaciencia, que afirma sin tapujos que la mayor parte de los descubrimientos científicos son falsos. En particular, en el influyente paper publicado en 2005 por John Ioannidis pone de manifiesto la conocida como crisis de reproducibilidad en numerosos campos de la ciencia, no siendo posible reproducir los resultados de una determinada investigación, lo que implicaría que las conclusiones de muchas investigaciones científicas probablemente sean falsas. Ahora bien: si suponemos que está afirmación tan dura es cierta, ¿quién es el culpable de ello? ¿Y cómo nos afecta a la hora de desarrollar sistemas de trading?

Hackeando el P-Value

Buena parte del problema se debe al extendido uso de los tests de significación basados en el denominado p-value. Introducido por el estadístico británico Ronald Fisher en 1922, el p-value o p-valor define la probabilidad de haber obtenido el resultado que hemos obtenido suponiendo que la hipótesis de partida o hipótesis nula que estamos analizando es cierta. De este modo, mediante el p-valor podemos, por tanto, diferenciar resultados que son simplemente producto del azar, de aquellos resultados que sí son estadísticamente significativos.

En la práctica, generalmente se rechaza la hipótesis nula si el p-valor asociado al resultado observado es igual o menor que un nivel de significación α predeterminado. El valor de α generalmente se establece de forma arbitraria en 5% o 1% en la mayor parte de los estudios científicos.

Si ya esta arbitrariedad resulta preocupante, peor se pone la cosa si consideramos que el hecho de predeterminar el valor de α abre la puerta a un peligroso sesgo que podrían introducir los investigadores: proponer numerosas hipótesis hasta dar con aquella que cumpla que su p-valor es superior al nivel de significación α.

La Crisis de la Estadística en Finanzas

Supongo que si me han seguido hasta aquí, seguramente ya sepan por donde voy, y voy a ser claro: si consideramos cierto lo anterior, estaríamos abriendo la espita de la irrelevancia de los backtests de estrategias de trading. Estoy seguro de que no soy el primero que pasa por esta situación: un impresionante backtest, con resultados espectaculares, sin fallos ni overfitting aparentemente, y cuando ponemos en marcha la estrategia, a los pocos días o semanas… ¡Zas! ¡Fracaso estrepitoso!

Yendo un poco más lejos: estoy seguro de que buena parte de mis lectores, que suelen tener ciertos conocimientos avanzados de trading cuantitativo, serían capaces de crear carteras de sistemas de trading que baten sobre el histórico a cualquier benchmark u objetivo de rentabilidad que deseemos.

Además, este problema se ha agravado en los últimos años, por cuanto ha aparecido una completa plétora de herramientas informáticas capaces de explorar miles o incluso millones de ponderaciones de diferentes componentes y ajustes de parámetros, y generar y seleccionar excelentes estrategias ganadoras (ojo, ¡aquí entono el mea culpa! He sido el primero en ser cautivado por los cantos de sirena de programas como StrategyQuant o Expert Advisor Studio).

Y es que en el caso de la aplicación de la Estadística al desarrollo de estrategias de inversión, por desgracia nos enfrentamos a algunos escollos verdaderamente difíciles de salvar:

  • Por un lado, una vez hemos creado una supuesta estrategia ganadora en el backtest, necesitamos que transcurra un cantidad de tiempo suficiente para obtener información futura que nos permita validar que la estrategia continúa funcionando dentro de una serie de parámetros.
  • Asimismo, por desgracia no podemos repetir un backtest alterando determinadas variables que pueden afectar al comportamiento del mercado. Por ejemplo, ¿qué hubiera pasado con la serie de cotizaciones si nuestra orden hubiera impactado en el mercado en ese momento? ¿El mercado se habría comportado exactamente de la misma manera o el resultado habría variado sustancialmente? ¿Habríamos hecho saltar stops al mover el precio en una dirección, generando un efecto cascada? ¿O seríamos imperceptibles como un grano de arena en el desierto? Por desgracia, no es posible dar respuesta a estas preguntas por cuanto solo disponemos de una única trayectoria histórica, sin posibilidad de alterar realmente el pasado.
  • Por último, también podría suceder que, aunque la estrategia falle unas semanas después de ser puesta en marcha, podría ser que la estrategia fuera realmente ganadora hasta justamente antes del momento de lanzarla y el mercado se haya ocupado de invalidarla (al fin y al cabo no somos los únicos investigando sobre estrategias de trading: antes o después el mercado devora todo). Por supuesto, también cabe la posibilidad de que nuestra estrategia ganadora no fuera más que un artificio estadístico desde el principio.

En este sentido, por si desean profundizar en estos temas desde un punto de vista matemático les recomiendo dos excelentes artículos de la factoría López de Prado & Bailey: por un lado, el esclarecedor Pseudo-Mathematics and Financial Charlatanism: The Effects of Backtest Overfitting on Out-of-Sample Performance de Bailey, Borwein, López de Prado y Zhu; y, por otro, The False Strategy Theorem: A Financial Application of Experimental Mathematics.

Remedios Para la Crisis

Afortunadamente, no todo es de color negro: existen algunas herramientas específicas que pueden utilizarse para prevenir los efectos nocivos del overfitting en los backtests y otros errores relacionados. Por un lado, tenemos el Deflated Sharpe Ratio de Bailey y López de Prado, que permite corregir las dos principales fuentes de “engorde” de los rendimientos de las estrategias: el sesgo de selección y una distribución de los rendimientos distinta de la Normal.

Otro artículo de referencia de estos autores junto con Borwein y Zhu es The Probability of Backtest Overfitting, el cual proporciona un marco teórico para calcular la probabilidad de sobreoptimización de un backtest, usando un método denominado validación cruzada combinatoria simétrica. Estas técnicas, así como otras similares, se incluyen también en el libro de López de Prado, Advances in Financial Machine Learning.

Conclusión

Espero que las reflexiones que os acabo de plantear en este artículo no os hagan tirar todo vuestro trabajo a la basura, sino que os sirva para replantearos la forma de evaluar y desarrollar estrategias de trading. Es evidente que existe cierta “contaminación” en la forma de hacer ciencia actualmente (en parte intencionada, por cuanto las revistas académicas necesitan publicar un elevado número de artículos todos los meses/trimestres para poder subsistir) pero está claro que empieza a ser necesario establecer ciertos filtros en múltiples disciplinas, incluyendo por supuesto el financiero.

Por ejemplo, sería ideal que los reguladores del sector, al igual que sucede en el campo de los fármacos, tuvieran capacidad para retirar su licencia a aquellos gestores que promocionen productos financieros que no hayan sido rigurosamente analizados para evitar sesgos de selección. Asimismo, en un mundo ideal, los inversores deberían tener la formación suficiente como para poder exigir toda la información relacionada con el desarrollo de una estrategia de inversión que se les ofrezca, siendo capaces de discriminar aquellas que puedan ser el resultado de una sobreoptimización.

Y es que a día de hoy los inversores minoristas no son conscientes siquiera de las posibles trampas estadísticas que se utilizan en el diseño de productos de inversión (por cierto, Cathy Wood creo que sabe mucho de esto :P).

Saludos,
X-Trader

COMPARTIR EN: