Backtest a Prueba de Balas y de Sesgos

Durante la Segunda Guerra Mundial, la pregunta no era si los aviones recibirían impactos, sino cuántos aguantarían antes de caer. En un intento por reducir las pérdidas, el ejército estadounidense decidió analizar cada aparato que volvía de misión para encontrar patrones y reforzar el blindaje.

Imagine la escena: hangares llenos, mecánicos sudando grasa y estadísticos con mapas de impactos. Los aviones regresan agujereados como un colador, y los mandos deciden reforzar justo donde ven más daños. Entonces Abraham Wald levanta la mano y desmonta el plan: “Si están aquí, esos impactos no los mataron. Reforcemos donde no vemos nada: ahí es donde caen los demás”.

En el trading ocurre lo mismo: muchas veces analizamos únicamente las estrategias, activos o periodos que han “regresado vivos” de nuestras pruebas. Nos fijamos en los gráficos que lucen perfectos, en los indicadores que brillan, y en los resultados que superan nuestras expectativas… pero olvidamos todo lo que se quedó en el camino.

El sesgo de supervivencia en backtesting es ese enemigo invisible que hace que nuestras simulaciones parezcan más robustas de lo que realmente son. Al igual que con los aviones, los datos que tenemos a la vista no siempre cuentan toda la historia: lo peligroso está en lo que no vemos, en las estrategias descartadas, en los activos que ya no cotizan, en los periodos borrados por la volatilidad.

Es importante distinguir dos niveles de sesgo en el S&P 500: primero, ignorar a los constituyentes históricos —empresas que salieron del índice pero siguen cotizando en el mercado—, y segundo, omitir a las empresas deslistadas —aquellas que desaparecieron completamente por quiebra o absorción—. Ambos sesgos distorsionan los backtests, pero de formas diferentes: el primero subestima la rotación natural del índice, mientras que el segundo oculta los verdaderos riesgos de cola.

Blindar tus sistemas de trading sin mirar esas “zonas sin impactos” es invitar a que la próxima ráfaga —del mercado— lo derribe.

En este artículo pondremos el sesgo de supervivencia bajo el microscopio, no como una curiosidad estadística, sino como un factor capaz de distorsionar gravemente la evaluación de estrategias de trading. Para ello utilizaremos una base de datos histórica del S&P 500 que incluye no solo las compañías que forman parte del índice hoy, sino también todas las que alguna vez lo integraron y posteriormente salieron —ya sea por fusiones, adquisiciones, quiebras o simples cambios en la composición.

Las empresas no simplemente «desaparecen» del S&P 500, sino que salen por caminos radicalmente diferentes, y cada camino distorsiona el sesgo de supervivencia de manera única.

Esta distinción es crucial: mientras que empresas como General Electric salieron del índice pero siguen operando, otras como Lehman Brothers desaparecieron por completo del mercado.

Para este análisis utilizamos una base de datos que incluye tres categorías de empresas: (1) los constituyentes actuales del S&P 500, (2) los ex-constituyentes que aún cotizan en otros índices o mercados, y (3) las empresas completamente deslistadas.

Quiebras vs Rescates vs Transacciones Estratégicas
Quiebras vs Rescates vs Transacciones Estratégicas

Lehman Brothers y Enron representan las quiebras clásicas. La trayectoria es inconfundible: una caída exponencial que acelera en los últimos meses, con volatilidades que superan el 100% anualizado.

Enron pasó de valer 100 a prácticamente cero en cuatro años, con una volatilidad del 174%. Lehman siguió un patrón similar pero más violento, alcanzando una volatilidad del 267%.

Merrill Lynch y Wachovia no quebraron técnicamente; fueron rescatadas o adquiridas bajo presión extrema. Sus gráficos muestran un descenso sostenido pero no vertical. Merrill Lynch perdió el 70% de su valor antes de ser absorbida por Bank of America en un fin de semana de pánico, mientras Wachovia cayó un 80% antes del rescate de Wells Fargo. El caso de Tiffany es fascinante porque rompe el patrón: fue adquirida con una prima del 30% por LVMH en 2021, demostrando que no todas las adquisiciones ocurren en crisis.

La fila inferior presenta la paradoja más interesante. Monsanto, Burlington Northern y Dow Chemical salieron del S&P 500 mediante fusiones estratégicas exitosas, y sus gráficos muestran trayectorias claramente ascendentes. Monsanto ganó un 89% antes de fusionarse con Bayer por $66 mil millones. Burlington Northern subió consistentemente hasta que Warren Buffett la compró con una prima del 30%, llamándola «una apuesta total en el futuro económico de Estados Unidos». Dow Chemical aumentó un 173% antes de fusionarse con DuPont en una mega-fusión de iguales. Aquí el sesgo funciona al revés: excluir estas empresas del backtest subestima los retornos potenciales. Un inversor real habría capturado estas ganancias masivas estando largo.

No es simplemente que los backtests ignoren las empresas «muertas» e inflen los retornos. Es que asumen, simultáneamente, tres imposibles: que el inversor habría evitado mágicamente todas las quiebras como Enron (después de 11 años en el índice), Bear Stearns (8.5 años) y Lehman (10 años); habría vendido justo antes de los rescates como el de Merrill Lynch; y habría mantenido hasta el último día las fusiones exitosas como Burlington Northern. Esto no es análisis histórico; es ficción estadística.

A partir de este universo completo (sin sesgo) realizaremos un análisis descriptivo para comparar el índice “con maquillaje” (solo los supervivientes) frente a su versión realista, donde también cuentan los héroes caídos.

Ritmo de entradas y salidas de compañías en el S&P 500
Ritmo de entradas y salidas de compañías en el S&P 500 (trimestral y anual).

En los gráficos anteriores se muestra el ritmo de entradas y salidas de compañías en el S&P 500, tanto a nivel trimestral como anual. A la izquierda vemos los picos y valles de rotación en la composición del índice, con momentos de intensa actividad — como el máximo histórico de 14 salidas en un solo trimestre— que suelen coincidir con periodos de crisis o fuertes cambios sectoriales. A la derecha, la visión anual revela la variabilidad del fenómeno: desde mínimos de apenas 2 salidas (2003) hasta máximos extraordinarios de 26 en un solo año (2000), con una media de 11,8 reemplazos por ejercicio.

La elección del S&P 500 frente a un mercado completo (como todo el NYSE o NASDAQ) responde a varias razones:

  1. Relevancia y representatividad: el S&P 500 es el índice de referencia más seguido a nivel global, utilizado como benchmark por traders, gestores y académicos.
  2. Calidad y trazabilidad de datos: su composición histórica está bien documentada y las series financieras de sus componentes —tanto activos como deslistados— son más accesibles y fiables que en otros universos más amplios.
  3. Limitaciones operativas reales: en un entorno de trading, no todos los brokers ofrecen acceso a todos los activos de un exchange, especialmente cuando se trata de valores ilíquidos o de baja capitalización. Para un mercado completo sería necesario aplicar filtros adicionales de volumen, capitalización, liquidez… de modo que el universo resultante sea realmente operable.

De este modo, el S&P 500 ofrece un equilibrio óptimo entre representatividad, calidad de datos y viabilidad práctica para construir y evaluar estrategias que sean comparables con la operativa real y con el resto de operadores.

PROFUNDIZANDO EN LA RELEVANCIA: LA TRIPLE COMPARACIÓN QUE REVELA LA VERDAD

Para cuantificar con precisión el sesgo de supervivencia, realizamos un análisis que compara tres aproximaciones metodológicamente distintas para calcular el rendimiento del S&P 500 durante el período 2004-2024.

La primera utiliza exclusivamente las 502 empresas que componen el índice en la actualidad, calculando sus retornos históricos de manera equiponderada (sin costes de transacción ni deslizamiento, para simplificar). Esta metodología, aunque común en estudios académicos, adolece de un defecto fundamental: asume implícitamente que el inversor habría seleccionado ex-ante precisamente aquellas empresas destinadas a sobrevivir las próximas dos décadas.

La segunda y tercera aproximación emplean los ETFs RSP y SPY como proxies del rendimiento real del índice. El RSP replica el S&P 500 de manera equiponderada, mientras que el SPY lo hace ponderado por capitalización. Ambos ETFs, al replicar dinámicamente la composición del S&P 500, incorporan naturalmente todos los eventos corporativos relevantes: quiebras, fusiones, adquisiciones y recomposiciones del índice. Esta metodología captura el rendimiento que un inversor habría obtenido realmente al mantener una posición pasiva en el índice.

Análisis del Sesgo de Supervivencia
Sesgo de supervivencia

LA DESCOMPOSICIÓN REVELADORA DEL SESGO

El backtest sesgado reporta un CAGR del 13.7%, mientras que el RSP registra un 8.1% y el SPY un 8.2%. Esta configuración nos permite, por primera vez, descomponer el sesgo total en sus componentes fundamentales:

  • Sesgo PURO de supervivencia: 5.7% anual (comparando backtest sesgado vs RSP, ambos equiponderados)
  • Efecto de ponderación: -0.1% anual (RSP vs SPY)
  • Sesgo total aparente: 5.5% anual (backtest sesgado vs SPY)

Esta descomposición es metodológicamente crucial. Al comparar «manzanas con manzanas» (equiponderado con equiponderado), aislamos el verdadero costo de ignorar a las empresas que no sobrevivieron: 5.7% anual.

EL IMPACTO COMPUESTO: DE LA ILUSIÓN A LA REALIDAD

El impacto compuesto de este sesgo es devastador. Una inversión inicial de $100 habría crecido a aproximadamente $430 siguiendo el RSP o $440 con el SPY. Sin embargo, el backtest sesgado sugiere erróneamente un valor final superior a $2,100. Esta sobreestimación del 380% en la riqueza terminal ilustra cómo el sesgo de supervivencia puede transformar completamente la percepción de una estrategia.

Lo más revelador es que una estrategia que aparenta generar un alpha del 5.7% anual (backtest vs RSP) en realidad no está agregando valor alguno; toda esa «ventaja» es pura ilusión estadística derivada de mirar solo a los supervivientes.

LA MAGNITUD DEL SESGO SEGÚN LA ESTRATEGIA

La magnitud del sesgo también varía según la estrategia empleada. Las estrategias que favorecen empresas de «alta calidad» o «baja volatilidad» se benefician desproporcionadamente del sesgo de supervivencia, ya que estas características correlacionan positivamente con la probabilidad de supervivencia corporativa. Conversamente, estrategias contrarias o de valor profundo pueden verse penalizadas en exceso por este fenómeno.

ROBUSTEZ A TRAVÉS DE CICLOS ECONÓMICOS

Es crucial reconocer que la comparación RSP vs backtest sesgado elimina las limitaciones metodológicas de comparar diferentes sistemas de ponderación. Ambos son equiponderados, lo que hace que la diferencia del 5,7% sea atribuible exclusivamente al sesgo de supervivencia.

Además, el período analizado (2004-2024) incluye varios ciclos económicos completos, dos recesiones significativas (2008 y 2020) y múltiples crisis de mercado. La consistencia del sesgo a través de estos diversos regímenes refuerza la robustez del hallazgo. Notablemente, el efecto de ponderación (RSP vs SPY) fue prácticamente nulo (-0.1%), contradiciendo la sabiduría convencional de que el equal-weight sistemáticamente supera al cap-weight.

LA LECCIÓN FUNDAMENTAL

Esta triple comparación revela una verdad incómoda pero esencial: el sesgo de supervivencia no es una nota al pie en los estudios de backtesting, es el protagonista oculto que puede hacer que estrategias mediocres parezcan brillantes. La diferencia entre el 13.7% del backtest sesgado y el 8.1% del RSP no es alpha, no es habilidad, no es insight superior; es simplemente el costo de ignorar a los «aviones que no regresaron».

Artículo publicado en el número 64 de la revista Hispatrading. Regístrate en Hispatrading.com de manera completamente gratuita para acceder a más artículos como este.

COMPARTIR EN: