Cómo hacer backtesting de una estrategia sin engañarte

Qué es el backtesting y por qué es importante

El backtesting es el proceso de aplicar una estrategia de trading a datos históricos de precios para evaluar cómo se habría comportado en el pasado. Es lo más parecido que tiene un trader a un experimento de laboratorio: defines un conjunto de reglas, les proporcionas datos históricos del mercado y mides los resultados. Sin el backtesting, básicamente estás apostando tu capital basándote en corazonadas y evidencia anecdótica.

El propósito del backtesting no es predecir el futuro. Los mercados no son estacionarios y ninguna cantidad de pruebas históricas garantiza resultados futuros. En cambio, el backtesting cumple tres funciones críticas. Primero, te indica si una estrategia tiene alguna ventaja estadística en absoluto. Si una estrategia no puede producir una esperanza matemática positiva en datos históricos, no hay razón para creer que funcionará en el futuro. Segundo, revela las características de comportamiento de una estrategia: qué tan profundos son los drawdowns, cuánto duran las rachas de pérdidas y qué tan volátil es la curva de equidad. Esta información es esencial para determinar si puedes manejar psicológicamente el sistema de trading. Tercero, proporciona un punto de referencia contra el cual puedes comparar el rendimiento en vivo. Si tus resultados en tiempo real se desvían significativamente de las expectativas del backtesting, algo ha cambiado y debes investigar.

Cada firma de trading profesional, fondo de cobertura y mesa de prop trading realiza backtesting de sus estrategias antes de comprometer capital real. Los traders minoristas que se saltan este paso están en una desventaja enorme. Sin embargo, un backtesting mal realizado es peor que no hacer nada, porque crea una falsa confianza en estrategias que fallarán en los mercados reales.

Errores comunes de backtesting que inflan los resultados

El error más peligroso en el backtesting es el curve fitting, también conocido como sobreajuste o minería de datos. Esto ocurre cuando optimizas los parámetros de una estrategia de forma tan agresiva que se ajusta perfectamente a los datos históricos, pero captura el ruido en lugar de patrones genuinos del mercado. Una estrategia con curve fitting podría mostrar tasas de acierto del 80% y retornos espectaculares en datos históricos, pero fallará miserablemente en el trading real porque ha sido ajustada para coincidir con fluctuaciones aleatorias que no se repetirán.

El curve fitting es insidioso porque se siente como una investigación legítima. Pruebas un cruce de medias móviles con periodos 10 y 20, y funciona bien. Pruebas 12 y 23, y funciona mejor. Pruebas 13 y 27, y funciona aún mejor. Antes de que te des cuenta, habrás probado cientos de combinaciones y seleccionado la que produjo los mejores resultados históricos. Pero lo único que has hecho realmente es encontrar los parámetros que casualmente se alinearon con el ruido pasado. Cuantos más parámetros optimices, mayor será el riesgo de sobreajuste. Una estrategia con dos parámetros es mucho más robusta que una con doce.

El sesgo de anticipación (look-ahead bias) es otro error común. Esto ocurre cuando tu backtesting utiliza información que no habría estado disponible en el momento de la operación. Por ejemplo, usar el precio de cierre diario para tomar una decisión de trading durante el día, o incorporar la publicación de un dato económico antes de que fuera realmente publicado. El sesgo de anticipación es fácil de introducir accidentalmente, especialmente en backtestings basados en hojas de cálculo. Pregúntate siempre: en el momento exacto en que se dispara esta señal de trading, ¿realmente habría tenido acceso a todos los datos que el modelo está utilizando?

El sesgo de supervivencia (survivorship bias) afecta principalmente a los traders de acciones, pero también puede impactar a los traders de forex que prueban canastas de pares de divisas. El sesgo de supervivencia ocurre cuando tu conjunto de datos solo incluye instrumentos que aún existen hoy, excluyendo aquellos que fueron deslistados, fusionados o eliminados. En forex, esto se manifiesta cuando solo pruebas pares que actualmente tienen buena liquidez, ignorando el hecho de que algunos de esos pares podrían haber tenido características o spreads muy diferentes en periodos anteriores. Asegúrate siempre de que tus datos históricos reflejen con precisión las condiciones que existían en ese momento.

Si tu backtesting parece demasiado bueno para ser verdad, casi con seguridad lo es. Los analistas cuantitativos profesionales sospechan de cualquier estrategia que muestre un ratio de Sharpe superior a 2.0 en el backtesting, porque la fricción del mundo real casi siempre degrada el rendimiento.

Configuración de un backtesting adecuado

Un backtesting riguroso comienza con reglas claramente definidas y sin ambigüedades. Cada aspecto de la estrategia debe especificarse de antemano: condiciones de entrada, condiciones de salida, ubicación del stop-loss, objetivos de take-profit, dimensionamiento de la posición y cualquier filtro o condición que impida operar. Si alguna parte de tu estrategia requiere un juicio subjetivo (como "la tendencia parece fuerte" o "el patrón de velas es claro"), no se puede realizar un backtesting adecuado. Los elementos discrecionales deben convertirse en reglas cuantificables.

Herramientas de trading profesionales gratuitas

Más de 18 calculadoras, señales y análisis

La calidad de tus datos importa enormemente. Para el backtesting en forex, necesitas datos de ticks o, como mínimo, barras de un minuto si estás probando estrategias intradía. Las barras diarias son suficientes para sistemas de swing trading y de posición, pero pueden ocultar la acción del precio intradía que habría activado los stops. Ten en cuenta el spread: muchas fuentes de datos gratuitas solo proporcionan el precio medio (mid-price), pero en la realidad compras al ask y vendes al bid. Para pares mayores como EUR/USD, un spread de 1 pip puede parecer trivial, pero a lo largo de cientos de operaciones impacta significativamente los resultados. Para pares exóticos, los spreads pueden ser de 5 a 15 pips y afectarán materialmente el rendimiento.

Los costos de transacción son el asesino silencioso de las estrategias probadas en backtesting. Tu backtesting debe tener en cuenta spreads, comisiones, slippage (deslizamiento) y tasas de swap para posiciones nocturnas. El slippage es particularmente importante para estrategias que operan durante eventos de alta volatilidad o usan órdenes de mercado. Una estimación razonable para pares mayores es de 0.5 a 1 pip de slippage por operación en condiciones normales y de 3 a 5 pips durante eventos noticiosos. Si la ventaja de tu estrategia desaparece cuando añades costos de transacción realistas, no tienes una ventaja operable.

Define el periodo de la muestra: Usa al menos 5-10 años de datos para estrategias diarias, o al menos 2-3 años para estrategias intradía. La muestra debe incluir diferentes regímenes de mercado: periodos de tendencia, de rango, volátiles y tranquilos.
Divide tus datos: Reserva al menos el 30% de tus datos para pruebas fuera de muestra (out-of-sample). Nunca optimices sobre el conjunto de datos completo.
Documéntalo todo: Registra cada regla, parámetro y supuesto antes de comenzar. Si cambias algo a mitad de la prueba, comienza de nuevo con una separación limpia de datos dentro y fuera de la muestra.
Usa supuestos de ejecución realistas: No asumas que siempre podrás ejecutar al precio exacto que deseas. Las órdenes límite pueden no llenarse. Las órdenes stop pueden sufrir deslizamiento.

Explicación del análisis Walk-Forward

El análisis walk-forward es el estándar de oro para validar una estrategia de trading y la defensa más efectiva contra el curve fitting. El concepto es sencillo: en lugar de optimizar tu estrategia en todo el conjunto de datos, la optimizas en una ventana de datos rodante y luego pruebas los parámetros optimizados en los datos subsiguientes no vistos. Este proceso se repite varias veces, deslizando las ventanas de optimización y prueba hacia adelante en el tiempo.

Así es como funciona en la práctica. Supongamos que tienes 10 años de datos de 2014 a 2024. Podrías optimizar tu estrategia en los primeros 2 años (2014-2015) y luego probar los parámetros resultantes en los siguientes 6 meses (enero-junio 2016). Luego deslizas la ventana: optimizas desde mediados de 2014 hasta 2016, y pruebas en la primera mitad de 2017. Continúas este proceso hasta que hayas probado la estrategia en todo el conjunto de datos restante utilizando parámetros que siempre fueron optimizados solo en datos previos.

La idea clave del análisis walk-forward es que simula lo que realmente harías en el trading real: optimizar periódicamente tu estrategia basándote en datos recientes y luego operarla hacia adelante. Si una estrategia produce resultados positivos de manera consistente a través de múltiples ventanas de walk-forward, demuestra una robustez genuina. Si solo funciona en ciertas ventanas, es probable que la estrategia esté sobreajustada a condiciones de mercado específicas. El análisis walk-forward también revela con qué frecuencia necesitas reoptimizar los parámetros, lo cual es información operativa valiosa para el trading en vivo.

Una estrategia que supera el análisis walk-forward con métricas consistentes en todas las ventanas tiene una probabilidad dramáticamente mayor de éxito en el trading real que una que simplemente fue optimizada en el conjunto de datos completo. El walk-forward no es opcional para el desarrollo serio de estrategias; es un requisito.

Pruebas fuera de muestra y por qué son críticas

Las pruebas fuera de muestra (out-of-sample) consisten en reservar una parte de tus datos históricos que nunca se utiliza durante el desarrollo u optimización de la estrategia. Este conjunto de datos intacto sirve como una validación independiente de tu estrategia. Si la estrategia funciona bien en datos que nunca ha "visto", tienes una evidencia mucho más sólida de que captura un patrón de mercado genuino en lugar de ruido aleatorio.

El enfoque más común es dividir tus datos en tres segmentos: un periodo dentro de la muestra (in-sample) para el desarrollo y la optimización, un periodo de validación para pruebas preliminares y refinamiento de parámetros, y un periodo final fuera de la muestra que pruebas exactamente una vez. La prueba fuera de muestra es tu examen final. No puedes volver a tomarlo. Si usas los resultados fuera de muestra para volver atrás y ajustar tu estrategia, esos resultados ya no son fuera de muestra; se han convertido en parte de tu proceso de optimización y has contaminado tu prueba.

Esta disciplina es psicológicamente difícil. Después de pasar semanas desarrollando una estrategia que parece prometedora dentro de la muestra, la tentación de "solo echar un vistazo" a los datos fuera de la muestra es intensa. Resístela por completo. Muchos analistas cuantitativos profesionales separan físicamente los datos fuera de la muestra, guardándolos en una ubicación diferente o haciendo que un colega los custodie, específicamente para evitar mirarlos. La integridad de tu prueba fuera de muestra es la pieza de evidencia más valiosa que tienes sobre la viabilidad de tu estrategia.

Explora las ideas de trading en vivo

Mira lo que observan los traders experimentados

Una técnica relacionada es la validación cruzada (cross-validation), tomada del aprendizaje automático. En lugar de una única división de entrenamiento y prueba, divides los datos en múltiples pliegues y rotas cuál sirve como conjunto de prueba. Aunque es más sofisticada, la validación cruzada puede introducir un sesgo de anticipación sutil en datos de series temporales si no se implementa con cuidado, porque los datos financieros tienen dependencias temporales que el barajado aleatorio puede violar. Usa métodos de validación cruzada bloqueados o purgados que respeten el orden temporal de tus datos.

Métricas clave para evaluar un backtesting

Demasiados traders se obsesionan con la tasa de acierto (win rate) como la medida principal de la calidad de una estrategia. La tasa de acierto aislada no tiene sentido. Una estrategia que gana el 90% de las veces pero pierde 10 veces la ganancia promedio en cada pérdida será catastróficamente no rentable. Por el contrario, las estrategias de seguimiento de tendencia suelen ganar solo el 30-40% de sus operaciones, pero siguen siendo altamente rentables porque sus ganadores son muchos múltiplos de sus perdedores. Debes evaluar la tasa de acierto junto con el tamaño promedio de la ganancia y el tamaño promedio de la pérdida para entender el panorama completo.

El ratio de Sharpe mide los retornos ajustados al riesgo dividiendo el retorno excedente de la estrategia (por encima de la tasa libre de riesgo) por la desviación estándar de los retornos. Un ratio de Sharpe por encima de 1.0 se considera aceptable, por encima de 1.5 es bueno y por encima de 2.0 es excelente. Sin embargo, sé escéptico con los ratios de Sharpe en backtesting superiores a 2.5; casi siempre se degradan en el trading real. El ratio de Sharpe asume retornos distribuidos normalmente, lo cual no es cierto para la mayoría de las estrategias de trading, así que compleméntalo con otras métricas.

El drawdown máximo es la mayor caída desde un pico hasta un valle en tu curva de equidad, medida como un porcentaje. Esta es posiblemente la métrica más importante para el trading práctico porque te indica el peor dolor que habrías experimentado. Si tu backtesting muestra un drawdown máximo del 40%, deberías esperar drawdowns del 50-60% en el trading real (porque el trading real casi siempre rinde peor que los backtestings). Pregúntate honestamente: ¿puedes seguir ejecutando la estrategia después de ver cómo se evapora la mitad de tu cuenta? Si la respuesta es no, necesitas reducir el tamaño de tus posiciones hasta que el drawdown sea tolerable.

Factor de beneficio (profit factor): Ganancias brutas divididas por pérdidas brutas. Un factor de beneficio por encima de 1.5 es sólido. Por debajo de 1.2 puede no sobrevivir a los costos de transacción y al deslizamiento en el trading real.
Esperanza matemática (expectancy): La cantidad promedio de dinero que esperas ganar por operación. Se calcula como (tasa de acierto x ganancia promedio) menos (tasa de pérdida x pérdida promedio). Debe ser positiva y lo suficientemente grande como para cubrir los costos de transacción.
Factor de recuperación: Beneficio neto dividido por el drawdown máximo. Un factor de recuperación por encima de 3.0 indica que la estrategia gana lo suficiente en relación con su peor drawdown para ser resiliente.
Número de operaciones: La significancia estadística requiere un tamaño de muestra grande. Una estrategia probada en 30 operaciones no tiene sentido. Apunta a al menos 200-300 operaciones para sacar conclusiones fiables.
Máximas pérdidas consecutivas: Importante para la resiliencia psicológica. Si tu backtesting muestra 12 pérdidas consecutivas, debes estar preparado para 15-20 seguidas en el trading real.

Del backtesting al real: Paper Trading y escalado gradual

Incluso una estrategia minuciosamente probada y validada no debe desplegarse a tamaño completo de inmediato. La transición del backtesting al trading real requiere pasos intermedios que muchos traders se saltan en su propio perjuicio. El primer paso es el paper trading, también llamado forward testing o trading en demo. Ejecuta tu estrategia en tiempo real en una cuenta demo durante al menos 2-3 meses, ejecutando cada señal exactamente como dictan tus reglas. El paper trading sirve para varios propósitos: verifica que tu proceso de ejecución funcione en tiempo real, revela cualquier problema práctico (como señales que se disparan durante horas de poca liquidez) y comienza a construir la familiaridad psicológica que necesitas para operar el sistema con disciplina.

Durante el paper trading, compara tus resultados rigurosamente con tus expectativas de backtesting. Realiza un seguimiento de las mismas métricas: tasa de acierto, ganancia y pérdida promedio, ratio de Sharpe y drawdown máximo. Se espera cierta degradación porque los spreads reales, el deslizamiento y el tiempo diferirán de los supuestos del backtesting. Si los resultados están dentro del 15-20% de las expectativas del backtesting, la estrategia está funcionando como se esperaba. Si los resultados son dramáticamente diferentes, investiga por qué antes de arriesgar capital real. Las causas comunes de divergencia incluyen supuestos de ejecución irreales en el backtesting, cambios en el régimen del mercado o errores de ejecución.

Una vez que el paper trading confirme que la estrategia funciona en tiempo real, comienza a operar en vivo con un tamaño mínimo. Opera con microlotes o el tamaño de posición más pequeño que permita tu bróker. El objetivo no es ganar dinero en esta etapa; es verificar que la estrategia funcione con dinero real y emociones reales. Muchos traders descubren que no pueden ejecutar su estrategia fielmente cuando hay dinero real en juego: se saltan operaciones, mueven los stops, toman ganancias demasiado pronto o dudan en las entradas. Estas desviaciones de comportamiento degradarán el rendimiento y deben abordarse antes de escalar.

Escala el tamaño de tus posiciones gradualmente durante 3-6 meses, aumentando solo después de haber acumulado un número estadísticamente significativo de operaciones reales que confirmen las expectativas del backtesting. Una progresión razonable podría ser: microlotes para las primeras 50 operaciones, minilotes para las siguientes 100 operaciones y el tamaño total previsto solo después de que más de 200 operaciones demuestren resultados consistentes. Este enfoque protege tu capital durante la fase más vulnerable del despliegue de la estrategia y construye la confianza y disciplina requeridas para el éxito a largo plazo.

El puente entre el backtesting y el trading real rentable está pavimentado con paciencia. Los traders que corren desde un backtesting prometedor hacia el trading real a tamaño completo son los mismos que queman sus cuentas. Trata la transición como un proceso que toma meses, no días.