¿Históricos infinitos?

emerrf · Mensaje por **emerrf** » 19 Jun 2009 18:36

¿Históricos infinitos?

Hola a todos, ante todo quisiera aprovechar la ocasión para saludar a toda la comunidad de X-Trader. Hace tiempo le comenté una idea a un buen amigo y compañero de trading, la cual le pareció interesante y me sugirió compartirla en el foro con todos ustedes para poder contrarrestar opiniones. No pude estar más de acuerdo con él, así que os explico la idea a continuación.

Un día, buscando extensos datos históricos para intentar desarrollar una estrategia, me vino a la cabeza la siguiente pregunta: ¿existe la manera de poder generar datos que siguen el mismo comportamiento que el mercado? Entonces pensé que si averiguamos la distribución de las variaciones de un activo cualquiera, podríamos intentar aproximar su curva de densidad y una vez obtenida dicha función, podríamos generar números aleatorios siguiendo las mismas probabilidades. Para quienes la estadística no sea su fuerte, simplemente se trata de contar cuantas veces se ha producido una determinada variación al lo largo del histórico y luego generar números aleatorios que sigan la misma frecuencia.

Lo que obtenemos es una serie de datos totalmente diferente pero que teóricamente siga la misma probabilidad que el mercado. Entonces podemos utilizar los datos generados para poner a prueba los sistemas y ver si funciona. Sería como un simulador de mercado. La ventaja es que si generamos nosotros mismos los datos, podemos generar un histórico tan largo como queramos y tantos como queramos. Ya que al ser aleatorios cada serie será distinta pero su distribución será la misma.

A continuación mostrare paso a paso, como he logrado generar dichos números. He utilizado un programa estadístico muy potente y gratuito llamado R para que todo el mundo tenga acceso. También se puede hacer con otros programas comerciales tipo Matlab o Mathematica, pero estoy seguro que preferís no malgastar el “buying power” en licencias de software. Me saltare los pasos de cómo instalarlo, pero si tenéis algun problema, no dudéis en preguntar.

En primer lugar, necesitamos datos históricos de muestra para poder modelizarlos. Podemos utilizar datos de cualquier activo, en este ejemplo utilizaré los precios de cierre diarios del Índice Dow Jones Average desde el año 2000. Para facilitar las cosas, he utilizado el archivo DJA.txt que genera VisualChart cuando queremos exportar los datos del gráfico. (Edité el archivo para tener sólo los datos entre el 2000 y el 2009 para trabajar con menos datos).

Arrancamos R y determinamos nuestro directorio de trabajo de la siguiente manera (para usuarios de Windows): Vamos a Archivo, Cambiar dir… entonces aparecerá una lista de directorios en forma de árbol y seleccionamos nuestro directorio de trabajo. Puede ser cualquiera, es para que el programa sepa donde tenemos los archivos que trabajaremos. Una vez sabemos nuestro directorio de trabajo, colocamos allí el archivo que contiene el histórico (DJA.txt). Con el siguiente comando cargamos los datos:

Código: Seleccionar todo

 historico <- read.table("DJA.txt",dec=".", sep=",",header=T)

La instrucción asigna a la variable “historico” los datos del documento DJA.txt sabiendo que la el punto separa los decimales, que las columnas están separadas por comas y que la primera fila es la cabecera. Para comprobar que tenemos los datos podemos visualizar las 5 primeras filas utilizando la siguiente instrucción:

Código: Seleccionar todo

 historico[1:5,]

Observamos que la columna 8 contiene los datos del cierre, y son los que nos interesan. La siguiente instrucción separa la columna 8 en un vector denominado “dja”:

Código: Seleccionar todo

 dja <- historico[,8]

Para ver un gráfico lineal de los datos de cierre podemos ejecutar el comando:

Código: Seleccionar todo

 plot(dja, type="l")

Para calcular las variaciones realizamos el siguiente proceso
Calculamos el tamaño de la variable dja:

Código: Seleccionar todo

 length(dja)

Sabemos que el tamaño es 2372, entonces necesitamos un vector con una longitud 2371 para colocar las variaciones y luego realizar el cálculo con un bucle:

Código: Seleccionar todo

 vardja <- 1:(length(dja)-1)

Código: Seleccionar todo

 for(i in 2:length(dja)) vardja[i-1]=(dja[i]-dja[i-1])/dja[i-1]

Para comprobar que el cálculo es correcto podemos visualizar los 10 primeros valores de “dja” y “vardja”

Código: Seleccionar todo

 dja[1:10]; vardja[1:10]

Vamos a ver un gráfico de las variaciones y su histograma:

Código: Seleccionar todo

 plot(vardja, type=”l”)

El gráfico muestra claramente el paseo aleatorio o movimiento browniano característico de los mercados financieros. En pocas palabras, la idea consiste en que las variaciones del mercado son puramente aleatorias e independientes entre ellas, esto imposibilita predecir futuras fluctuaciones. Esta idea se opone a la tradicional teoría de Dow y del análisis técnico en general, porque se basan en que las variaciones no son puramente aleatorias y sí siguen unos ciclos que mediante la experiencia pueden ser “reconocidos”.

Después de este inciso, visualizamos el histograma, el cual representa gráficamente la frecuencia en que se dan las variaciones. Los parámetros hacen que el grafico muestre las frecuencias relativas, que se divide la muestra en 100 intervalos y que el eje de las ordenadas vaya de 0 a 50..

Código: Seleccionar todo

 hist(vardja, prob="T", breaks=100, ylim=c(0,50))

A simple vista se puede observar que la distribución de variaciones se ajusta a una distribución Normal, entonces se podría pensar que generando número aleatorios utilizando una distribución normal nos resultaría de igual utilidad. No es así, el objetivo es aproximarnos al máximo a la distribución real del mercado, por lo tanto tenemos que ajustar la recta de densidad al histograma anterior.
El programa R tiene la función “density()” que genera un objeto con la función de densidad, sin embargo, utilizare el paquete “Logspline” ya que genera una curva más suave y dispone del generador de número aleatorios que permite determinar que función de densidad utilizar a la hora de generarlos.

Código: Seleccionar todo

 install.packages("logspline", dependencies=TRUE)

Aparecerá una ventana con una lista de países con ciudades, seleccionad el que queráis. Se trata de la lista de servidores espejo que contienen el CRAN, sirve para tener copias redundantes de todos los paquetes del programa R. Una vez tenéis el paquete instalado, lo “cargamos” para poder utilizar las funciones. Se realiza con el siguiente comando:

Código: Seleccionar todo

 library(logspline)

Todos los paquetes incluidos en R tienen documentación. Para acceder a ella escribid: help(logspline) y aparecerá una ventana de ayuda.
La variable dvardja contendrá el objeto con la función de densidad ajustada:

Código: Seleccionar todo

 dvardja <- logspline(vardja)

Para visualizar los resultados, ejecutamos:

Código: Seleccionar todo

 hist(vardja, prob="T", breaks=100, ylim=c(0,50))
 plot.logspline(dvardja, add="T")

Perfecto, observad como se ajusta la recta al histograma. Ahora solo nos falta generar una serie de “variaciones aleatorias” que siguen la misma probabilidad. Generaremos el mismo número de variaciones para luego poder comparar:

Código: Seleccionar todo

  rvardja <- rlogspline(length(vardja), dvardja)

Para visualizar los resultados:

Código: Seleccionar todo

 hist(rvardja, prob="T", breaks=100, ylim=c(0,50))

Y si quereis dibujar la función de densidad utilizada:

Código: Seleccionar todo

 plot.logspline(dvardja, add="T")

Para poder ver estos número como un gráfico de cotizaciones hay que acumular las variaciones. Tomaremos como punto de referencia el cierre de dja en el primer registro y luego aplicaremos las variaciones sucesivamente:

Código: Seleccionar todo

acumrvardja <- 1:(length(rvardja)+1) 
acumrvardja[1]=dja[1]
for(i in 2:length(acumrvardja)) acumrvardja[i]=acumrvardja[i-1]*(rvardja[i-1]+1) 
plot(acumrvardja, type="l")

Perfecto, ya tenemos la serie de cierres generados. Es curioso, hemos creado un gráfico de cotización a partir de datos totalmente aleatorios y seríamos capaces de reconocer figuras pertenecientes al análisis técnico o charlista e incluso algunos se aventurarían a pronosticar una posible evolución del “precio”.
Ahora solo nos queda exportar los datos para poder trabajar con nuestra aplicación de estrategias:

Código: Seleccionar todo

 write.table(acumrvardja,"rDJA.txt",dec=".", sep=",")

Se creará un archivo rDJA.txt en nuestro directorio de trabajo con 2 columnas, la primera es el índice del vector y la segunda contiene los valores generados.
A continuación se exponen unos gráficos para comparar los datos originales con los datos obtenidos:
Imagen

Me despido agradeciendo vuestro interés y ya sabéis que cualquier crítica u opinión será bienvenida,

Saludos

Emer

Man Apart · Mensaje por **Man Apart** » 19 Jun 2009 23:12

No tengo palabras. Bueno , si.
Me parece impresionante tu iniciativa
A mi jamas se me habría ocurrido, de hecho tengo reparos en asumir que sea valido el resultado de lo que expones. Me explico.

Si de datos datos buenos obtengo como derivada primera un sistema que se adapta a los movimientos futuros. Sera igual de bueno si mi sistema es la derivada segunda ?

A mas ,a mas , los datos primigenios son fruto de sentimientos, crisis, noticias, ambiente socio-politico-economico, luego tambien son derivados.

En fin , no se. Pero tambien me surge otra cuestion. si los datos son fiables hacia atras, tabien lo serían hacia delane ¿no ?.

En cualquier caso , me parece muy interesante el asunto .

guevon · Mensaje por **guevon** » 19 Jun 2009 23:34

Ante todo Bienvenido, veo que es el mensje numero uno.

Interesante idea la que planteas, si yo, que soy el mas cazurro del foro he entendido lo siguiente.

-Si tenemos unos datos historicos de un movimiento de precio cualquiera.

-Con un programa que nos busque los multiples patrones que ha podido generar dicho precio a lo largo de ese historico.

-Podemos generar una estadistica de probabilidad de movimiento o situacion con la que sbremos en todo momento cual es la probabilidad mayor que corresponde al momento siguiente en el que estamos.

Esto es lo que yo he entendido.

Por eso digo que es interesante en su concepcion como idea, en su desarrollo es otro cantar.

De todas formas bienvenido, y adelante con el desarrollo de la idea si es la que yo te he simplificado.

Un saludo.

S2.

polxx · Mensaje por **polxx** » 19 Jun 2009 23:59

Supongamos un activo como el IBEX35, en el cual ganan los sistemas tendenciales (y pierden los antitendenciales) porque el grafico hace movimientos de largo recorrido, mas veces que movimientos cortos que lo que cabria esperar de una serie aleatoria, osea forma distribucion platicurtica.

Entonces de algun modo detectas esa desviacion en los mivimientos, las replicas en un grafico similar pero mas largo, y analizas ese grafico.

Finalmente estas analizando el mismo ibex35, asi que lo mismo te da. Pero no solo eso, si no que te estas dejando sin analizar otros factores, por ejemplo el 1º de mes en ibex 35 es alcista, y en tu serie artificial no sera alcista, porque al generarlo no lo tuviste en cuenta. O el hueco desdce un dia para otro en ibex35 es alcista, en tu serie artificial no lo es porque no lo has tenido en cuenta al crear la serie.

watermelon · Mensaje por **watermelon** » 20 Jun 2009 05:09

Grandisima exposición!!

Muy interesante el hecho de poder crearte tu propio "historico infinito",para probar distintas estrategias que te surjan o distintos sistemas automaticos.

Es decir a la practica es como tener tu propia simulacion de Montecarlo para probar como funcionaria tu sistema en infinitos años,pero en plan más realista,puesto que el estudio arroja un sincero gráfico de probabilidades aleatorias tales como son los mercados financieros.

Puestos a pedir,a mi me gustaria tenerlo para poderlo poner en practica en Visual Chart,puesto que es la plataforma en la que trabajo,no se si seria posible,

solo añadir ...felicidades por el excelente trabajo

Mensaje por **X-Trader** » 20 Jun 2009 16:57

Bienvenido al Foro, emerrf. Excelente post para presentarte, la verdad es que yo hace mucho tiempo traté de hacer lo que propones con las herramientas que Matlab y @Risk traen de serie para ajustar distribuciones pero no conseguí resultados útiles.

Desconocia esta función de logspline de R, sabes si en Matlab hay algo parecido??? Desde hace tiempo estoy enfadado con R

Saludos,
X-Trader

polxx · Mensaje por **polxx** » 20 Jun 2009 17:09

juer, soy el unico que piensa como piensa?
otro ejemplo, hacemos un sistema continuo ya sea tendencial o antitendencial, y el sistema medio que gana algo. Entonces añadimos filtro horario, osea elejimos las mejores horas del dia donde historicamente mejor ha funcionado. Ese filtro es uno de los mejores a tener en cuenta. Entonces estamos estudiando el mercado real real, sus diferencias a diferentes horas del dia, cosa que es aprovechable.

Como hacemos eso con un historico artificial? las horas ya no tendran sentido y por tanto no podremos aprovecharnos de ello.

emerrf · Mensaje por **emerrf** » 21 Jun 2009 01:27

Ante todo, gracias por vuestras opiniones. Contesto de forma genérica a vuestras observaciones.

Todas las variables socio-económicas se reflejan en el precio, es decir, si se produce una noticia desfavorable y baja el precio un 7%, esto se refleja en los datos del mercado. Como la serie generada se basa únicamente en los datos del mercado dados, también dará variaciones del 7% simulando momentos de alta volatilidad. Lo que no verás es una subida del 20% porque en los datos del mercado no se ha producido.

El objetivo no es predecir variaciones futuras ya que sería imposible al suponer que las variaciones son puramente aleatorias. Lo que hacemos es “extender” las variaciones con el mismo comportamiento errático.

Si miramos el gráfico de variaciones, no podemos ver ningún patrón ya que sigue un proceso estocástico de ruido blanco. La única diferencia que veo es la volatilidad. En el gráfico del mercado se puede ver que desde la observación 900 hasta la 1700 la volatilidad es baja y las variaciones son cortas mientras que a partir de las observación 2000, las variaciones son largas debido el aumento de volatilidad de los últimos meses. Si observamos las variaciones de la serie generada, los movimientos son altos y bajos a lo largo del todo el periodo.

Intentaré averiguar si se puede incluir una serie personalizada en VisualChart pero creo que es poco flexible en esos aspectos.

Respecto a Matlab, yo también intente hacer lo mismo. Todo es acostumbrarse a las herramientas. Lo bueno de Matlab es que tiene toolboxes para todo tipo de cálculos, es muy flexible e intervienen más las Tools con GUIs. Para realizar lo que hice en R, hay una herramienta llamada “dfittool”. Esta herramienta permite que teniendo una serie de datos, Matlab te calcule funciones de densidad y de distribución con 4 clicks. Pongo captura de pantalla: (Importante hacer tick2ret(DJA) para obtener las variaciones)
Imagen

Dfittools pertenece al paquete de Statistics pero hay otros como Curve Fitting y Spline que también tendrán funciones interesantes. Lamento no poder concretar más ya que no he experimentado demasiado con las toolboxes.

Me gustaría preguntarte si utilizas Matlab para crear y ejecutar las estrategias en el caso de que hicieras estrategias automatizadas. Matlab es muy flexible y seguro que se podría programar de manera tal para que diera señales, no obstante, no se por donde empezar. Me interesa adaptar Matlab para el desarrollo de sistemas porque me permitiría crear cualquier sistema con cualquier idea, pero hay que crear todo desde cero. Además, existe un plug-in que permite aprovechar la tecnología CUDA para agilizar los cálculos. En fin, por algo será que los analistas cuantitativos utilizan Matlab para buscar sus estrategias.

Saludos

Emer

buhosabio · Mensaje por **buhosabio** » 13 Jul 2009 04:08

emerrf,

Me ha gustado tu análisis, he disfrutado mucho leyéndolo con el código en R y todo detallado. Me gustaría indicarte algunas cuestiones:

El histograma no es el mismo. Es el caso expuesto en por Mandelbrot en sus libros. Si te fijas, tus datos generados sí que siguen un comportamiento normal, la homocedasticidad se nota en el histograma. Con los datos reales hay varios periodos: calma, intensidad... Ahí es donde las hipótesis fallan: NO HAY INDEPENDENCIA, y las distribuciones no son normales.

Lo que has hecho es aproximar una distribución marginal de la variable "Precio del día", por lo que, aunque esta marginal se parezca mucho a una normal (tanto como para ser considerada tal -Jarque Bera-), la distribución conjunta de todos los días puede ser cualquier cosa (multivariante). De ahí esa heterocedasticidad que aparece en el gráfico real.

Te aconsejo que leas a Mandelbrot. Mis behavior of markets es muy ameno. Si quieres meterte con modelos fractales tienes todo mi apoyo (podríamos tomar unas cañas). Otra forma de abordar este problema es mediante distribuciones Pareto o aberraciones de la misma (modelos de colas largas), y eliminando la hipótesis de independencia. Una tercera que se usa bastante (aunque no es tan buena para mi gusto) es usar mixturas de normales para estimar la distribución desconocida.

Por último, la pregunta fundamental: Si aceptas las hipótesis del mercado eficiente (independencia básicamente), por qué generas datos con destino a pruebas de estrategias de mercado si estás asumiendo que no hay patrones y no puedes sacar dinero?

Un saludo.

bolsa1 · Mensaje por **bolsa1** » 13 Jul 2009 10:09

Antes de nada, felicitaciones por el hilo, tanto si al final sacamos conclusiones válidas como si no, el trabajo es interesantísimo, y que lo compartas con nosotros muy de agradecer.

buhosabio escribió: Lo que has hecho es aproximar una distribución marginal de la variable "Precio del día", por lo que, aunque esta marginal se parezca mucho a una normal (tanto como para ser considerada tal -Jarque Bera-), la distribución conjunta de todos los días puede ser cualquier cosa (multivariante). De ahí esa heterocedasticidad que aparece en el gráfico real.

BuhoSabio, mi pregunta tiene más que ver con mi ignorancia, no quiero que parezca una corrección... es que yo pensaba que precisamente en la homocedasticidad estaría el error, por ello los resultados me parecen más fiables dándole aleatoriedad... cosa que parece producirse viendo el resultado final. Podrías explicarte un poco mejor para los que no estamos tan duchos en el tema, que me interesa tu corrección.

Saludos!

buhosabio · Mensaje por **buhosabio** » 13 Jul 2009 13:47

Hola bolsa1

Lo primero añado una corrección a mi anterior mensaje, donde dije "Precio del día" quería decir "variación del día" (dije digo, digo Diego).

Mis cuestiones son las mismas que ha planteado otra gente desde hace mucho, con Mandelbrot a la cabeza, al modelo de Bachelier (1900).

En concreto, el análisis de emerrf tiene unas hipótesis iniciales implícitas: que los datos generados son independientes y homocedásticos. Entonces la distribución conjunta de todos los días (todo el proceso estocástico) es la multiplicación de las distribuciones de cada día, que son iguales. Entonces, si son iguales, cada valor de la variación es una extracción de una misma distribución, con lo que podemos estimarla con los datos que tenemos, en este caso con splines. En este caso, resulta que el resultado final se asemeja a una distribución normal (no es de extrañar, con estas hipótesis, era muy probable que la ley de los grandes números entrara en escena, que nos dice que vamos a acabar en una normal).

Ahora, nos enfrentamos al clásico problema en Estadistica. Más allá de la potencia de nuestras herramientas, ¿son nuestras hipótesis válidas? Mucha gente ha encontrado que no. Los mercados se rigen por impulsos (noticias, pj) seguidos de estabilidad, y así. Esto elimina directamente la hipótesis de la independencia (los días no son independientes unos de otros). Por tanto, la distribución conjunta no es el producto de las marginales, que no tienen por qué ser iguales entre ellas, y no podríamos usar los datos de cada día para estimar la marginal del día, porque no existiría tal marginal del día, sino que cada día tendría una distribución marginal distinta.

Un ejercicio muy didáctico sería probar eso pasando la serie original por un análisis de series temporales y ver que los procesos no son los mismos (supongo).

Pero lo que más me llama la atención es la pregunta fundamental: El reconocer que el mercado es un paseo aleatorio que no da información pero tratar de utilizarlo para probar estrategias que se basan en capturar información.

bolsa1 · Mensaje por **bolsa1** » 13 Jul 2009 13:56

buhosabio escribió:
Pero lo que más me llama la atención es la pregunta fundamental: El reconocer que el mercado es un paseo aleatorio que no da información pero tratar de utilizarlo para probar estrategias que se basan en capturar información.

Creo que te entiendo. A pesar de lo expuesto, ¿no piensas que tal vez los microcomportamientos intradía sí estén bien reflejados, y para cierto tipo de estrategias las pruebas tendrían validez? ¿O por el contrario esta aleatoriedad sólo nos deja la opción de la intentar interpretar el comportamiento en cada momento por separado?

Saludos y gracias por la explicación.

buhosabio · Mensaje por **buhosabio** » 13 Jul 2009 14:40

No es que estén bien reflejados o no, es que si partes de esas hipótesis, estas rechazando que puedas usar esos datos para ganar dinero. Los puedes usar para valoración de opciones, como Black-Scholes, donde construyen todo un entramado de heging contínuo. Pero no para adivinar tendencias ni nada más.

Yo no digo que los datos reales no tengan información! Sólo digo que si haces ese análisis estás diciendo que no, y tus datos de simulación no te va a valer nada de nada para probar tus estrategias.

Yo supongo que los datos intradía llevan muchísima información, fácil o difícil de sacar para el que pueda. Pero si empiezas a asumir independencia y aleatoriedad, tus resultados no te van a servir para negociar.

Un saludo.

buhosabio · Mensaje por **buhosabio** » 27 Jul 2009 00:35

Creo que este artículo es interesante para describir el proceso.
Mandelbrot hacía test a renombrados chartistas para que pillaran los charts artificiales creados con modelos multifractales de los reales.
En concreto en la página 3 está este tipo de test. La primera serie en diferencias (figura 2) está claro que es una serie de ruido blanco (normal). Fijaros qué diferencia con respecto al resto.

emerrf · Mensaje por **emerrf** » 07 Sep 2009 10:34

Ante todo disculpad por el retraso en contestar. Buhosabio te estoy eternamente agradecido por los comentarios que has realizado. Comentaste la idea de Mandelbrot e investigué un poco. Me leí el pdf, fui a la biblioteca y encontré "Fractales y Finanzas" de Benoît Mandelbrot, empezé a leerlo y me di cuenta de que me estaba dando respuesta a todas mis dudas e ideas! Es como si te abrieran los ojos. Lo explica todo de manera sencilla, desde el inicio de Bachelier, como bien dices, hasta sus descubrimentos analizando los precios del trigo. Es muy interesante y lo recomiendo a todo el mundo que este interesando en esta cuestión. Es impresionante darse cuenta de lo que cree todo el mundo no se ajusta a la realidad de los mercados y él se da cuenta (que ya es mucho) y plantea la idea de fractales. El libro anterior, explica la idea, sin entrar en demostraciones ni formulas matemáticas. Ahora buscare alguno que explique como lo hace detalladamente. Creo que Fractals and Scaling In Finance, lo hace.
Buhosabio, veo que has indagado sobre el tema, conoces alguna publicación que explique más sobre el tema? y como aplicarlo utilizando el ordenador? Muchas gracias de nuevo!

Emer