clowner escribió:Buenas,
lo único que esta haciendo tiotino es enchufarle la serie de trades al algoritmo K-MEANS, que es un modelo de ML no supervisado. Básicamente lo que haces es decirle a KM, "oye, tengo un dataset y no tengo ni idea de lo que tengo entre manos, hazme el favor echarle un vistazo y agrupame las observaciones (trades)". Luego tiotino, con los grupos (clusters) que le tira KM, saca las métricas oportunas de cada grupo y comprueba si algún grupo es interesante.
Lo que hace KM es intentar agrupar los datos en función de las distancias entre los miembros (las observaciones) de los grupos (normalmente los agrupa utilizando la distancia euclidea).
@Gratphil, KM no sobreoptimiza por si solo, no esta maximizando o minimizando ninguna función objetivo, el que sobreoptimiza es el usuario cuando empiezas a pedirle a KM que le devuelva 2, 3, 40 o 400 clusters cuando ves que no te aísla lo que quieres, recuerda que a KM le puedes pedir que te devuelva el numero de clusters que te de la gana.
Mucho ojo con K-MEANS, porque puedes pensar que uno de grupos que te devuelve es el santo grial...hay que analizar ciertas métricas para ver si el cluster que te interesa es robusto o no (y aquí entran muchas cosas). Si le pasas a KM un grupo de trades que provienen de un sistema completamente aleatorio y me pides 5 clusters, te los va a devolver.
En resumen, KM, es muy útil pero hay que saber para que lo estamos utilizando. Si no tienes una idea de donde proviene ese grupo de observaciones, que variables independientes tienes, no le veo mucho sentido coger una serie PnL y enchufarsela a KM para que te los agrupe.
Saludos.
Se nota que tienes conocimientos de ML y lo has explicado mejor que yo