Модели полностью построены по "теория машинного обучения". Результат получается из следующего процесса: строится куча базовых моделей (по одной для каждого входного параметра - пока тренируюсь на линейных) - кросс-валидация базовых моделей - бустинг - конечная модель-предсказатель. Такой процесс серьезно снижает вероятность переподгонки, поскольку фактически все данные бьются на три не пересекающиеся части - тренировочную для построения базовых моделей, тестовую для кросс-валидации базовых моделей, и на последней, третьей части проводится оценка успеха/неуспеха окончательной модели, полученной с выхода бустинга. Пришлось подумать, чтобы вклеить в модель расчет размера позиции с учетом транзакционных издержек. В принципе, вся модель может работать в риалтайме, постоянно корректируя размер позиции.
Вот что получается на дневках Сбербанка, последние три года, шкала логарифмическая, игра в обе стороны. Включены транзакционные издержки 0.1% на круг.
Каждая точка посчитана на данных, предшествующих ей и не включающих ее (первой точке предшествовало 2 года данных). Корреляция предсказателя и реального изменения 0.12. Учитывая, что на эквити практически полностью отсутствует переподгонка, результат в целом неплохой. Дальше, конечно, есть куда развивать модель - добавить новые классы базовых моделей ("метод ближайших соседей" следующая задача), собрать расчет портфельной работы, ну и самое главное совершенствовать алгоритм подбора факторов. И переписать алгоритмы на что-нибудь более быстрое, чем R, потому что, к примеру, приведенная картинка строилась 2 часа.
Вот что получается на дневках Сбербанка, последние три года, шкала логарифмическая, игра в обе стороны. Включены транзакционные издержки 0.1% на круг.
Каждая точка посчитана на данных, предшествующих ей и не включающих ее (первой точке предшествовало 2 года данных). Корреляция предсказателя и реального изменения 0.12. Учитывая, что на эквити практически полностью отсутствует переподгонка, результат в целом неплохой. Дальше, конечно, есть куда развивать модель - добавить новые классы базовых моделей ("метод ближайших соседей" следующая задача), собрать расчет портфельной работы, ну и самое главное совершенствовать алгоритм подбора факторов. И переписать алгоритмы на что-нибудь более быстрое, чем R, потому что, к примеру, приведенная картинка строилась 2 часа.