Работа над новыми моделями близится к выходу на практическую реализацию

  • Автор темы mehanizator
  • Дата начала

mehanizator

Administrator
Команда форума
Модели полностью построены по "теория машинного обучения". Результат получается из следующего процесса: строится куча базовых моделей (по одной для каждого входного параметра - пока тренируюсь на линейных) - кросс-валидация базовых моделей - бустинг - конечная модель-предсказатель. Такой процесс серьезно снижает вероятность переподгонки, поскольку фактически все данные бьются на три не пересекающиеся части - тренировочную для построения базовых моделей, тестовую для кросс-валидации базовых моделей, и на последней, третьей части проводится оценка успеха/неуспеха окончательной модели, полученной с выхода бустинга. Пришлось подумать, чтобы вклеить в модель расчет размера позиции с учетом транзакционных издержек. В принципе, вся модель может работать в риалтайме, постоянно корректируя размер позиции.

Вот что получается на дневках Сбербанка, последние три года, шкала логарифмическая, игра в обе стороны. Включены транзакционные издержки 0.1% на круг.



Каждая точка посчитана на данных, предшествующих ей и не включающих ее (первой точке предшествовало 2 года данных). Корреляция предсказателя и реального изменения 0.12. Учитывая, что на эквити практически полностью отсутствует переподгонка, результат в целом неплохой. Дальше, конечно, есть куда развивать модель - добавить новые классы базовых моделей ("метод ближайших соседей" следующая задача), собрать расчет портфельной работы, ну и самое главное совершенствовать алгоритм подбора факторов. И переписать алгоритмы на что-нибудь более быстрое, чем R, потому что, к примеру, приведенная картинка строилась 2 часа.
 

kaprizka

New member
Завидую. Я даже близко не подошёл к желаемому моделированию, хотя давно пытался. Что такое R - не знаю.

А логарифм - одна из самых медленных арифметических операций. На пентиуме P5 деление занимает 33 такта, извлечение корня 70 тактов, логарифма как такового нет, но есть близкие по смыслу "двуместные" команды FYL2X и FYL2XP1, которые находят логарифм X по основанию 2 и умножают на Y - соответственно за 22..111 и 22..103 такта (длительность плавает в зависимости от значений чисел).
На пентиуме Про соответствующие команды имеют сложное строение, и число тактов непонятно какое: команды-то трансцендентные. Вероятнее всего, все они за 56 тактов выполняются (для 80-битовых операндов). А умножение за 5 тактов, скорость 2 такта на команду.
 

mehanizator

Administrator
Команда форума
входные думаю такие как и у тебя, отстационаренный OHLCV. модели пока самые простые - линейки, причем даже безостаточные.
 

tarasp

New member
то есть пакет простых моделей прогнозирует приращение последующего бара (или сам бар?) по результатам анализа предыдущих 2-х лет, а корреляция (точность?) прогноза и реального движения = 0,12. получается аналог нейросети, где модели имеют различный уровень "важности"?
 
Your email address will not be publicly visible. We will only use it to contact you to confirm your post.
Сверху