Работа над новыми моделями близится к выходу на практическую реализацию

mehanizator · 25 Янв 2011

Модели полностью построены по "теория машинного обучения". Результат получается из следующего процесса: строится куча базовых моделей (по одной для каждого входного параметра - пока тренируюсь на линейных) - кросс-валидация базовых моделей - бустинг - конечная модель-предсказатель. Такой процесс серьезно снижает вероятность переподгонки, поскольку фактически все данные бьются на три не пересекающиеся части - тренировочную для построения базовых моделей, тестовую для кросс-валидации базовых моделей, и на последней, третьей части проводится оценка успеха/неуспеха окончательной модели, полученной с выхода бустинга. Пришлось подумать, чтобы вклеить в модель расчет размера позиции с учетом транзакционных издержек. В принципе, вся модель может работать в риалтайме, постоянно корректируя размер позиции.

Вот что получается на дневках Сбербанка, последние три года, шкала логарифмическая, игра в обе стороны. Включены транзакционные издержки 0.1% на круг.

Каждая точка посчитана на данных, предшествующих ей и не включающих ее (первой точке предшествовало 2 года данных). Корреляция предсказателя и реального изменения 0.12. Учитывая, что на эквити практически полностью отсутствует переподгонка, результат в целом неплохой. Дальше, конечно, есть куда развивать модель - добавить новые классы базовых моделей ("метод ближайших соседей" следующая задача), собрать расчет портфельной работы, ну и самое главное совершенствовать алгоритм подбора факторов. И переписать алгоритмы на что-нибудь более быстрое, чем R, потому что, к примеру, приведенная картинка строилась 2 часа.

kaprizka · 25 Янв 2011

Завидую. Я даже близко не подошёл к желаемому моделированию, хотя давно пытался. Что такое R - не знаю.

А логарифм - одна из самых медленных арифметических операций. На пентиуме P5 деление занимает 33 такта, извлечение корня 70 тактов, логарифма как такового нет, но есть близкие по смыслу "двуместные" команды FYL2X и FYL2XP1, которые находят логарифм X по основанию 2 и умножают на Y - соответственно за 22..111 и 22..103 такта (длительность плавает в зависимости от значений чисел).
На пентиуме Про соответствующие команды имеют сложное строение, и число тактов непонятно какое: команды-то трансцендентные. Вероятнее всего, все они за 56 тактов выполняются (для 80-битовых операндов). А умножение за 5 тактов, скорость 2 такта на команду.

tarasp · 25 Янв 2011

Какие-нибудь подробности можно узнать?))) Что за входные параметры, что за модели?

mehanizator · 25 Янв 2011

входные думаю такие как и у тебя, отстационаренный OHLCV. модели пока самые простые - линейки, причем даже безостаточные.

mehanizator · 25 Янв 2011

kaprizka - R это язык программирования специально для статистических расчетов: http://ru.wikipedia.org/wiki/R_(язык_программирования)

он интерпретируемый, так что, думаю, твои данные для него неактуальны

tarasp · 26 Янв 2011

то есть пакет простых моделей прогнозирует приращение последующего бара (или сам бар?) по результатам анализа предыдущих 2-х лет, а корреляция (точность?) прогноза и реального движения = 0,12. получается аналог нейросети, где модели имеют различный уровень "важности"?

mehanizator · 26 Янв 2011

логарифм приращения.

про нейросети ничего сказать не могу, не занимался ими.

tarasp · 30 Янв 2011

попалось русское руководство
http://www.inp.nsk.su/~baldin/DataAnalysis/index.html

Поиск

Поиск

Работа над новыми моделями близится к выходу на практическую реализацию

mehanizator

Administrator

kaprizka

New member

tarasp

New member

mehanizator

Administrator

mehanizator

Administrator

tarasp

New member

mehanizator

Administrator

tarasp

New member