вот у меха есть кросс-валидация - в этом надо разобраццо )
Читанул тут Меха... В ужасе отставил бутыль ягати, моск начинает сворачиваться
Модели полностью построены по "теория машинного обучения". Результат получается из следующего процесса: строится куча базовых моделей (по одной для каждого входного параметра - пока тренируюсь на линейных) - кросс-валидация базовых моделей - бустинг - конечная модель-предсказатель. Такой процесс серьезно снижает вероятность переподгонки, поскольку фактически все данные бьются на три не пересекающиеся части - тренировочную для построения базовых моделей, тестовую для кросс-валидации базовых моделей, и на последней, третьей части проводится оценка успеха/неуспеха окончательной модели, полученной с выхода бустинга.
есть у кого нить переводчик на обычный колхозный язык?
Перекрестная проверка
Cross-validationСинонимы: Кросс-валидация
Метод формирования обучающего и тестового множеств для обучения аналитической модели в условиях недостаточности исходных данных или неравномерного представления классов. Для успешного обучения аналитической модели необходимо, чтобы классы были представлены в обучающем множестве примерно в одинаковой пропорции. Однако, если данных недостаточно или процедура сэмплинга при формировании обучающего множества была произведена неудачно, один из классов может оказаться доминирующим. Это может вызвать «перекос» в процессе обучения, и доминирующий класс будет рассматриваться как наиболее вероятный. Метод перекрестной проверки позволяет избежать этого.
В его основе лежит разделение исходного множества данных на k примерно равных блоков, например k = 5. Затем на k - 1, т.е. на 4-х блоках, производится обучение модели, а 5-й блок используется для тестирования. Процедура повторяется k раз, при этом на каждом проходе для проверки выбирается новый блок, а обучение производится на оставшихся.
Перекрестная проверка имеет два основных преимущества перед применением одного множества для обучения и одного для тестирования модели. Во-первых, распределение классов оказывается более равномерным, что улучшает качество обучения. Во-вторых, если при каждом проходе оценить выходную ошибку модели и усреднить ее по всем проходам, то полученная ее оценка будет более достоверной.На практике чаще всего выбирается k = 10 (10 - проходная перекрестная проверка), когда модель обучается на 9/10 данных и тестируется на 1/10. Исследования показали, что в этом случае получается наиболее достоверная оценка выходной ошибки модели.
Как я понял: берём, например, случайным образом 6-7 недель из любой выборки ценовых данных. Оптимизируем систему. Тес тируем на столь же случайным образом выбранной другой 1 неделе. Круто. Если готовишь Грааль, идеальный на все времена.
Вопрос: а как быть со свойством связанности рынка? В моем представлении, ИМХО, это не стационарная система – а некая эволюционирующая, между квазистабильными состояниями. В этом и смысл стандартной, линейной walk-forward процедуры. А тут?