Временные ряды анализ тенденций и прогнозирование. Прогнозирование временного ряда в Excel

Методы прогнозирования временных рядов

1. Прогнозирование как задача анализа временного ряда. Детерминированная и случайная составляющие: способы их выделения и оценки.

Прогнозирование – это научное выявление вероятностных путей и результатов предстоящего развития явлений и процессов, оценка показателей процессов для более или менее отдаленного будущего.

Изменение состояния наблюдаемого явления (процесса) характеризуется совокупностью параметров x1, x2, … , xt,…, измеренных в последовательные моменты времени. Такая последовательность называется временным рядом.

Анализ временных рядов – одно из направлений науки прогнозирования.

Если одновременно рассматриваются несколько характеристик процесса, то в этом случае говорят о многомерных временных рядах.

Под детерминированной (закономерной) составляющей временного ряда x1, x2, … , xn понимается числовая последовательность d1, d2, … , dn, элементы которой вычисляются по определенному правилу как функция времени t.

Если исключить из ряда детерминированную составляющую, то оставшаяся часть будет выглядеть хаотично. Ее называют случайной компонентой ε1, ε2, … , εn.

Модели разложения временного ряда на детерминированную и случайную компоненты:

1. Аддитивная модель:

xt = dt + εt, t=1,…n

2. Мультипликативная модель:

xt = dt · εt, t=1,…n

Если мультипликативную модель прологарифмировать, то получим аддитивную модель для логарифмов xt.

В детерминированной компоненте выделяют:

1) Тренд (trt) – плавно изменяющаяся нециклическая компонента, описывающая чистое влияние долговременных факторов, эффект которых сказывается постепенно.

2) Сезонная компонента (St) – отражает повторяемость процессов во времени.

3) Циклическая компонента (Ct) – описывает длительные периоды относительного подъема и спада.

4) Интервенция – существенное кратковременное воздействие на временной ряд.

Модели тренда:

– линейная: trt = b0 + b1t

– нелинейные модели:

полиномиальная: trt = b0 + b1t + b2t2 + … + bntn

логарифмическая: trt = b0 + b1 ln(t)

логистическая:

экспоненциальная: trt = b0 · b1t

параболическая: trt = b0 + b1t + b2t2

гиперболическая: trt = b0 + b1 /t

Тренд используется для долгосрочного прогноза.

Выделение тренда:

1) Метод наименьших квадратов (время – фактор, временной ряд – зависимая переменная):

xti = f (ti, θ)+εt i=1,…n

f – функция тренда;

θ – неизвестные параметры модели временного ряда.

εt – независимые и одинаково распределенные случайные величины.

Если минимизировать функцию, можно найти параметры θ.

2) Применение разностных операторов

Выделение сезонных эффектов

Пусть m – число периодов, p – величина периода.

St = St+p, для любых t.

1) Оценка сезонной компоненты

а) Сезонные эффекты на фоне тренда

Для аддитивной модели xt = trt + St + εt оценка:

Если необходимо, чтобы сумма сезонных эффектов равнялась 0, то переходят к скорректированным оценкам сезонных эффектов:

Для мультипликативной модели xt = trt * St * εt:

б) При наличии в ряде циклической компоненты (метод скользящих средних)

Идея метода: каждое значение исходного ВР заменяется средним значением на интервале времени, длина которого выбирается заранее. Выбранный интервал как бы скользит вдоль ряда.

Скользящее среднее при медианном сглаживании: t=med (xt-m,xt-m+1, …,xt+m)

При средне арифметическом сглаживании:

xt=1/(2m+1)(xt-m+xt-m+1+…+xt+m), если р – четный,

xt=1/(2m)(1/2*xt-m+xt-m+1+…+1/2*xt+m) если р – нечетный.

Для аддитивной модели xt = trt +Ct + St + εt.

Для упрощения обозначений: начнем нумерацию величин с единицы, изменим нумерацию исходного ряда так, чтобы величине x соответствовал член xt.

– скользящее среднее с периодом p, построенное по xt.

Для мультипликативной модели – перейти к логарифмам и получить мультипликативную модель.

xt = trt · Ct · St · εt

yt = log xt, dt = log trt, gt = log Ct, rt = log St, δt = log εt

yt = dt + gt + rt + δt

2) Удаление сезонной компоненты (сезонное выравнивание)

а) При наличии оценок сезонной компоненты:

Для аддитивной модели – путем вычитания из начальных значений ряда полученных сезонных оценок .

Для мультипликативной модели – путем деления начальных значений ряда на соответствующие сезонные оценки и умножением на 100%.

б) Применение разностных операторов

где В – оператор сдвига назад.

Разностный оператор второго порядка:

Если ВР одновременно содержит тренд и сезонную компоненту, то их удаление возможно с помощью последовательного применения простых и сезонных разностных операторов. Порядок их применения не существенен:

3) Прогнозирование с помощью сезонной компоненты:

Для аддитивной модели:

Для мультипликативной модели:

2. Модели временного ряда: AR(p), MA(q), ARIMA(p,d,q). Идентификация моделей, оценка параметров, исследование адекватности модели, прогнозирование.

Для описания вероятностной компоненты временного ряда используют понятие случайного процесса.

Случайным процессом x(t), заданным на множестве Т, называют функцию от t, значения которой при каждом t T являются случайной величиной.

Случайные процессы, у которых вероятностные свойства не изменяются во времени, называются стационарными (матожидание и дисперсия – константы).

В качестве модели стационарных временных рядов чаще всего используются:

Скользящее среднее;

Их комбинации.

Для проверки стационарности ряда остатков и оценки его дисперсии используют:

Выборочную автокорреляционную функцию (коррелограмму);

Частную автокорреляционную функцию.

Пусть εt – процесс белого шума, т.е. в разные моменты времени t случайные величины εt независимы и одинаково распределены с параметрами M(εt)=0, D(εt)=σ2=const. Тогда:

Случайный процесс x(t) со средним значением μ называется процессом авторегрессии порядка p (AR(p)), если для него выполняется соотношение:

x(t)-μ= α1 (x(t-1) – μ) + α2 (x(t-2) – μ) +…+ αp (x(t-p) – μ) + εt

Случайный процесс x(t) называется процессом скользящего среднего порядка q (MA(q)), если для него выполняется соотношение:

x(t)= εt + β1 εt-1 +…+ βq εt-q

Случайный процесс x(t) называется процессом авторегрессии-скользящего среднего порядков p и q (ARMA(p,q)), если для него выполняется соотношение:

Нестационарные технические и экономические процессы могут быть описаны модифицированной моделью ARMA(p,q). Для удаления тренда можно использовать разностные операторы.

Пусть даны две последовательности U=(…,U-1,U0,U1,…) и V=(…,V-1, V0,V1,V2,…) такие, что:

Означает ,для

означает и т.д.

Тогда процесс AR(p) представляется в виде ,

MA(q): ,

ARMA(p,q):

B можно использовать как разностный оператор, т.е.

эквивалентно V=(1-B)U

Для разностей второго порядка:

z =(1-B)V=(1-B)2U

где – разностный оператор порядка d; x=(1-B)dx.

Идентифицировать модель – определить ее параметры p, d и q. Для идентификации модели служат графики частных автокорреляционных (АКФ) и частных автокорреляционных функций (ЧАКФ).

АКФ. k-й член АКФ определяется по формуле:

(*)

Параметр k называют лагом. На практике k < n/4. График АКФ – коррелограмма. Если полученный ряд остатков нестационарный, то по коррелограмма можно определить причины нестационарности.

Значения ЧАКФ akk находят, решая систему Юла – Уолкера, используя значения АКФ

Система Юла – Уолкера:

R1 = a1 + a2*r1 + … + ap*rp-1

r2 = a1*r1 + a2 + … + ap*rp-2

………………………………..

rp = a1*rp-1 + a2*rp-2 + …+ ap

После визуализации ряда и удаления тренда рассматривается АКФ. Если график АКФ не имеет тенденции к затуханию, то это нестационарный процесс (модель ARIMA). При наличии сезонных колебаний коррелограмма содержит периодические всплески, как правило, соответствующие периоду колебаний. Рассматриваются разности 1-го, 2-го,…k-го порядка, пока ряд не станет стационарным, тогда параметр d=k (обычно k не больше 2). Переходят к идентификации стационарной модели.

Идентификация стационарных моделей:

АКФ плавно спадает;

ЧАКФ обрывается на лаге p.

АКФ обрывается на лаге q.

ЧАКФ плавно спадает.

Оценка параметров m, ai модели AR(p):

В качестве оценки m можно взять среднее значении ВР

Для оценки ai найдем корреляцию между X(t) и X(t-k):

Общее решение этого уравнения относительно rk определяется корнями характеристического уравнения

Пусть корни характеристического уравнения различны. Тогда общее решение может быть записано в виде:

Из требования стационарности следует, что все |λi|<1.

Если записать уравнение (**) для k=1, 2, 3…., получим систему Юла-Уоркера для AR(p) процесса:

r1 = a1 +a2*r1 + … + ap*rp-1

r2 = a1*r1 + a2 + … + ap*rp-2

………………………………..

rp = a1*rp-1 + a2*rp-2 + …+ap

Решая эту систему относительно a1, a2....ap, получим параметры AR(p).

Оценка параметра βi модели MA(q):

Для процесса МА(q) при |k| > q Cov = 0.

Cov = s2*(bk + b1*bk+1 + b2*bk+2 + … + bq-k*bq)

Отсюда автокорреляционная функция имеет вид:

(***)

Для оценивания коэффициентов bi по наблюденному участку траектории существует несколько путей. Наиболее простой:

Находят коэффициенты корреляции по формуле (*). Из системы (***) получают систему нелинейных уравнений для нахождения bi. Она решается итерационными методами.

Прогнозирование. При прогнозировании необходимо получить детерминированные значения ВР по уже имеющимся формулам, а затем рассчитать случайные значения по подобранной модели и скорректировать детерминированные значения на величину случайных значений.

3. Прогнозирование с помощью искусственных нейронных сетей, метод окон.

Решение математических задач с помощью нейронных сетей (НС) осуществляется путем обучение НС способам решения этих задач.

Обучение многослойной нейронной сети производится методом обратного распространения ошибки (Back Propagation).

Модель искусственного нейрона

где xi – входные сигналы,

ai – коэффициенты проводимости (const), которые корректируются в процессе обучения,

F – функция активации, она нелинейная, в разных моделях может называться по-разному. Например, «сигмоида»:

Общая структура нейронной сети:

Скрытых слоев может быть несколько, поэтому НС – многослойная.

– вектор эталонных сигналов (желаемых)

yi – вектор реальных (выходных) сигналов

xi – вектор входных сигналов.

Стратегия обучения «обучение с учителем»

Типовые шаги:

1) Выбрать очередную обучающую пару из обучающего множества .

x – входной вектор;

– соответствующий ему желаемый (выходной вектор).

Подать входной вектор х на вход НС.

2) Вычислить выход сети у – реальный выходной сигнал.

Предварительно, весовые коэффициенты aij и bij задаются произвольно случайным образом.

3) Вычислить отклонение (ошибку):

4) Подкорректировать веса aij и bij сети так, чтобы минимизировать ошибку.

5) Повторить шаги 1– 4.

Процесс повторяется до тех пор, пока ошибка на всем обучающем множестве не уменьшится до требуемой величины.

Проход вперед сигнала X по сети:

Из обучающего множества берется пара. Для каждого слоя, начиная с первого, вычисляется Y: Y = F(X·A),

где A – матрица весов слоя;

F – функция активации.

Вычисления – слой за слоем.

Обратный проход ошибки по НС:

Выполняется подстройка весов выходного слоя. Для этого применяется модифицируемое дельта-правило.

Рис. Обучение одного веса от нейрона p в скрытом слое j к нейрону q в выходном слое k

Для выходного нейрона сначала находится сигнал ошибки

εq умножается на производную сжимающей функции , вычисленную для этого нейрона слоя k. Получаем величину δ:

Δapqk = α · δqk · ypj,

где α – коэффициент скорости обучения (0.01≤ α <1) – const, подбирается экспериментально в процесса обучения.

ypj – выходной сигнал нейрона p слоя j.

– величина веса в связке нейронов p→q на шаге t (до коррекции) и шаге t+1 (после коррекции).

Подстройка весов скрытого слоя.

Рассмотрим нейрон скрытого слоя p. При переходе вперед этот нейрон передает свой выходной сигнал нейронам выходного слоя через соединяющие их веса. Во время обучения эти веса функционируют в обратном порядке, пропуская величину δ от выхода назад к скрытому слою.

И так для каждой пары. Процесс заканчивается, если для каждого X НС будет вырабатывать

Прогнозирование с помощью НС. Метод окон.

Задан временной ряд xt, t=1,2…T. Задача прогнозирования сводится к задаче распознавания образов на НС.

Метод выявления закономерности во временном ряде на основе НС называется “windowing” (метод окон).

Используется два окна Wi (input) и Wo (output) фиксированного размера n и m соответственно, для наблюдаемого множества данных.

Эти окна способны перемещаться с некоторым шагом S по кривой (ряду) вдоль оси времени. В результате получается некоторая последовательность наблюдений:

Первое окно Wi, сканирует данные, предает их на вход НС, а Wo – на выход. Получающаяся на каждом шаге пара Wji→Wj0, j=1..n образует обучающую пару (наблюдение). После обучения НС можно использовать для прогноза.

Данные за прошлые периоды можно использовать для прогнозирования.

Множество данных, где время является независимой переменной, называется временным рядом .

Общее изменение со временем результативного признака называется трендом . Мы рассмотрим модели линейного тренда , то есть параметры тренда модно рассчитать с помощью модели линейной регрессии.

Сезонная вариация – это повторение данных через небольшой промежуток времени. Под «сезоном» можно понимать день, и неделю, и месяц, и квартал. Если же промежуток времени будет длительным, то это – циклическая вариация . Мы остановимся на изучении данных для небольших интервалов времени, поэтому циклическую вариацию исключим из рассмотрения.

Сначала на основании прошлых данных определяется сезонная вариация. Исключив сезонную вариацию (проведя так называемую десезонализацию данных ), с помощью модели линейной регрессии находим уравнение тренда. По уравнению тренда и прошлым данным вычисляем величины ошибок. Это среднее абсолютное отклонение
, где - это разность фактического и прогнозного значений в момент времениt , n – число наблюдений.

Анализ аддитивной модели.

Для аддитивной модели фактическое значение фактическое значение A = трендовое значение T + сезонная вариация S + ошибка E .

Пример 50 . Предположим, что нам известен объем прожаж (тыс. руб.) за последние 11 кварталов. Дадим на основании этих данных прогноз объема продаж на следующие два квартала.

Номер квартала	Объем продаж	Оценка сезонной вариации

Заполним следующую таблицу. Оценки сезонной вариации запишем под соответствующим номером квартала году. В каждом столбце вычисляем среднее значение оценок сезонной вариации = (сумма чисел в столбце)/ (количество чисел в столбце). Результат запишем в строке «Среднее» (округления взяты до одной цифры после запятой). Сумма чисел в строке «Среднее» = -1.

Скорректируем значения в строке «Среднее», чтобы общая сумма была равна 0. Это необходимо, чтобы усреднить значения сезонной вариации в целом за год. Корректирующий фактор вычисляется следующим образом: сумма оценок сезонных вариаций (-1) делится на число кварталов в году (4). Поэтому из каждого числа этой строки нужно вычесть -1/4= -0,25. Так как у нас округления до одной цифры после запятой, то из нечетных столбцов вычтем -0,3, а из четных столбцов вычтем -0,2. В последней строке получены значения сезонной вариации для соответствующего квартала года.

	Номер квартала в году

Номер квартала	Объем продаж	Сезонная вариация	A - S = T + E

Уравнение линии тренда T = a + b * x , где - номерi - го квартала.

Найдем коэффициенты a и b

где - номерi - го квартала, а - значение сезонной вариацииi - го квартала.

Номер квартала			x 2

a =1,9 и b =1,1.

T = 1,9+ 1,1 x .

, где - объем продаж,- сезонная вариация,- трендовое значение вi -ом квартале.

i x

Составим таблицу

Объем продаж A	Десезонализированный объем продаж A - S = T + E	Трендовое значение	Ошибка

И среднеквадратическая ошибка

Прогноз объема продаж в 12-м квартале: (1,9+1,1*12)+(-0,9)=14,2 тыс.руб.

Прогноз объема продаж в 13-м квартале: (1,9+1,1*13)+2=18,2 тыс.руб.

Задача 50. В таблице указан объем продаж (тыс. руб.) за последние 11 кварталов. Дать на основании этих данных прогноз объема продаж на следующие два квартала.

На первом шаге нужно исключить влияние сезонной вариации. Воспользуемся методом скользящей средней. Заполним таблицу.

Номер квартала	Объем продаж	Скользящая средняя за 4 квартала	Центрированная скользящая средняя	Оценка сезонной вариации

1 год = 4 квартала. Поэтому найдем среднее значение объема продаж за 4 последовательных квартала. Для этого нужно сложить 4 последовательных числа из 2-го столбца (объем продаж), эту сумму умножить на 4 (количество слагаемых) и результат записать в 3-й столбец напротив 3-го слагаемого.

Если при заполнении 3-го скользящая средняя вычислялась для четного числа сезонов, то вычисляется центрированная скользящая средняя по следующему правилу: полусумму двух соседних чисел из 3-го столбца запишем в четвертый столбец напротив верхнего из них. В противном случае (если скользящая средняя вычислялась для нечетного числа сезонов) центрированную скользящую среднюю вычислять не надо.

5-й столбец (оценка сезонной вариации) – это разность объема продаж и скользящей средней, в случае если последняя вычислялась для нечетно числа сезонов или разность объема продаж и центрированной скользящей средней в противном случае.

Скорректируем значения в строке «Среднее», чтобы общая сумма была равна 0. Это необходимо, чтобы усреднить значения сезонной вариации в целом за год. Корректирующий фактор вычисляется следующим образом: сумма оценок сезонных вариаций. Поэтому из каждого числа этой строки нужно вычесть = 0,593. В последней строке получены значения сезонной вариации для соответствующего квартала года.

	Номер квартала в году





Скорректированная сезонная вариация

Исключим сезонную вариацию из фактических данных. Проведем десезонализацию данных.

Номер квартала	Объем продаж	Сезонная вариация	Десезонализированный объем продаж A - S = T + E

Из чисел 2-го столбца вычитаем числа 3-го столбца и результат пишем в 4-м столбце.

Уравнение линии тренда T = a + b * x , где - номерi - го квартала.

Найдем коэффициенты a и b по данным следующим формулам:

где - номерi - го квартала, а - значение сезонной вариацииi - го квартала.

Для упрощения расчетов по указанным формулам заполним таблицу

Номер квартала			x 2

Подставляя соответствующие данные из таблицы в приведенные выше формулы получим: a =1,97 и b =1,12.

Итак, уравнение тренда запишется так T = 1,97+ 1,12 x .

Теперь займемся расчетом ошибок.

Для этого необходимо найти величины - разность фактического и прогнозного значения вi -ом квартале по следующей формуле:

, где - объем продаж,- сезонная вариация,- трендовое значение вi -ом квартале.

Чтобы вычислить трендовое значение в i -ом квартале воспользуемся соответствующей формулой приведенной выше подставляя в нее вместо x номер соответствующего квартала.

Составим таблицу

Объем продаж A	Десезонализированный объем продаж A - S = T + E	Трендовое значение	Ошибка

Среднее абсолютное отклонение и среднеквадратическая ошибка . Мы видим, что ошибки достаточно велики. Это скажется на качестве прогноза.

Дадим прогноз объема продаж на следующие два квартала.

прогноз = трендовое значение + скорректированная сезонная вариация.

Мы считаем, что тенденция, выявленная по прошлым данным, сохранится и в ближайшем будущем. Подставляем номера кварталов в формулу и учитываем скорректированную сезонную вариацию. T = 1,97+ 1,12 x .

Прогноз объема продаж в 12-м квартале: (1,97+1,12*12)+(-0,453)=14,957 тыс.руб.

Прогноз объема продаж в 13-м квартале: (1,97+1,12*13)+ 1,047=17,577 тыс.руб.

Временные ряды реализуют широкий набор методов описания, построения моделей, декомпозиции и прогнозирования временных рядов как во временной, так и в частотной области. Все процедуры полностью интегрированы и результаты анализа одной модели. Имеются самые разнообразные возможности для просмотра и графического представления одномерных и многомерных рядов. Можно анализировать очень длинные ряды (более 100 тыс. наблюдений для компьютера с 8 Mb оперативной памяти). С многомерными рядами (в случае многомерных исходных данных или с рядами, полученными на различных этапах анализа) можно работать в активной рабочей области; здесь их можно просматривать и сопоставлять друг с другом. Информация о последовательных преобразованиях хранится в виде длинных меток переменных, поэтому при сохранении вновь полученных рядов в файле данных автоматически сохраняется вся "история" каждого из рядов.

С помощью различных преобразований исходного временного ряда можно понять его структуру и имеющиеся в нем закономерности; реализованы такие часто используемые преобразования, как: удаление тренда, удаление автокорреляций, сглаживание скользящими средними (невзвешенными или взвешенными - с весами, заданными пользователем или вычисленными по методам Даниеля, Тьюки, Хэмминга, Парзена и Бартлета), медианное сглаживание (среднее заменено медианой), простое экспоненциальное сглаживание (подробное описание его вариантов см. далее), взятие разностей, суммирование, вычисление остатков, сдвиг, 4253H-сглаживание, косинус-сглаживание, преобразование Фурье, а также обратное преобразование Фурье и др. Можно выполнить анализ автокорреляций, частных автокорреляций и кросскорреляций.

Временные ряды включают полную реализацию модели авторегрессии и проинтегрированного скользящего среднего. Модель может включать константу. Перед построением модели ряд может быть подвергнут преобразованию, которое автоматически будет отменено после построения прогноза по АРПСС, при этом предсказанные значения и их стандартные ошибки будут выражены через значения исходного (а не преобразованного) ряда. Могут быть вычислены приближенные и точные суммы квадратов из условия максимума правдоподобия; уникальной особенностью является способность анализировать модели с длинными периодами сезонности (с лагом до 30).

Стандартный набор результатов содержит оценки параметров, стандартные ошибки и корреляции. Предсказанные значения могут быть представлены в числовой и графической форме и добавлены к исходному ряду. Имеются многочисленные дополнительные функции для исследования остатков, в том числе большой набор графических средств. Реализация модели позволяет проводить анализ прерванных временных рядов (рядов с интервенциями). Имеется возможность использовать одновременно несколько различных интервенций (до 6). Доступны следующие виды интервенций: однопараметрические скачкообразные, двупараметрические постепенные, временные (характер воздействия можно просмотреть на графике). Для всех прерванных моделей могут быть построены прогнозы, которые можно вывести на график (вместе с исходным рядом) и, если требуется, добавить прогнозы к исходному ряду.

Полностью реализованы все 12 классических моделей экспоненциального сглаживания. Задание модели может включать аддитивную или мультипликативную сезонную составляющую и/или линейный, экспоненциальный или демпфированый тренд; в частности, доступны популярные модели с линейным трендом Холта-Винтера. Пользователь может задавать начальное значение параметров сглаживания, начальное значение тренда и (если требуется) сезонные факторы. Для тренда и сезонной составляющей могут быть заданы независимые параметры сглаживания. Для определения лучшей комбинации параметров используется метод поиска на сетке; в таблицах результатов для всех комбинаций значений параметров сглаживания вычисляется средняя ошибка, средняя абсолютная ошибка, сумма квадратов ошибок, среднеквадратическая ошибка, средняя относительная ошибка и средняя абсолютная относительная ошибка. Наименьшие значения этих ошибок выделяются цветом. Имеется возможность автоматического поиска лучшего набора параметров в смысле среднеквадратической, средней абсолютной или средней абсолютной относительной ошибки (для этого используется общая процедура минимизации). Все результаты преобразования экспоненциальным сглаживанием, остатки и прогноз на требуемое число шагов доступны для дальнейшего анализа и вывода на график. Для оценки адекватности модели используются графики, на которых вместе с исходным рядом в подходящем масштабе по оси Y изображаются его сглаженный вариант, прогноз и ряд остатков.

Имеется возможность задать произвольный сезонный лаг и выбрать либо аддитивную, либо мультипликативную сезонную модель. Программа вычисляет скользящие средние, отношения или разности, сезонные компоненты, ряд с сезонной поправкой, сглаженную тренд-циклическую и нерегулярную компоненты. Все эти составляющие ряда доступны для дальнейшего анализа; например, для проверки адекватности можно построить гистограммы, графики на нормальной вероятностной бумаге и т.д.

Структура всех функций и диалоговых окон соответствует требованиям и соглашениям, описанным в документации Bureau of the Census. Можно выбрать либо аддитивные, либо мультипликативные модели. Пользователь может дополнительно вычислить априорные поправки на число рабочих дней и сезонные поправки. Колебания числа рабочих дней оцениваются регрессионными методами (с правильной обработкой крайних членов ряда) и затем (по желанию) используются для корректировки ряда. Реализованы стандартные средства для градуировки выбросов, вычисления сезонных факторов и вычисления тренд-циклической компоненты (имеется возможность выбирать несколько типов взвешенного скользящего среднего; кроме того, программа может сама находить оптимальную длину и тип скользящего среднего). Итоговые компоненты ряда (сезонная, тренд-циклическая, нерегулярная) и ряд с внесенной сезонной поправкой всегда доступны для дальнейшего анализа и вывода на график; кроме того, все они могут быть сохранены для дальнейшего исследования другими методами и/или в других программах. Все компоненты выводятся на графики в различной форме, включая категоризованные графики по месяцам (кварталам).

С помощью реализованных методов полиномиальных распределенных лагов можно выполнять оценку моделей с обычными лагами и лагами Алмона. Для анализа распределений переменных модели имеется ряд графических средств.

Преимущества реализации спектрального анализа в STATISTICA особенно отчетливо проявляются при анализе очень длинных временных рядов (с более чем 250 тыс. наблюдений) и не предполагают каких-либо ограничений на длину ряда (в частности, длина исходного ряда не обязана быть четной). Вместе с тем, иногда бывает разумно предварительно увеличить или уменьшить длину ряда. Стандартные методы предварительной обработки ряда включают косинус-сглаживание, вычитание среднего и удаление тренда. Результаты обычного спектрального анализа содержат коэффициенты частоты, периода, коэфициенты при синусах и косинусах, периодограмма и оценка спектральной плотности. Оценка плотности может быть вычислена с помощью весов Даниеля, Хэмминга, Бартлетта, Тьюки, Парзена или с весами и шириной, заданными пользователем. Очень полезно, особенно при работе с длинными рядами, иметь возможность выводить в убывающем порядке заранее заданное число точек периодограммы или спектральной плотности; таким образом можно легко обнаружить резкие пики периодограммы и спектральной плотности для длинных рядов.

Имеется возможность вычислить d-критерий Колмогорова-Смирнова для значений периодограммы чтобы проверить, подчиняются ли они экспоненциальному распределению (является ряд белым шумом или нет). Для представления результатов анализа имеются различные типы графиков; можно отобразить коэффициенты при синусах и косинусах, периодограмму, лог- периодограмму, спектральную и лог-спектральную плотность по отношению к частотам, периодам и лог-периодам. В случае длинного исходного ряда имеется возможность выбрать конкретный сегмент (период), для которого будут изображаться соответствующие периодограмма и график спектральной плотности, тем самым будет улучшено их "разрешение".

При кросс-спектральном анализе, в дополнение к результатам обычного спектрального анализа каждого отдельного ряда, вычисляется кросс- периодограмма (вещественная и мнимая часть), ко-спектральная плотность, квадратурный спектр, кросс-амплитуда, значения когерентности, усиления и фазовый спектр. Все эти величины могут быть выведены на график, где по горизонтальной оси будет откладываться частота, период или лог-период либо для всего интервала периодов (соответственно, частот), либо для выбранного пользователем диапазона. Указанное пользователем количество наибольших значений кросс-периодограммы (вещественных или мнимых) может быть выведено в убывающем порядке в виде таблицы результатов, что позволяет легко выявлять на ней резкие пики для длинных исходных рядов. Как и во всех других процедурах модуля Временные ряды, все полученные ряды могут быть добавлены в активную рабочую область и затем подвергнуты дальнейшему исследованию с помощью других методов анализа временных рядов или средствами других модулей системы STATISTICA.

Наконец, в системе STATISTICA реализованы регрессионные методы анализа временных рядов для переменных с запаздыванием (лагом) или без него, в том числе - регрессия, проходящая через начало координат, нелинейная регрессия и интерактивное "что-если" прогнозирование.

В трех предыдущих заметках описаны регрессионные модели, позволяющие прогнозировать отклик по значениям объясняющих переменных. В настоящей заметке мы покажем, как с помощью этих моделей и других статистических методов анализировать данные, собранные на протяжении последовательных временных интервалов. В соответствии с особенностями каждой компании, упомянутой в сценарии, мы рассмотрим три альтернативных подхода к анализу временных рядов.

Материал будет проиллюстрирован сквозным примером: прогнозирование доходов трех компаний . Представьте себе, что вы работаете аналитиком в крупной финансовой компании. Чтобы оценить инвестиционные перспективы своих клиентов, вам необходимо предсказать доходы трех компаний. Для этого вы собрали данные о трех интересующих вас компаниях - Eastman Kodak, Cabot Corporation и Wal-Mart. Поскольку компании различаются по виду деловой активности, каждый временной ряд обладает своими уникальными особенностями. Следовательно, для прогнозирования необходимо применять разные модели. Как выбрать наилучшую модель прогнозирования для каждой компании? Как оценить инвестиционные перспективы на основе результатов прогнозирования?

Обсуждение начинается с анализа ежегодных данных. Демонстрируются два метода сглаживания таких данных: скользящее среднее и экспоненциальное сглаживание. Затем демонстрируется процедура вычисления тренда с помощью метода наименьших квадратов и более сложные методы прогнозирования. В заключение, эти модели распространяются на временные ряды, построенные на основе ежемесячных или ежеквартальных данных.

Скачать заметку в формате или , примеры в формате

Прогнозирование в бизнесе

Поскольку экономические условия с течением времени изменяются, менеджеры должны прогнозировать влияние, которое эти изменения окажут на их компанию. Одним из методов, позволяющих обеспечить точное планирование, является прогнозирование. Несмотря на большое количество разработанных методов, все они преследуют одну и ту же цель - предсказать события, которые произойдут в будущем, чтобы учесть их при разработке планов и стратегии развития компании.

Современное общество постоянно испытывает необходимость в прогнозировании. Например, чтобы выработать правильную политику, члены правительства должны прогнозировать уровни безработицы, инфляции, промышленного производства, подоходного налога отдельных лиц и корпораций. Чтобы определить потребности в оборудовании и персонале, директора авиакомпаний должны правильно предсказать объем авиаперевозок. Для того чтобы создать достаточное количество мест в общежитии, администраторы колледжей или университетов хотят знать, сколько студентов поступят в их учебное заведение в следующем году.

Существуют два общепринятых подхода к прогнозированию: качественный и количественный. Методы качественного прогнозирования особенно важны, если исследователю недоступны количественные данные. Как правило, эти методы носят весьма субъективный характер. Если статистику доступны данные об истории объекта исследования, следует применять методы количественного прогнозирования. Эти методы позволяют предсказать состояние объекта в будущем на основе данных о его прошлом. Методы количественного прогнозирования разделяются на две категории: анализ временных рядов и методы анализа причинно-следственных зависимостей.

Временной ряд - это набор числовых данных, полученных в течение последовательных периодов времени. Метод анализа временных рядов позволяет предсказать значение числовой переменной на основе ее прошлых и настоящих значений. Например, ежедневные котировки акций на Нью-Йоркской фондовой бирже образуют временной ряд. Другим примером временного ряда являются ежемесячные значения индекса потребительских цен, ежеквартальные величины валового внутреннего продукта и ежегодные доходы от продаж какой-нибудь компании.

Методы анализа причинно-следственных зависимостей позволяют определить, какие факторы влияют на значения прогнозируемой переменной. К ним относятся методы множественного регрессионного анализа с запаздывающими переменными, эконометрическое моделирование, анализ лидирующих индикаторов, методы анализа диффузионных индексов и других экономических показателей. Мы расскажем лишь о методах прогнозирования на основе анализа временны х рядов.

Компоненты классической мультипликативной модели временны х рядов

Основное предположение, лежащее в основе анализа временных рядов, состоит в следующем: факторы, влияющие на исследуемый объект в настоящем и прошлом, будут влиять на него и в будущем. Таким образом, основные цели анализа временных рядов заключаются в идентификации и выделении факторов, имеющих значение для прогнозирования. Чтобы достичь этой цели, были разработаны многие математические модели, предназначенные для исследования колебаний компонентов, входящих в модель временного ряда. Вероятно, наиболее распространенной является классическая мультипликативная модель для ежегодных, ежеквартальных и ежемесячных данных. Для демонстрации классической мультипликативной модели временных рядов рассмотрим данные о фактических доходах компании Wm.Wrigley Jr. Company за период с 1982 по 2001 годы (рис. 1).

Рис. 1. График фактического валового дохода компании Wm.Wrigley Jr. Company (млн. долл. в текущих ценах) за период с 1982 по 2001 годы

Как видим, на протяжении 20 лет фактический валовой доход компании имел возрастающую тенденцию. Эта долговременная тенденция называется трендом. Тренд - не единственный компонент временного ряда. Кроме него, данные имеют циклический и нерегулярный компоненты. Циклический компонент описывает колебание данных вверх и вниз, часто коррелируя с циклами деловой активности. Его длина изменяется в интервале от 2 до 10 лет. Интенсивность, или амплитуда, циклического компонента также не постоянна. В некоторые годы данные могут быть выше значения, предсказанного трендом (т.е. находиться в окрестности пика цикла), а в другие годы - ниже (т.е. быть на дне цикла). Любые наблюдаемые данные, не лежащие на кривой тренда и не подчиняющиеся циклической зависимости, называются иррегулярными или случайными компонентами . Если данные записываются ежедневно или ежеквартально, возникает дополнительный компонент, называемый сезонным . Все компоненты временных рядов, характерных для экономических приложений, приведены на рис. 2.

Рис. 2. Факторы, влияющие на временные ряды

Классическая мультипликативная модель временного ряда утверждает, что любое наблюдаемое значение является произведением перечисленных компонентов. Если данные являются ежегодными, наблюдение Y i , соответствующее i -му году, выражается уравнением:

(1) Y i = T i * C i * I i

где T i - значение тренда, C i i -ом году, I i i -ом году.

Если данные измеряются ежемесячно или ежеквартально, наблюдение Y i , соответствующее i-му периоду, выражается уравнением:

(2) Y i = T i *S i *C i *I i

где T i - значение тренда, S i - значение сезонного компонента в i -ом периоде, C i - значение циклического компонента в i -ом периоде, I i - значение случайного компонента в i -ом периоде.

На первом этапе анализа временных рядов строится график данных и выявляется их зависимость от времени. Сначала необходимо выяснить, существует ли долговременное возрастание или убывание данных (т.е. тренд), или временной ряд колеблется вокруг горизонтальной линии. Если тренд отсутствует, то для сглаживания данных можно применить метод скользящих средних или экспоненциального сглаживания.

Сглаживание годовых временных рядов

В сценарии мы упомянули о компании Cabot Corporation. Имея штаб-квартиру в Бостоне, штат Массачусеттс, она специализируется на производстве и продаже химикатов, строительных материалов, продуктов тонкой химии, полупроводников и сжиженного природного газа. Компания имеет 39 заводов в 23 странах. Рыночная стоимость компании составляет около 1,87 млрд. долл. Ее акции котируются на Нью-Йоркской фондовой бирже под аббревиатурой СВТ. Доходы компании за указанный период приведены на рис. 3.

Рис. 3. Доходы компании Cabot Corporation в 1982–2001 годах (млрд. долл.)

Как видим, долговременная тенденция повышения доходов затемнена большим количеством колебаний. Таким образом, визуальный анализ графика не позволяет утверждать, что данные имеют тренд. В таких ситуациях можно применить методы скользящего среднего или экспоненциального сглаживания.

Скользящие средние. Метод скользящих средних весьма субъективен и зависит от длины периода L , выбранного для вычисления средних значений. Для того чтобы исключить циклические колебания, длина периода должна быть целым числом, кратным средней длине цикла. Скользящие средние для выбранного периода, имеющего длину L , образуют последовательность средних значений, вычисленных для последовательностей длины L . Скользящие средние обозначаются символами MA(L) .

Предположим, что мы хотим вычислить пятилетние скользящие средние значения по данным, измеренным в течение n = 11 лет. Поскольку L = 5, пятилетние скользящие средние образуют последовательность средних значений, вычисленных по пяти последовательным значениям временного ряда. Первое из пятилетних скользящих средних значений вычисляется путем суммирования данных о первых пяти годах с последующим делением на пять:

Второе пятилетнее скользящее среднее вычисляется путем суммирования данных о годах со 2-го по 6-й с последующим делением на пять:

Этот процесс продолжается, пока не будет вычислено скользящее среднее для последних пяти лет. Работая с годовыми данными, следует полагать число L (длину периода, выбранного для вычисления скользящих средних) нечетным. В этом случае невозможно вычислить скользящие средние для первых (L – 1)/2 и последних (L – 1)/2 лет. Следовательно, при работе с пятилетними скользящими средними невозможно выполнить вычисления для первых двух и последних двух лет. Год, для которого вычисляется скользящее среднее, должен находиться в середине периода, имеющего длину L . Если n = 11, a L = 5, первое скользящее среднее должно соответствовать третьему году, второе - четвертому, а последнее - девятому. На рис. 4 показаны графики 3- и 7-летних скользящих средних, вычисленные для доходов компании Cabot Corporation за период с 1982 по 2001 годы.

Рис. 4. Графики 3- и 7-летних скользящих средних, вычисленные для доходов компании Cabot Corporation

Обратите внимание на то, что при вычислении трехлетних скользящих средних проигнорированы наблюдаемые значения, соответствующие первому и последнему годам. Аналогично при вычислении семилетних скользящих средних нет результатов для первых и последних трех лет. Кроме того, семилетние скользящие средние намного больше сглаживают временной ряд, чем трехлетние. Это происходит потому, что семилетним скользящим средним соответствует более долгий период. К сожалению, чем больше длина периода, тем меньшее количество скользящих средних можно вычислить и представить на графике. Следовательно, больше семи лет для вычисления скользящих средних выбирать нежелательно, поскольку из начала и конца графика выпадет слишком много точек, что исказит форму временного ряда.

Экспоненциальное сглаживание. Для выявления долговременных тенденций, характеризующих изменения данных, кроме скользящих средних, применяется метод экспоненциального сглаживания. Этот метод позволяет также делать краткосрочные прогнозы (в рамках одного периода), когда наличие долговременных тенденций остается под вопросом. Благодаря этому метод экспоненциального сглаживания обладает значительным преимуществом над методом скользящих средних.

Метод экспоненциального сглаживания получил свое название от последовательности экспоненциально взвешенных скользящих средних. Каждое значение в этой последовательности зависит от всех предыдущих наблюдаемых значений. Еще одно преимущество метода экспоненциального сглаживания над методом скользящего среднего заключается в том, что при использовании последнего некоторые значения отбрасываются. При экспоненциальном сглаживании веса, присвоенные наблюдаемым значениям, убывают со временем, поэтому после выполнения вычислений наиболее часто встречающиеся значения получат наибольший вес, а редкие величины - наименьший. Несмотря на громадное количество вычислений, Excel позволяет реализовать метод экспоненциального сглаживания.

Уравнение, позволяющее сгладить временной ряд в пределах произвольного периода времени i , содержит три члена: текущее наблюдаемое значение Y i , принадлежащее временному ряду, предыдущее экспоненциально сглаженное значение E i –1 и присвоенный вес W .

(3) E 1 = Y 1 E i = WY i + (1 – W)E i–1 , i = 2, 3, 4, …

где E i – значение экспоненциально сглаженного ряда, вычисленное для i -го периода, E i –1 – значение экспоненциально сглаженного ряда, вычисленное для (i – 1)-гo периода, Y i – наблюдаемое значение временного ряда в i -ом периоде, W – субъективный вес, или сглаживающий коэффициент (0 < W < 1).

Выбор сглаживающего коэффициента, или веса, присвоенного членам ряда, является принципиально важным, поскольку он непосредственно влияет на результат. К сожалению, этот выбор до некоторой степени субъективен. Если исследователь хочет просто исключить из временного ряда нежелательные циклические или случайные колебания, следует выбирать небольшие величины W (близкие к нулю). С другой стороны, если временной ряд используется для прогнозирования, необходимо выбрать большой вес W (близкий к единице). В первом случае четко проявляются долговременные тенденции временного ряда. Во втором случае повышается точность краткосрочного прогнозирования (рис. 5).

Рис. 5 Графики экспоненциально сглаженного временного ряда (W=0,50 и W=0,25) для данных о доходах компании Cabot Corporation за период с 1982 по 2001 годы; формулы расчета см. в файле Excel

Экспоненциально сглаженное значение, полученное для i -го временного интервала, можно использовать в качестве оценки предсказанного значения в (i +1)-м интервале:

Для предсказания доходов компании Cabot Corporation в 2002 году на основе экспоненциально сглаженного временного ряда, соответствующего весу W = 0,25, можно использовать сглаженное значение, вычисленное для 2001 года. Из рис. 5 видно, что эта величина равна 1651,0 млн. долл. Когда станут доступными данные о доходах компании в 2002 году, можно применить уравнение (3) и предсказать уровень доходов в 2003 году, используя сглаженное значение доходов в 2002 году:

Пакет анализа Excel способен построить график экспоненциального сглаживания в один клик. Пройдите по меню Данные → Анализ данных и выберите опцию Экспоненциальное сглаживание (рис. 6). В открывшемся окне Экспоненциальное сглаживание задайте параметры. К сожалению, процедура позволяет построить только один сглаженный ряд, поэтому, если вы хотите «поиграть» с параметром W , повторите процедуру.

Рис. 6. Построение графика экспоненциального сглаживания с помощью Пакета анализа

Вычисление трендов с помощью метода наименьших квадратов и прогнозирование

Среди компонентов временного ряда чаще других исследуется тренд. Именно тренд позволяет делать краткосрочные и долгосрочные прогнозы. Для выявления долговременной тенденции изменения временного ряда обычно строят график, на котором наблюдаемые данные (значения зависимой переменной) откладываются на вертикальной оси, а временные интервалы (значения независимой переменной) - на горизонтальной. В этом разделе мы опишем процедуру выявления линейного, квадратичного и экспоненциального тренда с помощью метода наименьших квадратов.

Модель линейного тренда является простейшей моделью, применяемой для прогнозирования: Y i = β 0 + β 1 X i + ε i . Уравнение линейного тренда:

При заданном уровне значимости α нулевая гипотеза отклоняется, если тестовая t -статистика больше верхнего или меньше нижнего критического уровня t -распределения. Иначе говоря, решающее правило формулируется следующим образом: если t > t U или t < t L , нулевая гипотеза Н 0 отклоняется, в противном случае нулевая гипотеза не отклоняется (рис. 14).

Рис. 14. Области отклонения гипотезы для двустороннего критерия значимости параметра авторегрессии А р , имеющего наивысший порядок

Если нулевая гипотеза (А р = 0) не отклоняется, значит, выбранная модель содержит слишком много параметров. Критерий позволяет отбросить старший член модели и оценить авторегрессионную модель порядка р–1 . Эту процедуру следует продолжать до тех пор, пока нулевая гипотеза Н 0 не будет отклонена.

Выберите порядок р оцениваемой авторегрессионной модели с учетом того, что t -критерий значимости имеет n –2р–1 степеней свободы.
Сформируйте последовательность переменных р «с запаздыванием» так, чтобы первая переменная запаздывала на один временной интервал, вторая - на два и так далее. Последнее значение должно запаздывать на р временных интервалов (см. рис. 15).
Примените Пакет анализа Excel для вычисления регрессионной модели, содержащей все р значений временного ряда с запаздыванием.
Оцените значимость параметра А Р , имеющего наивысший порядок: а) если нулевая гипотеза отклоняется, в авторегрессионную модель можно включать все р параметров; б) если нулевая гипотеза не отклоняется, отбросьте р -ю переменную и повторите п.3 и 4 для новой модели, включающей р–1 параметр. Проверка значимости новой модели основана на t -критерии, количество степеней свободы определяется новым количеством параметров.
Повторяйте п.3 и 4, пока старший член авторегрессионной модели не станет статистически значимым.

Чтобы продемонстрировать авторегрессионное моделирование, вернемся к анализу временного ряда реальных доходов компании Wm. Wrigley Jr. На рис. 15 показаны данные, необходимые для построения авторегрессионных моделей первого, второго и третьего порядка. Для построения модели третьего порядка необходимы все столбцы этой таблицы. При построении авторегрессионной модели второго порядка последний столбец игнорируется. При построении авторегрессионной модели первого порядка игнорируются два последних столбца. Таким образом, при построении авторегрессионных моделей первого, второго и третьего порядка из 20 переменных исключаются одна, две и три соответственно.

Выбор наиболее точной авторегрессионной модели начинается с модели третьего порядка. Для корректной работы Пакета анализа следует в качестве входного интервала Y указать диапазон В5:В21, а входного интервала для Х – С5:Е21. Данные анализа приведены на рис. 16.

Проверим значимость параметра А 3 , имеющего наивысший порядок. Его оценка а 3 равна –0,006 (ячейка С20 на рис. 16), а стандартная ошибка равна 0,326 (ячейка D20). Для проверки гипотез Н 0: А 3 = 0 и Н 1: А 3 ≠ 0 вычислим t -статистику:

t -критерия с n–2p–1 = 20–2*3–1 = 13 степенями свободы равны: t L =СТЬЮДЕНТ.ОБР(0,025;13) = –2,160; t U =СТЬЮДЕНТ.ОБР(0,975;13) = +2,160. Поскольку –2,160 < t = –0,019 < +2,160 и р = 0,985 > α = 0,05, нулевую гипотезу Н 0 отклонять нельзя. Таким образом, параметр третьего порядка не имеет статистической значимости в авторегрессионной модели и должен быть удален.

Повторим анализ для авторегрессионной модели второго порядка (рис. 17). Оценка параметра, имеющего наивысший порядок, а 2 = –0,205, а ее стандартная ошибка равна 0,276. Для проверки гипотез Н 0: А 2 = 0 и Н 1: А 2 ≠ 0 вычислим t -статистику:

При уровне значимости α = 0,05, критические величины двухстороннего t -критерия с n–2p–1 = 20–2*2–1 = 15 степенями свободы равны: t L =СТЬЮДЕНТ.ОБР(0,025;15) = –2,131; t U =СТЬЮДЕНТ.ОБР(0,975;15) = +2,131. Поскольку –2,131 < t = –0,744 < –2,131 и р = 0,469 > α = 0,05, нулевую гипотезу Н 0 отклонять нельзя. Таким образом, параметр второго порядка не является статистически значимым, и его следует удалить из модели.

Повторим анализ для авторегрессионной модели первого порядка (рис. 18). Оценка параметра, имеющего наивысший порядок, а 1 = 1,024, а ее стандартная ошибка равна 0,039. Для проверки гипотез Н 0: А 1 = 0 и Н 1: А 1 ≠ 0 вычислим t -статистику:

При уровне значимости α = 0,05, критические величины двухстороннего t -критерия с n–2p–1 = 20–2*1–1 = 17 степенями свободы равны: t L =СТЬЮДЕНТ.ОБР(0,025;17) = –2,110; t U =СТЬЮДЕНТ.ОБР(0,975;17) = +2,110. Поскольку –2,110 < t = 26,393 < –2,110 и р = 0,000 < α = 0,05, нулевую гипотезу Н 0 следует отклонить. Таким образом, параметр первого порядка является статистически значимым, и его нельзя удалять из модели. Итак, модель авторегрессии первого порядка лучше других аппроксимирует исходные данные. Используя оценки а 0 = 18,261, а 1 = 1,024 и значение временного ряда за последний год - Y 20 = 1 371,88, можно предсказать величину реальных доходов компании Wm. Wrigley Jr. Company в 2002 г.:

Выбор адекватной модели прогнозирования

Выше были описаны шесть методов прогнозирования значений временного ряда: модели линейного, квадратичного и экспоненциального трендов и авторегрессионные модели первого, второго и третьего порядков. Существует ли оптимальная модель? Какую из шести описанных моделей следует применять для прогнозирования значения временного ряда? Ниже перечислены четыре принципа, которыми необходимо руководствоваться при выборе адекватной модели прогнозирования. Эти принципы основаны на оценках точности моделей. При этом предполагается, что значения временного ряда можно предсказать, изучая его предыдущие значения.

Принципы выбора моделей для прогнозирования:

Выполните анализ остатков.
Оцените величину остаточной ошибки с помощью квадратов разностей.
Оцените величину остаточной ошибки с помощью абсолютных разностей.
Руководствуйтесь принципом экономии.

Анализ остатков. Напомним, что остатком называется разность между предсказанным и наблюдаемым значением. Построив модель для временного ряда, следует вычислить остатки для каждого из n интервалов. Как показано на рис. 19, панель А, если модель является адекватной, остатки представляют собой случайный компонент временного ряда и, следовательно, распределены нерегулярно. С другой стороны, как показано на остальных панелях, если модель не адекватна, остатки могут иметь систематическую зависимость, не учитывающую либо тренд (панель Б), либо циклический (панель В), либо сезонный компонент (панель Г).

Рис. 19. Анализ остатков

Измерение абсолютной и среднеквадратичной остаточных погрешностей. Если анализ остатков не позволяет определить единственную адекватную модель, можно воспользоваться другими методами, основанными на оценке величины остаточной погрешности. К сожалению, статистики не пришли к консенсусу относительно наилучшей оценки остаточных погрешностей моделей, применяемых для прогнозирования. Исходя из принципа наименьших квадратов, можно сначала провести регрессионный анализ и вычислить стандартную ошибку оценки S XY . При анализе конкретной модели эта величина представляет собой сумму квадратов разностей между фактическим и предсказанным значениями временного ряда. Если модель идеально аппроксимирует значения временного ряда в предыдущие моменты времени, стандартная ошибка оценки равна нулю. С другой стороны, если модель плохо аппроксимирует значения временного ряда в предыдущие моменты времени, стандартная ошибка оценки велика. Таким образом, анализируя адекватность нескольких моделей, можно выбрать модель, имеющую минимальную стандартную ошибку оценки S XY .

Основным недостатком такого подхода является преувеличение ошибок при прогнозировании отдельных значений. Иначе говоря, любая большая разность между величинами Y i и Ŷ i при вычислении суммы квадратов ошибок SSE возводится в квадрат, т.е. увеличивается. По этой причине многие статистики предпочитают применять для оценки адекватности модели прогнозирования среднее абсолютное отклонение (mean absolute deviation - MAD):

При анализе конкретных моделей величина MAD представляет собой среднее значение модулей разностей между фактическим и предсказанными значениями временного ряда. Если модель идеально аппроксимирует значения временного ряда в предыдущие моменты времени, среднее абсолютное отклонение равно нулю. С другой стороны, если модель плохо аппроксимирует такие значения временного ряда, среднее абсолютное отклонение велико. Таким образом, анализируя адекватность нескольких моделей, можно выбрать модель, имеющую минимальное среднее абсолютное отклонение.

Принцип экономии. Если анализ стандартных ошибок оценок и средних абсолютных отклонений не позволяет определить оптимальную модель, можно воспользоваться четвертым методом, основанным на принципе экономии. Этот принцип утверждает, что из нескольких равноправных моделей следует выбирать простейшую.

Среди шести рассмотренных в главе моделей прогнозирования наиболее простыми являются линейная и квадратичная регрессионные модели, а также авторегрессионная модель первого порядка. Остальные модели намного сложнее.

Сравнение четырех методов прогнозирования. Для иллюстрации процесса выбора оптимальной модели вернемся к временному ряду, состоящему из величин реального дохода компании Wm. Wrigley Jr. Company. Сравним четыре модели: линейную, квадратичную, экспоненциальную и авторегрессионную модель первого порядка. (Авторегрессионные модели второго и третьего порядка лишь незначительно улучшают точность прогнозирования значений данного временного ряда, поэтому их можно не рассматривать.) На рис. 20 показаны графики остатков, построенные при анализе четырех методов прогнозирования с помощью Пакета анализа Excel. Делая выводы на основе этих графиков, следует быть осторожным, поскольку временной ряд содержит только 20 точек. Методы построения см. соответствующий лист Excel-файла.

Рис. 20. Графики остатков, построенные при анализе четырех методов прогнозирования с помощью Пакета анализа Excel

Ни одна модель, кроме авторегрессионой модели первого порядка, не учитывает циклический компонент. Именно эта модель лучше других аппроксимирует наблюдения и характеризуется наименее систематической структурой. Итак, анализ остатков всех четырех методов показал, что наилучшей является авторегрессионная модель первого порядка, а линейная, квадратичная и экспоненциальная модели имеют меньшую точность. Чтобы убедиться в этом, сравним величины остаточных погрешностей этих методов (рис. 21). С методикой расчетов можно ознакомиться, открыв Excel-файл. На рис. 21 указаны фактические значения Y i (колонка Реальный доход ), предсказанные значения Ŷ i , а также остатки е i для каждой из четырех моделей. Кроме того, показаны значения S YX и MAD . Для всех четырех моделей величинs S YX и MAD примерно одинаковые. Экспоненциальная модель является относительно худшей, а линейная и квадратичная модели превосходят ее по точности. Как и ожидалось, наименьшие величины S YX и MAD имеет авторегрессионная модель первого порядка.

Рис. 21. Сравнение четырех методов прогнозирования с помощью показателей S YX и MAD

Выбрав конкретную модель прогнозирования, необходимо внимательно следить за дальнейшими изменениями временного ряда. Помимо всего прочего, такая модель создается, чтобы правильно предсказывать значения временного ряда в будущем. К сожалению, такие модели прогнозирования плохо учитывают изменения в структуре временного ряда. Совершенно необходимо сравнивать не только остаточную погрешность, но и точность прогнозирования будущих значений временного ряда, полученную с помощью других моделей. Измерив новую величину Y i в наблюдаемом интервале времени, ее необходимо тотчас же сравнить с предсказанным значением. Если разница слишком велика, модель прогнозирования следует пересмотреть.

Прогнозирование временны х рядов на основе сезонных данных

До сих пор мы изучали временные ряды, состоящие из годовых данных. Однако многие временные ряды состоят из величин, измеряемых ежеквартально, ежемесячно, еженедельно, ежедневно и даже ежечасно. Как показано на рис. 2, если данные измеряются ежемесячно или ежеквартально, следует учитывать сезонный компонент. В этом разделе мы рассмотрим методы, позволяющие прогнозировать значения таких временных рядов.

В сценарии, описанном в начале главы, упоминалась компания Wal-Mart Stores, Inc. Рыночная капитализация компании 229 млрд. долл. Ее акции котируются на Нью-Йоркской фондовой бирже под аббревиатурой WMT. Финансовый год компании заканчивается 31 января, поэтому в четвертый квартал 2002 года включаются ноябрь и декабрь 2001 года, а также январь 2002 года. Временной ряд квартальных доходов компании приведен на рис. 22.

Рис. 22. Квартальные доходы компании Wal-Mart Stores, Inc. (млн. долл.)

Для таких квартальных рядов, как этот, классическая мультипликативная модель, кроме тренда, циклического и случайного компонента, содержит сезонный компонент: Y i = T i * S i * C i * I i

Прогнозирование месячных и временны х рядов с помощью метода наименьших квадратов. Регрессионная модель, включающая сезонный компонент, основана на комбинированном подходе. Для вычисления тренда применяется метод наименьших квадратов, описанный ранее, а для учета сезонного компонента - категорийная переменная (подробнее см. раздел Регрессионные модели с фиктивной переменной и эффекты взаимодействия ). Для аппроксимации временных рядов с учетом сезонных компонентов используется экспоненциальная модель. В модели, аппроксимирующей квартальный временной ряд, для учета четырех кварталов нам понадобились три фиктивные переменные Q 1 , Q 2 и Q 3 , а в модели для месячного временного ряда 12 месяцев представляются с помощью 11 фиктивных переменных. Поскольку в этих моделях в качестве отклика используется переменная logY i , а не Y i , для вычисления настоящих регрессионных коэффициентов необходимо выполнить обратное преобразование.

Чтобы проиллюстрировать процесс построения модели, аппроксимирующей квартальный временной ряд, вернемся к доходам компании Wal-Mart. Параметры экспоненциальной модели, полученные с помощью Пакета анализа Excel, показаны на рис. 23.

Рис. 23. Регрессионный анализ квартальных доходов компании Wal-Mart Stores, Inc.

Видно, что экспоненциальная модель довольно хорошо аппроксимирует исходные данные. Коэффициент смешанной корреляции r 2 равен 99,4% (ячейки J5), скорректированный коэффициент смешанной корреляции - 99,3% (ячейки J6), тестовая F -статистика - 1 333,51 (ячейки M12), а р -значение равно 0,0000. При уровне значимости α = 0,05, каждый регрессионный коэффициент в классической мультипликативной модели временного ряда является статистически значимым. Применяя к ним операцию потенцирования, получаем следующие параметры:

Коэффициенты интерпретируются следующим образом.

Используя регрессионные коэффициенты b i , можно предсказать доход, полученный компанией в конкретном квартале. Например, предскажем доход компании для четвертого квартала 2002 года (X i = 35):

log = b 0 + b 1 Х i = 4,265 + 0,016*35 = 4,825

= 10 4,825 = 66 834

Таким образом, согласно прогнозу в четвертом квартале 2002 года компания должна была получить доход, равный 67 млрд. долл. (вряд ли следует делать прогноз с точностью до миллиона). Для того чтобы распространить прогноз на период времени, находящийся за пределами временного ряда, например, на первый квартал 2003 года (X i = 36, Q 1 = 1), необходимо выполнить следующие вычисления:

logŶ i = b 0 + b 1 Х i + b 2 Q 1 = 4,265 + 0,016*36 – 0,093*1 = 4,748

10 4,748 = 55 976

Индексы

Индексы используются в качестве индикаторов, реагирующих на изменения экономической ситуации или деловой активности. Существуют многочисленные разновидности индексов, в частности, индексы цен, количественные индексы, ценностные индексы и социологические индексы. В данном разделе мы рассмотрим лишь индекс цен. Индекс - величина некоторого экономического показателя (или группы показателей) в конкретный момент времени, выраженный в процентах от его значения в базовый момент времени.

Индекс цен. Простой индекс цен отражает процентное изменение цены товара (или группы товаров) в течение заданного периода времени по сравнению с ценой этого товара (или группы товаров) в конкретный момент времени в прошлом. При вычислении индекса цен прежде всего следует выбрать базовый промежуток времени - интервал времени в прошлом, с которым будут производиться сравнения. При выборе базового промежутка времени для конкретного индекса периоды экономической стабильности являются более предпочтительными по сравнению с периодами экономического подъема или спада. Кроме того, базовый промежуток не должен быть слишком удаленным во времени, чтобы на результаты сравнения не слишком сильно влияли изменения технологии и привычек потребителей. Индекс цен вычисляется по формуле:

где I i - индекс цен в i -м году, Р i - цена в i -м году, Р баз - цена в базовом году.

Индекс цен - процентное изменение цены товара (или группы товаров) в заданный период времени по отношению к цене товара в базовый момент времени. В качестве примера рассмотрим индекс цен на неэтилированный бензин в США в промежутке времени с 1980 по 2002 г. (рис. 24). Например:

Рис. 24. Цена галлона неэтилированного бензина и простой индекс цен в США с 1980 по 2002 г. (базовые годы - 1980 и 1995)

Итак, в 2002 г. цена неэтилированного бензина в США была на 4,8% больше, чем в 1980 г. Анализ рис. 24 показывает, что индекс цен в 1981 и 1982 гг. был больше индекса цен в 1980 г., а затем вплоть до 2000 года не превышал базового уровня. Поскольку в качестве базового периода выбран 1980 г., вероятно, имеет смысл выбрать более близкий год, например, 1995 г. Формула для пересчета индекса по отношению к новому базовому промежутку времени:

где I новый - новый индекс цен, I старый - старый индекс цен, I новая база – значение индекса цен в новом базовом году при расчете для старого базового года.

Предположим, что в качестве новой базы выбран 1995 год. Используя формулу (10), получаем новый индекс цен для 2002 года:

Итак, в 2002 г. неэтилированный бензин в США стоил на 13,9% больше, чем в 1995 г.

Невзвешенные составные индексы цен. Несмотря на то что индекс цен на любой отдельный товар представляет несомненный интерес, более важным является индекс цен на группу товаров, позволяющий оценить стоимость и уровень жизни большого количества потребителей. Невзвешенный составной индекс цен, определенный формулой (11), приписывает каждому отдельному виду товаров одинаковый вес. Составной индекс цен отражает процентное изменение цены группы товаров (часто называемой потребительской корзиной) в заданный период времени по отношению к цене этой группы товаров в базовый момент времени.

где t i - номер товара (1, 2, …, n ), n - количество товаров в рассматриваемой группе, - сумма цен на каждый из n товаров в период времени t , - сумма цен на каждый из n товаров в нулевой период времени, - величина невзвешенного составного индекса в период времени t .

На рис. 25 представлены средние цены на три вида фруктов за период с 1980 по 1999 гг. Для вычисления невзвешенного составного индекса цен в разные годы применяется формула (11), считая базовым 1980 год.

Итак, в 1999 г. суммарная цена фунта яблок, фунта бананов и фунта апельсинов на 59,4% превышала суммарную цену на эти фрукты в 1980 г.

Рис. 25. Цены (в долл.) на три вида фруктов и невзвешенный составной индекс цен

Невзвешенный составной индекс цен выражает изменения цен на всю группу товаров с течением времени. Несмотря на то что этот индекс легко вычислять, у него есть два явных недостатка. Во-первых, при вычислении этого индекса все виды товаров считаются одинаково важными, поэтому дорогие товары приобретают излишнее влияние на индекс. Во-вторых, не все товары потребляются одинаково интенсивно, поэтому изменения цен на мало потребляемые товары слишком сильно влияют на невзвешенный индекс.

Взвешенные составные индексы цен. Из-за недостатков невзвешенных индексов цен более предпочтительными являются взвешенные индексы цен, учитывающие различия цен и уровней потребления товаров, образующих потребительскую корзину. Существуют два типа взвешенных составных индексов цен. Индекс цен Лапейрэ , определенный формулой (12), использует уровни потребления в базовом году. Взвешенный составной индекс цен позволяет учесть уровни потребления товаров, образующих потребительскую корзину, присваивая каждому товару определенный вес.

где t - период времени (0, 1, 2, …), i - номер товара (1, 2, …, n ), n i в нулевой период времени, - значение индекса Лапейрэ в период времени t .

Вычисления индекса Лапейрэ показаны на рис. 26; в качестве базового используется 1980 год.

Рис. 26. Цены (в долл.), количество (потребление в фунтах на душу населения) трех видов фруктов и индекс Лапейрэ

Итак, индекс Лапейрэ в 1999 г. равен 154,2. Это свидетельствует от том, что в 1999 году эти три вида фруктов были на 54,2% дороже, чем в 1980 году. Обратите внимание на то, что этот индекс меньше невзвешенного индекса, равного 159,4, поскольку цены на апельсины - фрукты, потребляемые меньше остальных, - выросли больше, чем цена яблок и бананов. Иначе говоря, поскольку цены на фрукты, потребляемые наиболее интенсивно, выросли меньше, чем цены на апельсины, индекс Лапейрэ меньше невзвешенного составного индекса.

Индекс цен Пааше использует уровни потребления товара в текущем, а не базовом периоде времени. Следовательно, индекс Пааше более точно отражает полную стоимость потребления товаров в заданный момент времени. Однако этот индекс имеет два существенных недостатка. Во-первых, как правило, текущие уровни потребления трудно определить. По этой причине многие популярные индексы используют индекс Лапейрэ, а не индекс Пааше. Во-вторых, если цена некоторого конкретного товара, входящего в потребительскую корзину, резко возрастает, покупатели снижают уровень его потребления по необходимости, а не вследствие изменения вкусов. Индекс Пааше вычисляется по формуле:

где t - период времени (0, 1, 2, …), i - номер товара (1, 2, …, n ), n - количество товаров в рассматриваемой группе, - количество единиц товара i в нулевой период времени, - значение индекса Пааше в период времени t .

Вычисления индекса Пааше показаны на рис. 27; в качестве базового используется 1980 год.

Рис. 27. Цены (в долл.), количество (потребление в фунтах на душу населения) трех видов фруктов и индекс Пааше

Итак, индекс Пааше в 1999 г. равен 147,0. Это свидетельствует от том, что в 1999 году эти три вида фруктов были на 47,0% дороже, чем в 1980 году.

Некоторые популярные индексы цен. В бизнесе и экономике используется несколько индексов цен. Наиболее популярным является индекс потребительских цен (Consumer Index Price - CPI). Официально этот индекс называется CPI-U, чтобы подчеркнуть, что он вычисляется для городов (urban), хотя, как правило, его называют просто CPI. Этот индекс ежемесячно публикуется Бюро статистики труда (U. S. Bureau of Labor Statistics) в качестве основного инструмента для измерения стоимости жизни в США. Индекс потребительских цен является составным и взвешенным по методу Лапейрэ. При его вычислении используются цены 400 наиболее широко потребляемых продуктов, видов одежды, транспортных, медицинских и коммунальных услуг. В данный момент при вычислении этого индекса в качестве базового используется период 1982–1984 гг. (рис. 28). Важной функцией индекса CPI является его использование в качестве дефлятора. Индекс CPI используется для пересчета фактических цен в реальные путем умножения каждой цены на коэффициент 100/CPI. Расчеты показывают, что за последние 30 лет среднегодовые темпы инфляции в США составили 2,9%.

Рис. 28. Динамика Consumer Index Price; полные данные см. Excel-файл

Другим важным индексом цен, публикуемым Бюро статистики труда, является индекс цен производителей (Producer Price Index - PPI). Индекс PPI является взвешенным составным индексом, использующим метод Лапейрэ для оценки изменения цен товаров, продаваемых их производителями. Индекс PPI является лидирующим индикатором для индекса CPI. Иначе говоря, увеличение индекса PPI приводит к увеличению индекса CPI, и наоборот, уменьшение индекса PPI приводит к уменьшению индекса CPI. Финансовые индексы, такие как индекс Доу-Джонса для акций промышленных предприятий (Dow Jones Industrial Average - DJIA), S&P 500 и NASDAQ, используются для оценки изменения стоимости акций в США. Многие индексы позволяют оценить прибыльность международных фондовых рынков. К таким индексам относятся индекс Nikkei в Японии, Dax 30 в Германии и SSE Composite в Китае.

Ловушки, связанные с анализом временны х рядов

Значение методологии, использующей информацию о прошлом и настоящем для того, чтобы прогнозировать будущее, более двухсот лет назад красноречиво описал государственный деятель Патрик Генри: «У меня есть лишь одна лампа, освещающая путь, - мой опыт. Только знание прошлого позволяет судить о будущем».

Анализ временных рядов основан на предположении, что факторы, влиявшие на деловую активность в прошлом и влияющие в настоящем, будут действовать и в будущем. Если это правда, анализ временных рядов представляет собой эффективное средство прогнозирования и управления. Однако критики классических методов, основанных на анализе временных рядов, утверждают, что эти методы слишком наивны и примитивны. Иначе говоря, математическая модель, учитывающая факторы, действовавшие в прошлом, не должна механически экстраполировать тренды в будущее без учета экспертных оценок, опыта деловой активности, изменения технологии, а также привычек и потребностей людей. Пытаясь исправить это положение, в последние годы специалисты по эконометрии разрабатывали сложные компьютерные модели экономической активности, учитывающие перечисленные выше факторы.

Тем не менее, методы анализа временных рядов представляют собой превосходный инструмент прогнозирования (как краткосрочного, так и долгосрочного), если они применяются правильно, в сочетании с другими методами прогнозирования, а также с учетом экспертных оценок и опыта.

Резюме. В заметке с помощью анализа временных рядов разработаны модели для прогнозирования доходов трех компаний: Wm. Wrigley Jr. Company, Cabot Corporation и Wal-Mart. Описаны компоненты временного ряда, а также несколько подходов к прогнозированию годовых временных рядов - метод скользящих средних, метод экспоненциального сглаживания, линейная, квадратичная и экспоненциальная модели, а также авторегрессионная модель. Рассмотрена регрессионная модель, содержащая фиктивные переменные, соответствующие сезонному компоненту. Показано применение метода наименьших квадратов для прогнозирования месячных и квартальных временных рядов (рис. 29).

Р степеней свободы утрачиваются при сравнении значений временного ряда.

Всем привет, раз на хабре пошел цикл статей про нейронные сети, то и я напишу про возможность использования нейронных сетей в задаче прогнозирования финансовых временных рядов.
Существует несколько различных теорий о возможности прогнозирования фондовых рынков. Одна из них - гипотеза эффективного рынка, согласно ей, в цене акции уже учтена вся имеющиеся информация и делать прогнозы бессмысленно. Продолжением этой гипотезы можно назвать теорию случайных блужданий.
В теории случайных блужданий информация подразделяется на две категории - предсказуемую, известную и новую, неожиданную. Если предсказуемая, а тем более уже известная информация уже заложена в рыночные цены, то новая неожиданная информация в цене пока еще не присутствует. Одним из свойств непредсказуемой информации является ее случайность и, соответственно, случайность последующего изменения цены. Гипотеза эффективного рынка объясняет изменение цен поступлениями новой неожиданной информации, а теория случайных блужданий дополняет это мнением о случайности изменения цен.

Краткий практический вывод теории случайных блужданий - игрокам рекомендуется использовать в своей работе стратегию «покупай и держи». Следует заметить, что расцвет теории случайных блужданий пришелся на 70-е годы, когда на фондовом рынке США, традиционно являющемся главным полигоном проверки и использования всех новых экономических теорий, не было явных тенденций, а сам рынок находился в узком коридоре. Согласно гипотезе эффективного рынка и теории случайных блужданий прогнозирование цен невозможно.
Однако, большинство участников рынка все же использует различные методы для прогнозирования, предполагая, что сам ряд полон скрытых закономерностей.
Такие скрытые эмпирические закономерности пытался выявить в 30-х годах в серии своих статей основатель технического анализа Эллиот (R.Elliott).
В 80-х годах неожиданную поддержку эта точка зрения нашла в незадолго до этого появившейся теории динамического хаоса. Эта теория построена на противопоставлении хаотичности и стохастичности (случайности). Хаотические ряды только выглядят случайными, но, как детерминированный динамический процесс, вполне допускают краткосрочное прогнозирование. Область возможных предсказаний ограничена по времени горизонтом прогнозирования, но этого может оказаться достаточно для получения реального дохода от предсказаний (Chorafas, 1994). И тот, кто обладает лучшими математическими методами извлечения закономерностей из зашумленных хаотических рядов, может надеяться на большую норму прибыли - за счет своих менее оснащенных собратьев.

Методы прогнозирования

В настоящее время профессиональные участники рынка используют различные методы прогнозирования финансовых временных рядов, основные из них:
1) экспертные методы прогнозирования.
Самый распространенный метод из группы экспертных методов - метод Дельфи. Суть метода заключается в сборе мнений различных экспертов и их обобщение в единую оценку. Если мы прогнозируем этим методом финансовые рынки, то нам нужно выделить экспертную группу людей разбирающихся в этой предметной области (это могут быть аналитики, профессиональные трейдеры, инвесторы, банки итд), провести анкетирование или опрос и сделать обобщение о текущей ситуации на рынке.
2) Методы логического моделирования.
Основаны на поиске и выявлении закономерностей рынка в долгосрочной перспективе.
Сюда входят методы:
- метод сценариев («если - то»), описание последовательностей исходов из того или иного события, с созданием базы знаний;
- методы прогнозов по образу;
- метод аналогий.
3) Экономико-математические методы.
Методы из этой группы базируются на создании моделей исследуемого объекта. Экономико-математическая модель - это определенная схема, путь развития рынка ценных бумаг при заданных условиях. При прогнозировании финансовых временных рядов используют статистические, динамические, микро- макро-, линейные, нелинейные, глобальные, локальные, отраслевые, оптимизационные, дескриптивные. Очень значимы для финансовых наук оптимизационные модели, они представляют из себя систему уравнений, куда входят различные ограничения, а также особое уравнение называемое функционалом оптимальности (или критерием оптимальности). С помощью него находят оптимальное, наилучшее решение по какому-либо показателю.
4) Статистические методы.
Статистические методы прогнозирования применительно, для финансовых временных рядов основаны на построении различных индексов (диффузный, смешанный), расчет значений дисперсии, мат ожидания, вариации, ковариации, интерполяции, экстраполяции.
5) Технический анализ.
Прогнозирование изменений цен в будущем на основе анализа изменений цен в прошлом. В его основе лежит анализ временны́х рядов цен - «чартов» (от англ. chart). Помимо ценовых рядов, в техническом анализе используется информация об объёмах торгов и другие статистические данные. Наиболее часто методы технического анализа используются для анализа цен, изменяющихся свободно, например, на биржах. В техническом анализе множество инструментов и методов, но все они основаны на одном предположении: из анализа временны́х рядов, выделяя тренды, можно спрогнозировать поведение цен.
6) Фундаментальный анализ.
Метод прогнозирования рыночной (биржевой) стоимости компании, основанных на анализе финансовых и производственных показателей её деятельности.
Фундаментальный анализ используется инвесторами для оценки стоимости компании (или её акций), которая отражает состояние дел в компании, рентабельность её деятельности. При этом анализу подвергаются финансовые показатели компании: выручка, EBITDA (Earnings Before Interests Tax, Deprecation and Amortization), чистая прибыль, чистая стоимость компании, обязательства, денежный поток, величина выплачиваемых дивидендов и производственные показатели компании.

Использование нейронных сетей для прогнозирование финансовых временных рядов

Нейронные сети можно отнести к методам технического анализа, т.к они тоже пытаются выявить закономерности в развитие ряда, обучаясь на его исторических данных.
Финансовый временной ряд довольно сильно зашумлен и поэтому надо уделить особое внимание предобработке данных и кодированию переменных.

Рис. 1 - Интервальный график в виде японских свечей индекса РТС. Период - день.

Для справки: каждая фигура на графике показывает нам определенный промежуток времени (в данном случае один день) и движения цены за этот промежуток. Опишем их:
- цена открытия - это величина цены в начале этого промежутка времени
- цена закрытия - это величина цены в конце этого промежутка времени
- максимальная цена - это максимальная цена за весь этот промежуток времени
- минимальная цена - это минимальная цена за весь этот промежуток времени
- если цена шла вверх (бычий тренд) за этот период - тело свечи будет белым (или прозрачным)
- если цена шла вниз (медвежий тренд) за этот период - тело свечи будет черным (или закрашенным)

Рис. 2 - Японские свечи.

Действительно значимыми для предсказаний являются изменения котировок. Поэтому на вход нейронной сети после предварительной обработки будем подавать ряд процентных приращений котировок, рассчитанных по формуле X[t] / X, где X[t] и X цены закрытия периодов.

Рис. 3 - Ряд процентных приращений котировок, рассчитанных по формуле X[t] / X.

Но, т.к. изначально процентные приращения имеют гауссово распределение, а из всех статистических функций распределения, определенных на конечном интервале, максимальной энтропией обладает равномерное распределение, то для этого перекодируем входные переменные, чтобы все примеры в обучающей выборке несли примерно одинаковую информационную нагрузку.

Рис. 4 - Распределение процентных приращений котировок.

Алгоритм здесь следующий - отрезок от минимального процентного приращения до максимального разбивается на N отрезков, так, чтобы в диапазон значений каждого отрезка входило равное количество процентных приращений котировок.

Рис. 5 - Границы 6 отрезков, количество процентных приращений в каждом отрезке равно.

Далее перекодируем процентные приращения в классы, идентифицирующие каждый отрезок.

Рис. 6 - Перекодирование процентных приращений.

И получим равномерное распределение.

Рис. 7 - Равномерное распределение.

Задача получения входных образов для формирования обучающего множества в задачах прогнозирования временных рядов предполагает использование метода «окна». Этот метод подразумевает использование «окна» с фиксированным размером, способного перемещаться по временной последовательности исторических данных, начиная с первого элемента, и предназначены для доступа к данным временного ряда, причем «окно» размером N, получив такие данные, передает на вход нейронной сети элементы с 1 по N-1, а N-ый элемент используется в качестве выхода.

Рис. 8 - Метод «окна».

Качество обучающей выборки тем выше, чем меньше ее противоречивость и больше повторяемость. Для задач прогнозирования финансовых временных рядов высокая противоречивость обучающей выборки является признаком того, что способ описания выбран неудачно. Факторы влияющие на противоречивость и повторяемость:
1) количество элементов обучающей выборки - чем больше элементов, тем больше противоречивость и повторяемость;
2) количество классов на которые перекодировали процентные приращения - при увеличение снижается противоречивость и повторяемость;
3) глубина погружения в финансовый временной ряд («окно») - чем больше глубина, тем меньше противоречивость и меньше повторяемость.
При создании обучающей выборки, меняя эти параметры, необходимо найти баланс при котором уровень противоречивости минимален а повторяемость максимальна.

Для практического примера спрогнозируем направления приращений индекса РТС с 16.01.2012 по 17.04.2012 гг, период - день.

Рис. 9 - График индекса РТС с 8.01.2012 по 18.04.2012 гг, период - день.

Создадим коллекцию нейронных сетей, показавших наилучшие результаты (более 70% правильно спрогнозированных направлений изменений значения индекса) на тестовом множестве (последние 50 периодов). Через каждые 5 периодов коллекция пересоздается, в тестовое множество включается уже прогнозированные периоды. Нейронные сети, входящие в коллекцию не однотипны - у каждой подбирается размер обучающей выборки, количество классов на которые перекодируются процентные приращения, глубина погружения («окно») и количество нейронов в скрытом слое так, чтобы наиболее точно прогнозировала текущую рыночную ситуацию (последние 50 периодов).
Базовая архитектура используемых нейронных сетей - многослойный перцептрон с одним скрытым слоем. Есть прекрасная готовая реализация в библиотеке ALGLIB . В качестве алгоритма обучения используем L-BFGS алгоритм (limited memory BFGS), квази-Ньютоновский метод с трудоемкостью итерации, линейной по количеству весовых коэффициентов WCount и размеру обучающего множества, и умеренными требованиями к дополнительной памяти - O(WCount).

Пример коллекции:

Прогноз с: 16.01.2012 по: 20.01.2012
Количество сетей: 16
Параметры сетей:
Вход: 3 Скрытый слой: 18 Количество классов: 4 Длина обучающей выборки: 200 Результат на об. выб.: 74,6 Результат на тестовой выб.: 72,5
Вход: 3 Скрытый слой: 19 Количество классов: 4 Длина обучающей выборки: 200 Результат на об. выб.: 74,6 Результат на тестовой выб.: 72,5
Вход: 3 Скрытый слой: 20 Количество классов: 4 Длина обучающей выборки: 200 Результат на об. выб.: 74,6 Результат на тестовой выб.: 72,5
Вход: 4 Скрытый слой: 18 Количество классов: 4 Длина обучающей выборки: 200 Результат на об. выб.: 75,6 Результат на тестовой выб.: 74,5
Вход: 4 Скрытый слой: 20 Количество классов: 4 Длина обучающей выборки: 200 Результат на об. выб.: 74,1 Результат на тестовой выб.: 72,5
Вход: 5 Скрытый слой: 19 Количество классов: 4 Длина обучающей выборки: 200 Результат на об. выб.: 74,6 Результат на тестовой выб.: 70,6
Вход: 5 Скрытый слой: 20 Количество классов: 4 Длина обучающей выборки: 200 Результат на об. выб.: 76,1 Результат на тестовой выб.: 72,5
Вход: 4 Скрытый слой: 18 Количество классов: 5 Длина обучающей выборки: 200 Результат на об. выб.: 67,2 Результат на тестовой выб.: 74,5
Вход: 5 Скрытый слой: 18 Количество классов: 5 Длина обучающей выборки: 200 Результат на об. выб.: 70,6 Результат на тестовой выб.: 74,5
Вход: 5 Скрытый слой: 19 Количество классов: 5 Длина обучающей выборки: 200 Результат на об. выб.: 76,6 Результат на тестовой выб.: 74,5
Вход: 5 Скрытый слой: 20 Количество классов: 5 Длина обучающей выборки: 200 Результат на об. выб.: 76,1 Результат на тестовой выб.: 74,5
Вход: 3 Скрытый слой: 18 Количество классов: 4 Длина обучающей выборки: 270 Результат на об. выб.: 74,9 Результат на тестовой выб.: 70,6
Вход: 3 Скрытый слой: 19 Количество классов: 4 Длина обучающей выборки: 270 Результат на об. выб.: 74,9 Результат на тестовой выб.: 70,6
Вход: 3 Скрытый слой: 20 Количество классов: 4 Длина обучающей выборки: 270 Результат на об. выб.: 74,9 Результат на тестовой выб.: 70,6
Вход: 5 Скрытый слой: 18 Количество классов: 4 Длина обучающей выборки: 340 Результат на об. выб.: 78,0 Результат на тестовой выб.: 70,6
Вход: 5 Скрытый слой: 19 Количество классов: 4 Длина обучающей выборки: 340 Результат на об. выб.: 79,5 Результат на тестовой выб.: 74,5

Параметры всех использованных коллекций можно посмотреть в файле

Так как прогнозируем направление изменения индекса РТС, то используем простейшую стратегию - открываем позицию по цене закрытия текущего периода и закрываем ее по цене закрытия прогнозируемого периода, фиксируя прибыль или убыток.

Рис. 10 - Результат работы.

Результат работы с 16.01.2012 по 17.04.2012 гг: 77% правильно прогнозированных направлений изменений значения индекса.

Теги:

нейронные сети
фондовый рынок

Добавить метки