BMSTU/04-time-series-analysis-for...

438 lines
28 KiB
TeX
Raw Normal View History

2023-02-13 13:59:23 +03:00
\documentclass{article}
\input{settings/common-preamble}
\input{settings/bmstu-preamble}
\input{settings/fancy-listings-preamble}
\author{Гребенюк Елена Алексеевна}
\title{Анализ и прогнозирование временных рядов}
\date{2023-02-08}
\begin{document}
\sloppy
\fontsize{14}{18}\selectfont
\maketitle
\tableofcontents
\newpage
\section{Введение}
\href{https://jino.cloud/s/GGZgntaAqMRQbK2}{Вентцель -- Теория вероятностей}
\href{https://jino.cloud/s/8qNSXycHpkmmmZb}{Гмурман -- Ьеория вероятностей и математическая статистика}
\subsection{Содержание курса}
\begin{enumerate}
\item Построение моделей временных рядов, линейные модели: ARMA, AR,MA, ECM. Прогноз.
\item Ряды со стохастическим трендом и их модели: ARIMA, SARIMA.
\item Модели с условной гетероскедастичностью: ARCH, GARCH (модели для прогнозирования волатильности доходности финансовых активов).
\item Сингулярный спектральный анализ (SSA).
\item Локальная аппроксимация (LA).
\item Алгоритмы обнаружения изменений свойств временных рядов.
\end{enumerate}
\subsection{Модель случайности}
Вероятностное пространство включает следующие элементы: $\{\Omega, F, P \}$, где $\Omega = \{ \omega_1, \omega_2, ... \}$ -- пространство элементарных событий, множество(конечное или счетное); $F$ -- $\sigma$ -алгебра событий -- структура на множестве событий $\Omega$; P -- вероятность -- мера, определенная на F.
$\sigma$ -алгебра F - набор подмножеств (подмножеств событий), который
\begin{enumerate}
\item содержит достоверное событие: $\Omega \subset F$.
\item вместе с любым событием $A \subset F$ содержит и противоположное к нему: если $A \subset F$, то $\overline{A} \subset F$.
\item вместе с любыми событиями $A_1, A_2, ... A_n, ...$ система F содержит их объединение -- если $A_1, A_2, ... A_n \subset F, то \cup_{i=1}^{\infty} A_i \subset F$.
\end{enumerate}
(сигма-алгебра позволяет включить бесконечное число множеств.)
Мера -- это неотрицательная $\sigma$-аддитивная функция множеств, всегда положительная если пространство дискретно.
Пусть: $\Omega$ -- некоторое множество, и F -- $\sigma$-алгебра его подмножеств. Функция $\mu: F \to R \cup + \infty$ называется мерой на $\{ \Omega, F \}$ если она удовлетворяет условиям:
\begin{itemize}
\item для любого множества $A \in F$ его мера неотрицательна: $\mu(A) \gg 0 $;
\item для любого счётного набора попарно непересекающихся множеств
$A_1, A_2, A_3, ... \in F$ (т.е. такого, что $A_i \cap A_j = \oslash$ при всех $i \neq j$) мера их объединения равна сумме их мер:
\[ \mu(\cup_{i=1}^{\infty} A_i) = \sum_{i=1}^{\infty} \mu(A_i) \]
\end{itemize}
(другими словами) $\Omega$ - это множество всех возможных значений. $F$ -- это вероятность получения определённого сочетания. например, бросаем кубик и за два броска выпало $\{ 1, 2 \}$. какая вероятность?
\[ \frac{6!}{2! * 4!} = 15, \]
то есть 1/15. Или, например есть температура, которая может изменяться равномерно в интервале $10^\circ - 15^\circ$. тогда её вероятность $P < 7,5 = 1/2$
\subsection{Определение вероятности}
Функция распределения представляет собой вероятность того, что случайная величина $\xi$ будет меньше ...\footnote{неразборчиво}. Неубывающая, всегда либо растёт, либо постоянна. непрерывна слева (значит справа необязательно определена).
Вероятностью называется числовая функция P, определенная на $\sigma$-алгебре $F$ со значениями в $R, (P: F \to R)$ и удовлетворяющая следующей системе аксиом:
\begin{enumerate}
\item $0 \ll P(A) \ll 1, \forall A \in F$;
\item Для любого счётного набора попарно несовместных событий $A_1, A_2, A_3, ... \in F$ выполняется равенство $(\cup_{i=1}^{\infty} A_i) = \sum_{i=1}^{\infty} P(A_i)$.
\item $P\{\Omega\} = 1$
\end{enumerate}
Случайная величина представляет собой измеримое отображение вероятностного пространства $\{ \Omega, F, P \}$ в измеримое пространство $\{ R, F(R), P_X \}$ на числовой прямой.
Пусть $\Omega = \{ \omega_1, \omega_2, ..., \omega_n, ...\}$. Если случайная величина может принимать не более чем счетное число значений, то она называется дискретной, если конечное число значений, то простой:
\[ \xi(\omega) = \sum_{i}X_iI_{A_i}(\omega), I_A(\omega) =
\begin{cases}
1, \omega \in A \\
0, \omega \notin A
\end{cases}
\]
Распределение дискретной случайной величины задается набором вероятностей $p_1, p_2, ..., p_n, ...$ таких, что $\sum_{i=1}^{\infty} p_i = 1$.
\subsection{Непрерывная случайная величина, функция распределения случайной величины}
Непрерывная случайная величина имеет плотность (справедливо только для абсолютно непрерывных).
Случайная величина может принимать не только дискретные значения, но и
любые значения из некоторого конечного или бесконечного интервала: $(a, b), [\infty, b], ...$. Такая величина называется \textbf{непрерывной случайной величиной}.
Соответствие между значениями случайной величины и вероятностями, с которыми она их принимает, называют \textbf{законом распределения случайной величины}. Для дискретной случайной величины этот закон задается простым перечислением вероятностей каждого ее значения.
\textbf{Функцией распределения случайной величины} $\xi$ называется функция $F_X(x)$, при каждом $x$ равная вероятности того, что случайная величина $X$ принимает значения, меньшие, чем $x$:
\[ F_X(x) = P(X < x)\]
\subsection{Абсолютно непрерывная функция распределения}
Функция распределения $F_X(x)$ называется абсолютно непрерывной, если существует такая функция $p_X(x)$, что
\[ F_X(b) - F_X(a) = \int_a^b p_X(x) dx \]
называется плотностью распределения случайной величины X.
Теорема:
\begin{enumerate}
\item $p_{\xi}(x) \geq 0$ для любого $x$.
\item $\int_{-\infty}^{\infty} p_\xi(x)dx = 1$
\end{enumerate}
2023-02-13 17:14:00 +03:00
Любая функция $p_\xi(x)$, удовлетворяющая условиям теоремы может рассматриваться как плотность распределения некоторой случайной величины.
2023-02-13 13:59:23 +03:00
\subsection{Нормальное распределение}
Непрерывная случайная величина $X$ имеет нормальное или гауссовское распределение с параметрами $a$ и $\sigma$, если плотность вероятности ее равна
\[ p_X(x) = \frac{1}{\sigma\sqrt{2\pi}} e^{-\frac{(x-a)^2}{2\sigma^2}}, \]
2023-02-13 17:14:00 +03:00
где $a \in R, \sigma > 0$. Обозначение: $N(a, \sigma^2)$, где $a$ -- математическое ожидание, $\sigma$ -- среднее квадратичное отклонение.
2023-02-13 13:59:23 +03:00
2023-02-13 17:14:00 +03:00
Функция распределения:
\[ F_X(x) = \frac{1}{\sigma\sqrt{2\pi}}\int_{-\infty}^x e^{-\frac{(x-a)^2}{2\sigma^2}} dx = \Phi_0(\frac{x-a}{\sigma}) \]
2023-02-13 13:59:23 +03:00
2023-02-13 17:14:00 +03:00
\begin{figure}[H]
\centering
\includesvg[scale=1.01]{pics/04-tsaf-00-norm-disp.svg}
\end{figure}
2023-02-13 13:59:23 +03:00
2023-02-13 17:14:00 +03:00
оба графика это нормальное распределение. у синего среднее $0$ у красного среднее $-1$. сигма это разброс относительно среднего. важно, что площадь одинаковая. распределение зарактеризуется двумя параметрами -- среднее и дисперсия. у красной
\[ P_2(x)=\frac{1}{\sqrt{2\pi}}e^{\frac{(x+1)^2}{2\sigma^2}}\]
у синей ($a = 0, \sigma = 1$)
\[ P_1(x)=\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}} \]
получается у второго будет меньше вариативности, около -1
2023-02-13 13:59:23 +03:00
2023-02-13 17:14:00 +03:00
Свойства нормального распределения
\begin{enumerate}
\item Если случайная величина $X$ имеет нормальное распределение $N_{a, \sigma^2}$, то
\[F_X(x) = \Phi_{a, \sigma^2}(x) = \Phi_0(\frac{x-a}{\sigma})\]
\item Если $\xi\sim N_{a, \sigma^2}$, то
\[ P(x_1 < \xi < x_2) = \Phi_{a, \sigma^2}(x_2) - \Phi_{a, \sigma^2}(x_1) = \Phi_0(\frac{x_2-a}{\sigma}) - \Phi_0(\frac{x_1-a}{\sigma}) \]
\end{enumerate}
2023-02-13 13:59:23 +03:00
2023-02-13 17:14:00 +03:00
Свойства стандартного нормального распределения
\begin{itemize}
\item $\Phi_0(0) = 0,5$
\item $\Phi_0(-x) = 1-\Phi_0(x)$
\item $P(|\xi| < x) = 1-2\Phi_0(-x) = 2\Phi_0(x) - 1$
\item \textbf{Правило трёх сигм} -- если отклонение случайной величины меньше трёх сигм (стандартных отклонений) мы считаем что вероятность пренебрежимо мала.
\item Если $x\sim N(a,\sigma^2)$, то $P(|\xi - a| < 3\sigma) \approx 0,997$
\end{itemize}
2023-02-13 13:59:23 +03:00
2023-02-13 17:14:00 +03:00
Характеристики
Математическим ожиданием случайной величины $Х$ с плотностью $р_X(х)$ называется неслучайная велична
\[ m_X = \int xp_X(x) dx,\]
если этот интеграл сходится, то есть $\int |x| p_X(x) dx < \infty$.
Если $X$ -- дискретная величина, то
\[ m_X = \sum_{i=1}^x x_ip(X=x_i)\]
2023-02-13 13:59:23 +03:00
2023-02-13 17:14:00 +03:00
\begin{frm}
Случайность -- это отсутствие полной информации об эксперименте.
\end{frm}
2023-02-13 13:59:23 +03:00
2023-02-13 17:14:00 +03:00
если кубик бросить сто раз в среднем выпадет значение 3,5. мат ожидание одного броска = 3,5.
2023-02-13 13:59:23 +03:00
2023-02-13 17:14:00 +03:00
Свойства математического ожидания случайной величины
\begin{enumerate}
\item МО константы равно самой константе: $Eg = g$;
\item Константу $g$ можно выносить за знак МО:
\[ EgX = gEX=gm_x\]
\item МО суммы двух СВ равно сумме МО слагаемых:
\[ E(X+Y) = EX+EY\]
\item МО произведения двух случайных функций $X$ и $Y$ равно произведению МО, если $X$ и $Y$ -- некоррелированные СВ:
\[E(X*Y) = EX*EY\]
\item МО суммы случайной и неслучайной функций равно сумме МО случайной $X$ и неслучайной величины $g$:
\[E\{g+X\} = g+EX\]
\end{enumerate}
2023-02-13 13:59:23 +03:00
2023-02-17 12:10:11 +03:00
\subsection{Дисперсия случайной величины}
2023-02-13 17:14:00 +03:00
Дисперсией СВ $X$ называется неслучайная величина
\[ D_X = \int (x-m_x)^2 px(x) dx\]
Свойства ДСВ
\begin{enumerate}
\item Дисперсия неслучайной величины равна нулю. $D(g) = 0$
\[ \overline{DX}=\frac{\sum_{i-1}^{n}(x_i-\overline{X})^2}{n-1} \]
\item Дисперсия суммы СВ $X$ и неслучайной $g$ равна ДСВ
\[ D(g+X) = DX\]
\item Д произведения СВ $X$ на константу $g$ равна произведению квадрата константы на ДСВ
\[ D(g*X) = g^2DX\]
\item Д суммы двух случайных функций $X$ и $Y$ равна сумме Д слагаемых, если СВ $X$ и $Y$ некоррелированы
\[ D(X+Y) = DX+D\xi(t)\]
\end{enumerate}
2023-02-13 13:59:23 +03:00
2023-02-13 17:14:00 +03:00
Во временных рядах каждое следующее значение в момент $t$ зависит от предыдущего в момент $t-1$. Например, изменение температуры или цен. Если эта зависимость существует, то существует связь, мера этой связи называется ковариацией. ковариация величины с самой собой это дисперсия.
2023-02-13 13:59:23 +03:00
2023-02-13 17:14:00 +03:00
Две случайные величины $X$ и $Y$ называются независимыми, если закон распределения одной из них не зависит от того, какие возможные значения приняла другая величина.
2023-02-13 13:59:23 +03:00
2023-02-13 17:14:00 +03:00
Ковариация это мера линейной зависимости случайных величин.
2023-02-13 13:59:23 +03:00
2023-02-13 17:14:00 +03:00
Белый шум -- это когда МО = 0, дисперсия $\sigma^2 != 0$, а ковариация = 0.
2023-02-13 13:59:23 +03:00
2023-02-13 17:14:00 +03:00
\subsection{Модель скользящего среднего}
\[ X_t = \sum_{i=0}\alpha_i \sum_{t-i}\]
где альфа - сходимый ряд (бесконечная сумма меньше бесконечности)
2023-02-13 13:59:23 +03:00
2023-02-13 17:14:00 +03:00
\[X_t = 2_\infty \xi_{t-1} - 3\xi_{t-2} + \xi_t + 1\]
2023-02-13 13:59:23 +03:00
2023-02-13 17:14:00 +03:00
мат ожидание = 1 , если величины независимы -- матожидание = 0. Дисперсия суммы (если величины независимы)
\[ Var(X_t) = Var(2\xi_{t-1}) - Var(3\xi_{t-2}) + Var(\xi_t + 1) = 4Var(\xi_{t-1}) + 9Var(\xi_{t+2}) + Var \xi_t = 14\]
2023-02-13 13:59:23 +03:00
2023-02-13 17:14:00 +03:00
\[Cov(X_t X_{t-1}\]
2023-02-13 13:59:23 +03:00
2023-02-13 17:14:00 +03:00
\[Var(x\pm y) = Var(x) + Var(y) \pm 2Cov(x, y),\]
если $x$ и $y$ не кореллируют.
2023-02-13 13:59:23 +03:00
2023-02-17 12:10:11 +03:00
\section{Анализ и прогнозирование временных рядов}
рассмотрение динамических объектов.
\begin{enumerate}
\item могут быть описаны дономерными или многомерными временными рядами
\item образующие временной ряд последовательности случайных величин не являются независимыми
\item закон распределения может изменяться от числа наблюдаемых временных отсчётов.
\end{enumerate}
\subsection{Цели АВР}
\begin{itemize}
\item выявление закономерностей изучаемых процессов
\item построение....
\end{itemize}
\subsection{Стационарность рядов}
Ряд называется стационарным в широком смысле (или слабостационарным), если его дисперсия и матожидание существуют и не зависят от времени, а автокорреляционная функция зависит только от величины сдвига.
\begin{equation*}
\begin{gathered}
E(Y_t) = \mu;\\
Var(Y_t) = \sigma^2\\
M_K = \int_a^b(x - mx)^a p(x) dx\\
\gamma(k) = \rho(Y)t, Y_{t-k} = \frac{cov(Y_t, Y_{t-k})}{\sqrt{Var(Y_t) * Var(Y_{t-k})}}
\end{gathered}
\end{equation*}
Свойства стационарного (в ШС) ВР
\begin{itemize}
\item $EY_t = \mu$
\item $Cov(Y_t, Y_{t+\tau}) = E[(Y_T - EY_t)(Y_{t+\tau}-EY_{t+\tau})] = \gamma(\tau)$
\end{itemize}
Чтобы определнить степень зависимости, лучше использовать нормальные величины.
\subsection{Свойство Гауссова процесса}
Функции распределения Гауссова процесса любого ..
\subsection{Оператор сдвига}
Оператором сдвига называется такое преобразование временного ряда, которое смещает ряд на один временной интервал
\begin{equation*}
\begin{gathered}
LY_t = Y_{t-1}\\
L^kY_t = Y_{t-k}
\end{gathered}
\end{equation*}
например
\begin{equation*}
\begin{gathered}
(1-0.5L)(1+0.6L^4)Y_t = c+\xi_t\\
(1+0.6L^4 - 0,5L - 0.3L^5)Y_t = c+\xi_t\\
Y_t - 0.5Y_{t-1}+0.6Y_{t-4}-0.3Y_{t-5} = c+\xi_t
\end{gathered}
\end{equation*}
\subsection{Теорема Вольда}
Любой стационарный вШС случайный процесс без детерминированной составляющей может быть представлен в виде
\[ Y_t - \mu = \sum_{j=0}^\infty \beta_j \xi_{t-j} \]
Если в разложении Вольда случайного процесса присутствует только конечное число членов, то такой процесс называется моделью скользящего среднего (MA, moving average).
Различные формы представления МА
\begin{itemize}
\item исходный ряд
\item центрирование
\item центрированный процесс
\item с использованием оператора сдвига
\end{itemize}
Обратимый процесс - это процесс, при котором существует такой оператор, при котором сумма операндов равна единице. Для бесконечных процессов условие обратимости находить очень сложно.
Можем для процесса построить характеристическое уравнение (взять коэффициенты и приравнять нулю). Если корни характеристического уравнения по модулю больше 1, то процесс обратим.
\subsection{Процесс авторегрессии}
Для того, чтобы процесс авторегрессии был стационарным необходимо, чтобы корни характеристического уравнения были по модулю больше единицы
Пример. Процесс МА
\begin{equation*}
\begin{gathered}
y_t = \xi_t + \beta_1\xi_{t-1}\\
Var(y_t) = Cov(y_t, y_t) = \gamma(0) = \sigma^2(1+\beta_1^2)\\
Var(y_t) = Var(\xi_t+\beta_1\xi_{t-1}))\\
Cov(y_t, y_{t+k}) = 0; k>1\\
Cov(y_t, y_{t+1}) = \gamma(1) = \sigma_\xi^2\beta_1\\
Cov(y_t, y_{t+1}) = Cov(\xi_t + \beta_1\xi_{t-1}, \xi_{t+k} + \beta_1\xi_{t+k-1})
\end{gathered}
\end{equation*}
Корреляция между $y_t$ и $y_{t+\tau}$вычисляется по формуле
\[ \rho_\tau = \rho(\tau) = \frac{\gamma(\tau)}{\gamma(0)} \]
\subsection{Модель авторегрессии}
2023-02-27 17:37:31 +03:00
\begin{equation}
\begin{gathered}
y_t = \alpha_1y_{t-1}+\alpha_2y_{t-2}+...+\alpha_Py_{t-p}+\xi_t AR\{K\}\\
y_t = \xi_t +\beta_1\xi_{t-1}+ ...+\beta_q\xi_{t-q}; MA(q)\\
y_t = \alpha_1y_{t-1}+...+\alpha_ky_{t-k} = \beta_1\xi_{t-1}; ARMA(p,q)
\end{gathered}
\label{eq:arima-models}
\end{equation}
2023-02-17 12:10:11 +03:00
2023-02-27 17:37:31 +03:00
$ARIMA(p, d, q);$ Если ряд -- стационарный, то строим модель по $d=0$ если нет то строим модель по разности.
2023-02-17 12:10:11 +03:00
2023-02-27 17:37:31 +03:00
Основной инструмент для выбора границ порядков -- автокорреляционная и частная автокорреляционная функция временного ряда. Если в авторегрессии для значения члена то в модели скользящего среднего не может быть больше двух членов.
2023-02-17 12:10:11 +03:00
2023-02-27 17:37:31 +03:00
\newpage
\section{АКФ процесса}
процесс
\begin{equation*}
\begin{gathered}
y_t = 0,6y_{t-1} + 0,2y_{t-2 + \xi_t}, \xi\approx(0,1)\\
cov(y_t, y_{t-1}) = cov(0,6y_{t-1}, y_{t-1}) = cov(0,2y_{t-2}, y_{t-2}) + cov(\xi_{t}, y_{t-1})\\
\gamma(1) = 0,6\gamma(0) + 0,2\gamma(1)\\
\gamma(0) = 0,6\gamma(1) + 0,2\gamma(2) + 1; cov(\xi_t, y_t) = cov(\xi_t, \xi_t-1)\\
\gamma(2) = 0,6\gamma(1) + 0,2\gamma(0)\\
\gamma(3) = 0,6\gamma(2) + 0,2 \gamma(1)\\
\gamma(K) = 0,6\gamma(k-1) + 0,2\gamma(k-2)\\
\gamma(1) = cov(y_t, y_{t-1}) = cov(y_{t-k}, y_{t-k-1})
\end{gathered}
\end{equation*}
\begin{equation*}
\begin{gathered}
y_t = 0,7 + 0,5y_{t-1} + \xi_t \sim N(0,1)\\
var y = 0,5 \\
var(y_t) = var(0,7 + 0,5 y_{t-1} + \xi_t) = var(0,5y_{t-1} + \xi_t)\\
1 = 0,5\lambda\\
1-0,5\lambda = 0\\
\lambda = 2>1 (\text{стационарный})\\
var(y_t) = var(0,5y_{t-1}) + var(\xi_t)\\
var(y_t) = 0,25 var(y_t) + var(\xi_t)\\
0,5 = 0,25 * 0,5 = var(\xi_t)\\
var(\xi_t) = 0,5 - 0,125\\
var(\xi_t) = 0,375.
\end{gathered}
\end{equation*}
\begin{equation*}
\begin{gathered}
y_t = 0,5 + 0,4\xi_{t-1} - 0,05\xi_{t-2} + \xi_t, \xi_t\sim N(0, \sigma^2)\\
var(y_t) = var(0,4\xi_{t-1} - 0,05\xi_{t-1}+\xi_t)\\ %раскрываем скобки
var(y_t) = var(0,4\xi_{t-1}) + var(-0,05\xi_{t-1}) + var(\xi_t)\\ % выносим константы в квадрате
var(y_t) = (0,16 + 0,0025 + 1)var(\xi_t) = 1,1625\sigma^2\\ %далее ищем ковариацию
cov(y_t, y_{t-1}) = E[(y_t - E y_t)(y_{t-1}- E y_{t-1})]\\
E[0,5 + 0,4\xi_{t-1}...] \\ % E от \xi всегда == 0
E((0,4\xi_{t-1} - 0,05 \xi_{t-1} + \xi_t)(0,4\xi_{t-2} - 0,05 \xi_{t-1} + \xi_t)) =\\
=(0,4\sigma^2 - 0,02\sigma^2) = 0,38\sigma^2 = \gamma(1)\\
E((0,4\xi_{t-1} - 0,05\xi_{t-2} + \xi_t)(0,4\xi_{t-3} - 0,05 \xi_{t-4} + \xi_{t-2})) = \\
= -0,05 \sigma^2
\end{gathered}
\end{equation*}
\begin{equation*}
\begin{gathered}
y_t = 2\xi_{t-3} - \xi_{t-2} + 3\xi_{t-1} + \xi_t; \xi_t \sim N(0, \sigma^2)\\
var(y_t) = var(2\xi_{t-3}) + var(-\xi_{t-2}) + var(3\xi_{t-1}) + var(\xi_t)\\
var(y_t) = (4+1+9)\sigma^2 = 15\sigma^2\\
cov(y_t, y_{t-1}) = E[(y_t - E y_t)(y_{t-1}- E y_{t-1})]\\
E(y_t) = 0;\\
cov(y_t, y_{t-1}) = E[(2\xi_{t-3}- \xi_{t-2} + 3\xi_{t-1} + \xi_t)(2\xi_{t-4}- \xi_{t-3} + 3\xi_{t-2} + \xi_{t-1})]=\\
= E[(-2\xi_{t-3}^2 - 3\xi_{t-2}^2 + 3\xi_{t-1}^2)] = \\
= -2\sigma^2\\
\gamma(1) = -2\sigma^2\\
\gamma(2) = 5\sigma^2\\
\gamma(3) = 2\sigma^2\\
\gamma(4) = 0
\end{gathered}
\end{equation*}
\appendix
\setcounter{secnumdepth}{0}
\section*{Приложения}
\addcontentsline{toc}{section}{Приложения}
\renewcommand{\thesubsection}{\Asbuk{subsection}}
\subsection{Лабораторная работа 1}
Проверка гипотез
Есть процесс, есть модель. Надо проверить, соответствует ли какое-то следующее значение модели.
\begin{equation*}
\begin{gathered}
H_0: \alpha \neq 0;\\
H_1: \alpha = 0;\\
y_t = \alpha; y_{t+1} + \xi
\end{gathered}
\end{equation*}
Нам машина посчитала альфу, но на реальной выборке не получится посчитать 0. значение отклонения делим на дисперсию и получаем p-value, если оно $\geq 0,05$ нулевая гипотеза неверна. то есть это уровень доверия. Если выборка маленькая - можно взять больший коэффициент.
Стационарный процесс. Чтобы его проверить нужно построить автокорреляционную функцию
\begin{equation*}
\begin{gathered}
\rho(K) = \frac{Cov(y_t, t_{t-K})}{\sqrt{Var(y) + Var(y+k)}}\\
\frac{cov(y_t, t_{t-K})}{Var(y)}, cov(y_t, t_{t-K}) = \gamma(k)
\end{gathered}
\end{equation*}
Например, функция получится
(1)
видно, что первые три значения (лаги) отличаются (нулевой равен единице, это белый шум, там н е может быть корелляций), а все последующие незначительно отличаются от нуля. Получим одну из моделей \hrf{eq:arima-models} котороые возможно считать по АРИМА с нужными параметрами. По автокорреляции мы видим, какие варианты моделей возможны. для каждой модели строим распечатки и делаем диагностику.
Проверка стационарности процесса. Размер выборки должен быть треть от числа лагов. корреляционная и автокорреляционная функция участвуют в выборе правильной модели. по АКФ мы видим, что может быть самое больше -- два лага.
\[MSE = \tilde{\sigma}^2 = \frac{1}{K}\sum_{i=3}^n(y_i-y_i^M)^2\]
Вычислили на обучающей выборке, затем вычисляем на контрольной выборке. По автокорреляции мы считаем не порядок авторегрессии, а порядок скользящего среднего. А для того чтобы примерно прикинуть порядок p -- нужно вычислить частный коэффициент автокорреляции.
\[ 0\leq q \leq 2, 0\leq p\leq 1\]
\[y_t = \alpha_0 y_{t-1} + ... + \alpha_{K-1} y_{t-k+1} \]
влияние игреков уменьшается чем дальше мы отходим от $\alpha_0$. частный коэффициент показывает влияние предыдущих значений на последующие.
Криетрий Акаике
\begin{equation*}
\begin{gathered}
AIC = \tilde{\sigma}^2 + \frac{r}{N};\\
SIC = \tilde{\sigma}^2 + \frac{r\ln r}{N};
\end{gathered}
\end{equation*}
r = число параметров модели, N - объём выборки. добавляет штраф за переобучение. Шваарц более сильно штрфует, Хеннана-куина штрафует ещё сильнее. Нужно выбрать лучшую модель по критерию Акаике.
Люнг-Бокс говорит о том, насколько мы ошибёмся, если отвергнем нулевую гипотезу (остатки не коррелированы). Если остатки коррелированы - модель плохая, мы не смоделировали зависимость. Критерий гетероскедастичности -- если остатки неоднородны лучше не брать такую модель.
2023-02-17 12:10:11 +03:00
2023-02-27 17:37:31 +03:00
Вероятность ошибиться отвергнув нулевую гипотезу должна быть меньше 0,05.
2023-02-17 12:10:11 +03:00
2023-02-27 17:37:31 +03:00
SARIMA(p,d,q)(P,D,Q,S) -- учёт сезонности.
2023-02-17 12:10:11 +03:00
2023-02-13 13:59:23 +03:00
\end{document}
2023-02-27 17:37:31 +03:00