\documentclass{article} \input{settings/common-preamble} \input{settings/bmstu-preamble} \input{settings/fancy-listings-preamble} \author{Гребенюк Елена Алексеевна} \title{Анализ и прогнозирование временных рядов} \date{2023-02-08} \begin{document} \sloppy \fontsize{14}{18}\selectfont \maketitle \tableofcontents \newpage \section{Введение} \href{https://jino.cloud/s/GGZgntaAqMRQbK2}{Вентцель -- Теория вероятностей} \href{https://jino.cloud/s/8qNSXycHpkmmmZb}{Гмурман -- Ьеория вероятностей и математическая статистика} \subsection{Содержание курса} \begin{enumerate} \item Построение моделей временных рядов, линейные модели: ARMA, AR,MA, ECM. Прогноз. \item Ряды со стохастическим трендом и их модели: ARIMA, SARIMA. \item Модели с условной гетероскедастичностью: ARCH, GARCH (модели для прогнозирования волатильности доходности финансовых активов). \item Сингулярный спектральный анализ (SSA). \item Локальная аппроксимация (LA). \item Алгоритмы обнаружения изменений свойств временных рядов. \end{enumerate} \subsection{Модель случайности} Вероятностное пространство включает следующие элементы: $\{\Omega, F, P \}$, где $\Omega = \{ \omega_1, \omega_2, ... \}$ -- пространство элементарных событий, множество(конечное или счетное); $F$ -- $\sigma$ -алгебра событий -- структура на множестве событий $\Omega$; P -- вероятность -- мера, определенная на F. $\sigma$ -алгебра F - набор подмножеств (подмножеств событий), который \begin{enumerate} \item содержит достоверное событие: $\Omega \subset F$. \item вместе с любым событием $A \subset F$ содержит и противоположное к нему: если $A \subset F$, то $\overline{A} \subset F$. \item вместе с любыми событиями $A_1, A_2, ... A_n, ...$ система F содержит их объединение -- если $A_1, A_2, ... A_n \subset F, то \cup_{i=1}^{\infty} A_i \subset F$. \end{enumerate} (сигма-алгебра позволяет включить бесконечное число множеств.) Мера -- это неотрицательная $\sigma$-аддитивная функция множеств, всегда положительная если пространство дискретно. Пусть: $\Omega$ -- некоторое множество, и F -- $\sigma$-алгебра его подмножеств. Функция $\mu: F \to R \cup + \infty$ называется мерой на $\{ \Omega, F \}$ если она удовлетворяет условиям: \begin{itemize} \item для любого множества $A \in F$ его мера неотрицательна: $\mu(A) \gg 0 $; \item для любого счётного набора попарно непересекающихся множеств $A_1, A_2, A_3, ... \in F$ (т.е. такого, что $A_i \cap A_j = \oslash$ при всех $i \neq j$) мера их объединения равна сумме их мер: \[ \mu(\cup_{i=1}^{\infty} A_i) = \sum_{i=1}^{\infty} \mu(A_i) \] \end{itemize} (другими словами) $\Omega$ - это множество всех возможных значений. $F$ -- это вероятность получения определённого сочетания. например, бросаем кубик и за два броска выпало $\{ 1, 2 \}$. какая вероятность? \[ \frac{6!}{2! * 4!} = 15, \] то есть 1/15. Или, например есть температура, которая может изменяться равномерно в интервале $10^\circ - 15^\circ$. тогда её вероятность $P < 7,5 = 1/2$ \subsection{Определение вероятности} Функция распределения представляет собой вероятность того, что случайная величина $\xi$ будет меньше ...\footnote{неразборчиво}. Неубывающая, всегда либо растёт, либо постоянна. непрерывна слева (значит справа необязательно определена). Вероятностью называется числовая функция P, определенная на $\sigma$-алгебре $F$ со значениями в $R, (P: F \to R)$ и удовлетворяющая следующей системе аксиом: \begin{enumerate} \item $0 \ll P(A) \ll 1, \forall A \in F$; \item Для любого счётного набора попарно несовместных событий $A_1, A_2, A_3, ... \in F$ выполняется равенство $(\cup_{i=1}^{\infty} A_i) = \sum_{i=1}^{\infty} P(A_i)$. \item $P\{\Omega\} = 1$ \end{enumerate} Случайная величина представляет собой измеримое отображение вероятностного пространства $\{ \Omega, F, P \}$ в измеримое пространство $\{ R, F(R), P_X \}$ на числовой прямой. Пусть $\Omega = \{ \omega_1, \omega_2, ..., \omega_n, ...\}$. Если случайная величина может принимать не более чем счетное число значений, то она называется дискретной, если конечное число значений, то простой: \[ \xi(\omega) = \sum_{i}X_iI_{A_i}(\omega), I_A(\omega) = \begin{cases} 1, \omega \in A \\ 0, \omega \notin A \end{cases} \] Распределение дискретной случайной величины задается набором вероятностей $p_1, p_2, ..., p_n, ...$ таких, что $\sum_{i=1}^{\infty} p_i = 1$. \subsection{Непрерывная случайная величина, функция распределения случайной величины} Непрерывная случайная величина имеет плотность (справедливо только для абсолютно непрерывных). Случайная величина может принимать не только дискретные значения, но и любые значения из некоторого конечного или бесконечного интервала: $(a, b), [\infty, b], ...$. Такая величина называется \textbf{непрерывной случайной величиной}. Соответствие между значениями случайной величины и вероятностями, с которыми она их принимает, называют \textbf{законом распределения случайной величины}. Для дискретной случайной величины этот закон задается простым перечислением вероятностей каждого ее значения. \textbf{Функцией распределения случайной величины} $\xi$ называется функция $F_X(x)$, при каждом $x$ равная вероятности того, что случайная величина $X$ принимает значения, меньшие, чем $x$: \[ F_X(x) = P(X < x)\] \subsection{Абсолютно непрерывная функция распределения} Функция распределения $F_X(x)$ называется абсолютно непрерывной, если существует такая функция $p_X(x)$, что \[ F_X(b) - F_X(a) = \int_a^b p_X(x) dx \] называется плотностью распределения случайной величины X. Теорема: \begin{enumerate} \item $p_{\xi}(x) \geq 0$ для любого $x$. \item $\int_{-\infty}^{\infty} p_\xi(x)dx = 1$ \end{enumerate} Любая функция $p_\xi(x)$, удовлетворяющая условиям теоремы может рассматриваться как плотность распределения некоторой случайной величины. \subsection{Нормальное распределение} Непрерывная случайная величина $X$ имеет нормальное или гауссовское распределение с параметрами $a$ и $\sigma$, если плотность вероятности ее равна \[ p_X(x) = \frac{1}{\sigma\sqrt{2\pi}} e^{-\frac{(x-a)^2}{2\sigma^2}}, \] где $a \in R, \sigma > 0$. Обозначение: $N(a, \sigma^2)$, где $a$ -- математическое ожидание, $\sigma$ -- среднее квадратичное отклонение. Функция распределения: \[ F_X(x) = \frac{1}{\sigma\sqrt{2\pi}}\int_{-\infty}^x e^{-\frac{(x-a)^2}{2\sigma^2}} dx = \Phi_0(\frac{x-a}{\sigma}) \] \begin{figure}[H] \centering \includesvg[scale=1.01]{pics/04-tsaf-00-norm-disp.svg} \end{figure} оба графика это нормальное распределение. у синего среднее $0$ у красного среднее $-1$. сигма это разброс относительно среднего. важно, что площадь одинаковая. распределение зарактеризуется двумя параметрами -- среднее и дисперсия. у красной \[ P_2(x)=\frac{1}{\sqrt{2\pi}}e^{\frac{(x+1)^2}{2\sigma^2}}\] у синей ($a = 0, \sigma = 1$) \[ P_1(x)=\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}} \] получается у второго будет меньше вариативности, около -1 Свойства нормального распределения \begin{enumerate} \item Если случайная величина $X$ имеет нормальное распределение $N_{a, \sigma^2}$, то \[F_X(x) = \Phi_{a, \sigma^2}(x) = \Phi_0(\frac{x-a}{\sigma})\] \item Если $\xi\sim N_{a, \sigma^2}$, то \[ P(x_1 < \xi < x_2) = \Phi_{a, \sigma^2}(x_2) - \Phi_{a, \sigma^2}(x_1) = \Phi_0(\frac{x_2-a}{\sigma}) - \Phi_0(\frac{x_1-a}{\sigma}) \] \end{enumerate} Свойства стандартного нормального распределения \begin{itemize} \item $\Phi_0(0) = 0,5$ \item $\Phi_0(-x) = 1-\Phi_0(x)$ \item $P(|\xi| < x) = 1-2\Phi_0(-x) = 2\Phi_0(x) - 1$ \item \textbf{Правило трёх сигм} -- если отклонение случайной величины меньше трёх сигм (стандартных отклонений) мы считаем что вероятность пренебрежимо мала. \item Если $x\sim N(a,\sigma^2)$, то $P(|\xi - a| < 3\sigma) \approx 0,997$ \end{itemize} Характеристики Математическим ожиданием случайной величины $Х$ с плотностью $р_X(х)$ называется неслучайная велична \[ m_X = \int xp_X(x) dx,\] если этот интеграл сходится, то есть $\int |x| p_X(x) dx < \infty$. Если $X$ -- дискретная величина, то \[ m_X = \sum_{i=1}^x x_ip(X=x_i)\] \begin{frm} Случайность -- это отсутствие полной информации об эксперименте. \end{frm} если кубик бросить сто раз в среднем выпадет значение 3,5. мат ожидание одного броска = 3,5. Свойства математического ожидания случайной величины \begin{enumerate} \item МО константы равно самой константе: $Eg = g$; \item Константу $g$ можно выносить за знак МО: \[ EgX = gEX=gm_x\] \item МО суммы двух СВ равно сумме МО слагаемых: \[ E(X+Y) = EX+EY\] \item МО произведения двух случайных функций $X$ и $Y$ равно произведению МО, если $X$ и $Y$ -- некоррелированные СВ: \[E(X*Y) = EX*EY\] \item МО суммы случайной и неслучайной функций равно сумме МО случайной $X$ и неслучайной величины $g$: \[E\{g+X\} = g+EX\] \end{enumerate} \subsection{Дисперсия СВ} Дисперсией СВ $X$ называется неслучайная величина \[ D_X = \int (x-m_x)^2 px(x) dx\] Свойства ДСВ \begin{enumerate} \item Дисперсия неслучайной величины равна нулю. $D(g) = 0$ \[ \overline{DX}=\frac{\sum_{i-1}^{n}(x_i-\overline{X})^2}{n-1} \] \item Дисперсия суммы СВ $X$ и неслучайной $g$ равна ДСВ \[ D(g+X) = DX\] \item Д произведения СВ $X$ на константу $g$ равна произведению квадрата константы на ДСВ \[ D(g*X) = g^2DX\] \item Д суммы двух случайных функций $X$ и $Y$ равна сумме Д слагаемых, если СВ $X$ и $Y$ некоррелированы \[ D(X+Y) = DX+D\xi(t)\] \end{enumerate} Во временных рядах каждое следующее значение в момент $t$ зависит от предыдущего в момент $t-1$. Например, изменение температуры или цен. Если эта зависимость существует, то существует связь, мера этой связи называется ковариацией. ковариация величины с самой собой это дисперсия. Две случайные величины $X$ и $Y$ называются независимыми, если закон распределения одной из них не зависит от того, какие возможные значения приняла другая величина. Ковариация – это мера линейной зависимости случайных величин. Белый шум -- это когда МО = 0, дисперсия $\sigma^2 != 0$, а ковариация = 0. \subsection{Модель скользящего среднего} \[ X_t = \sum_{i=0}\alpha_i \sum_{t-i}\] где альфа - сходимый ряд (бесконечная сумма меньше бесконечности) \[X_t = 2_\infty \xi_{t-1} - 3\xi_{t-2} + \xi_t + 1\] мат ожидание = 1 , если величины независимы -- матожидание = 0. Дисперсия суммы (если величины независимы) \[ Var(X_t) = Var(2\xi_{t-1}) - Var(3\xi_{t-2}) + Var(\xi_t + 1) = 4Var(\xi_{t-1}) + 9Var(\xi_{t+2}) + Var \xi_t = 14\] \[Cov(X_t X_{t-1}\] \[Var(x\pm y) = Var(x) + Var(y) \pm 2Cov(x, y),\] если $x$ и $y$ не кореллируют. \end{document}