BMSTU/04-time-series-analysis-for...

166 lines
13 KiB
TeX
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

\documentclass{article}
\input{settings/common-preamble}
\input{settings/bmstu-preamble}
\input{settings/fancy-listings-preamble}
\author{Гребенюк Елена Алексеевна}
\title{Анализ и прогнозирование временных рядов}
\date{2023-02-08}
\begin{document}
\sloppy
\fontsize{14}{18}\selectfont
\maketitle
\tableofcontents
\newpage
\section{Введение}
\href{https://jino.cloud/s/GGZgntaAqMRQbK2}{Вентцель -- Теория вероятностей}
\href{https://jino.cloud/s/8qNSXycHpkmmmZb}{Гмурман -- Ьеория вероятностей и математическая статистика}
\subsection{Содержание курса}
\begin{enumerate}
\item Построение моделей временных рядов, линейные модели: ARMA, AR,MA, ECM. Прогноз.
\item Ряды со стохастическим трендом и их модели: ARIMA, SARIMA.
\item Модели с условной гетероскедастичностью: ARCH, GARCH (модели для прогнозирования волатильности доходности финансовых активов).
\item Сингулярный спектральный анализ (SSA).
\item Локальная аппроксимация (LA).
\item Алгоритмы обнаружения изменений свойств временных рядов.
\end{enumerate}
\subsection{Модель случайности}
Вероятностное пространство включает следующие элементы: $\{\Omega, F, P \}$, где $\Omega = \{ \omega_1, \omega_2, ... \}$ -- пространство элементарных событий, множество(конечное или счетное); $F$ -- $\sigma$ -алгебра событий -- структура на множестве событий $\Omega$; P -- вероятность -- мера, определенная на F.
$\sigma$ -алгебра F - набор подмножеств (подмножеств событий), который
\begin{enumerate}
\item содержит достоверное событие: $\Omega \subset F$.
\item вместе с любым событием $A \subset F$ содержит и противоположное к нему: если $A \subset F$, то $\overline{A} \subset F$.
\item вместе с любыми событиями $A_1, A_2, ... A_n, ...$ система F содержит их объединение -- если $A_1, A_2, ... A_n \subset F, то \cup_{i=1}^{\infty} A_i \subset F$.
\end{enumerate}
(сигма-алгебра позволяет включить бесконечное число множеств.)
Мера -- это неотрицательная $\sigma$-аддитивная функция множеств, всегда положительная если пространство дискретно.
Пусть: $\Omega$ -- некоторое множество, и F -- $\sigma$-алгебра его подмножеств. Функция $\mu: F \to R \cup + \infty$ называется мерой на $\{ \Omega, F \}$ если она удовлетворяет условиям:
\begin{itemize}
\item для любого множества $A \in F$ его мера неотрицательна: $\mu(A) \gg 0 $;
\item для любого счётного набора попарно непересекающихся множеств
$A_1, A_2, A_3, ... \in F$ (т.е. такого, что $A_i \cap A_j = \oslash$ при всех $i \neq j$) мера их объединения равна сумме их мер:
\[ \mu(\cup_{i=1}^{\infty} A_i) = \sum_{i=1}^{\infty} \mu(A_i) \]
\end{itemize}
(другими словами) $\Omega$ - это множество всех возможных значений. $F$ -- это вероятность получения определённого сочетания. например, бросаем кубик и за два броска выпало $\{ 1, 2 \}$. какая вероятность?
\[ \frac{6!}{2! * 4!} = 15, \]
то есть 1/15. Или, например есть температура, которая может изменяться равномерно в интервале $10^\circ - 15^\circ$. тогда её вероятность $P < 7,5 = 1/2$
\subsection{Определение вероятности}
Функция распределения представляет собой вероятность того, что случайная величина $\xi$ будет меньше ...\footnote{неразборчиво}. Неубывающая, всегда либо растёт, либо постоянна. непрерывна слева (значит справа необязательно определена).
Вероятностью называется числовая функция P, определенная на $\sigma$-алгебре $F$ со значениями в $R, (P: F \to R)$ и удовлетворяющая следующей системе аксиом:
\begin{enumerate}
\item $0 \ll P(A) \ll 1, \forall A \in F$;
\item Для любого счётного набора попарно несовместных событий $A_1, A_2, A_3, ... \in F$ выполняется равенство $(\cup_{i=1}^{\infty} A_i) = \sum_{i=1}^{\infty} P(A_i)$.
\item $P\{\Omega\} = 1$
\end{enumerate}
Случайная величина представляет собой измеримое отображение вероятностного пространства $\{ \Omega, F, P \}$ в измеримое пространство $\{ R, F(R), P_X \}$ на числовой прямой.
Пусть $\Omega = \{ \omega_1, \omega_2, ..., \omega_n, ...\}$. Если случайная величина может принимать не более чем счетное число значений, то она называется дискретной, если конечное число значений, то простой:
\[ \xi(\omega) = \sum_{i}X_iI_{A_i}(\omega), I_A(\omega) =
\begin{cases}
1, \omega \in A \\
0, \omega \notin A
\end{cases}
\]
Распределение дискретной случайной величины задается набором вероятностей $p_1, p_2, ..., p_n, ...$ таких, что $\sum_{i=1}^{\infty} p_i = 1$.
\subsection{Непрерывная случайная величина, функция распределения случайной величины}
Непрерывная случайная величина имеет плотность (справедливо только для абсолютно непрерывных).
Случайная величина может принимать не только дискретные значения, но и
любые значения из некоторого конечного или бесконечного интервала: $(a, b), [\infty, b], ...$. Такая величина называется \textbf{непрерывной случайной величиной}.
Соответствие между значениями случайной величины и вероятностями, с которыми она их принимает, называют \textbf{законом распределения случайной величины}. Для дискретной случайной величины этот закон задается простым перечислением вероятностей каждого ее значения.
\textbf{Функцией распределения случайной величины} $\xi$ называется функция $F_X(x)$, при каждом $x$ равная вероятности того, что случайная величина $X$ принимает значения, меньшие, чем $x$:
\[ F_X(x) = P(X < x)\]
\subsection{Абсолютно непрерывная функция распределения}
Функция распределения $F_X(x)$ называется абсолютно непрерывной, если существует такая функция $p_X(x)$, что
\[ F_X(b) - F_X(a) = \int_a^b p_X(x) dx \]
называется плотностью распределения случайной величины X.
Теорема:
\begin{enumerate}
\item $p_{\xi}(x) \geq 0$ для любого $x$.
\item $\int_{-\infty}^{\infty} p_\xi(x)dx = 1$
\end{enumerate}
Любая функция p_\xi(x), удовлетворяющая условиям теоремы может рассматриваться как плотность распределения некоторой случайной величины.
\subsection{Нормальное распределение}
Непрерывная случайная величина $X$ имеет нормальное или гауссовское распределение с параметрами $a$ и $\sigma$, если плотность вероятности ее равна
\[ p_X(x) = \frac{1}{\sigma\sqrt{2\pi}} e^{-\frac{(x-a)^2}{2\sigma^2}}, \]
где $a \in R, \sigma > 0$. Обозначение: 𝑁 𝑎, 𝜎 2 , где 𝑎
математическое ожидание, 𝜎 среднее квадратичное
отклонение.
Функция распределения:
\subsection{Нормальное распределение}
Нормальное распределение с параметрами а и сигма если её плотность вероятности равна
и математическое ожидание а и сигма - среднее квадратичное отклонение.
(картинка ляма)
оба графика это нормальное распределение. у синего среднее 0 у красного среднее 1. сигма это разброс относительно среднего. важно, что площадь одинаковая. распределение зарактеризуется двумя параметрами - среднее и дисперсия. у красной
%P_2(x)=\frac{1}{\sqrt{2\pi}}e^{\frac{(x+1)^2}{2\sigma^2}}
(картинка ляма 2) получается у второго будет меньше вариативности около -1
в нормальном распределении
%Ф_0(0) = 0,5
%Ф_0(-ч) = 1-Ф_0(ч)
правило трёх сигм
если отклонение случайной величины меньше трёх сигм (стандартных отклонений) мы считаем что вероятность пренебрежимо мала.
Характеристики
%мат ожиданием случайной величины Х с плотностью р_х(х) называется неслучайная велична м_х=\интхр_х(х)дх, если этот интеграл сходится, то есть \интмодуль хи р_х(х)дх меньше инфти
случайность - это отсутствие полной информации об эксперименте. если кубик бросить сто раз в среднем выпадет 3,5. мат ожидание броска 3,5.
свойства матожидания
дисперсия случайной величины равна нулю.
%\overline{DX}=\frac{\sum_{i-1}^{n}(x_i-\overline{X})^2}{n-1}
Во временных рядах каждое следующее значение в момент Т зависит от предыдущего в момент Т-1. Например, изменение температуры или цен. Если эта зависимость существует, то существует связь, мера этой связи называется ковариацией. ковариация величины с самой собой это дисперсия.
Задачи
ксит +
кси1,2...т,т-1 белый шум
белый шум когда МО = 0 а дисперсия =сигма квадрат != 0, а ковариация = 0.
модель скользящего среднего
%X_t = \sum_{i=0}\alpha_i \sum_{t-i} где альфа - сходимый ряд (бесконечная сумма меньше бесконечности)
%X_t = 2_\infty \ksi_{t-1} - 3\ksi_{t-2} + \ksi_t + 1
мат ожидание = 1
если величины независимы - матожидание = 0
дисперсия суммы (если величины независимы)
%Var(X_t) = Var(2\ksi_{t-1}) - Var(3\ksi_{t-2}) + Var(\ksi_t + 1) = 4Var(\ksi_{t-1}) + 9Var(\ksi_{t+2}) + Var \ksi_t = 14
%Cov(X_t X_{t-1}
%x_t = 2\ksi_{t-1} - 3\ksi_{t-2} + \ksi_{t+1}) =
%Var(x\pm y) = Var(x) + Var(y) \pm 2cov(x, y), если х и у не кореллируют.
\end{document}