diff --git a/04-big-data-analysis-information-systems-developing-technologies.tex b/04-big-data-analysis-information-systems-developing-technologies.tex index a213443..a9af764 100644 --- a/04-big-data-analysis-information-systems-developing-technologies.tex +++ b/04-big-data-analysis-information-systems-developing-technologies.tex @@ -196,24 +196,58 @@ $\ddot{y_j}$ -- среднее значение $y_t$ для объектов с \subsection{Отбор признаков по Теореме Байеса} Теорема Байеса. Пусть $В_1, В_2, ..., В_r$, полная группа событий $А$ -- некоторое событие, вероятность которого связана с $В_i$, тогда \[ P(B_i|A) = \frac{P(A|B_i)p(B_i)}{P(A)}\], -где $P(A) = \sum_{i=1}^rP(A|B_i)p(B_i)$.По теореме Байеса считаем $P(X_j,Y)$ -- вероятность признака $Х_у$, если объект принадлежит положительному классу. Если Р(X,IY = 1) > P +где $P(A) = \sum_{i=1}^rP(A|B_i)p(B_i)$.По теореме Байеса считаем $P(X_j,Y)$ -- вероятность признака $Х_у$, если объект принадлежит положительному классу. Если $Р(X_j |Y = 1) > 0,7 \cup P(X_j |Y = 1) < 0,3$, то считаем $X_j$, информативным признаком. - 0,7 UP(XIY = 1)<0,3, то считаем X, информативным признаком. + Пример. Оценим информативность признаков $x_j$, и $х_r$, по Теореме Байеса: +\begin{equation*} + \begin{gathered} +P(x_y = 1|Y = 1) =1/2 +P(x_r = b|Y = 1) =3/16 + \end{gathered} +\end{equation*} - Пример. Оценим информативность признаков x, и х, по Теореме Байеса: - - P(xy = 1)Y = 1) =1/2 - - P(xr = b/Y = 1) =3/16 + \begin{tabular}{||r|c|c||} + \hline + $x_j$ & $X_r$ & $Y$ \\ [0.5ex] + \hline + 1 & a & 1 \\ + 0 & a & 1 \\ + 1 & b & 1 \\ + 0 & a & 1 \\ + 1 & b & 0 \\ + 1 & b & 0 \\ + \hline + \end{tabular} \subsection{Наивный байесовский классификатор} -\[ L = \{X_t, Y_t\}_t=1^N \] обучающая выборка, $X_j=\left( \begin{array}{c} x_{1j}\\ ...\\ x_{Nj}\end{array} \right)$ -- j-ый признак, $X_k$ -- новый объект. +$ \mathcal{L} = \{X_t, Y_t\}_{t=1}^{N} $ -- обучающая выборка, $X_j=\left( \begin{array}{c} x_{1j}\\ ...\\ x_{Nj}\end{array} \right)$ -- j-ый признак, $X_k$ -- новый объект. Предположение. При заданном значении класса $Y_t$ признаки $\dot{X_j}, ..., \dot{X_j}$ независимые. +\[P(X_j|Y, X_1, ..., X_{j-1}, X_{j+1},...X_r)=P(X_j|Y) \] -$P(Y = 1|0,b) = \frac{P(0,b|Y)P(Y)}{P(0,b)}$ +Применим теорему Байеса. +\[P(Y|X_1,...,X_r)=\frac{P(X_1,...X_r|Y)P(Y)}{P(X_1,...X_r)}\] + +в силу независимости признаков: +\[P(Y|X_1,...,X_r)=\frac{\prod_{j=1}^rP(X_j|Y)P(Y)}{P(X_1,...X_r)}\] + +\[Y\rightarrow\underbrace{argmax}_Y\prod_{j=1}^rP(X_j|Y)P(Y)\] + +Найти класс объекта $X_k$. имеющего признаковое описание $(0,b)$. $P(Y=1|0,b)=?$, $P(Y=0|0,b)=?$ + + \begin{tabular}{||r|c|c||} + \hline + $x_j$ & $X_r$ & $Y$ \\ [0.5ex] + \hline + 1 & a & 1 \\ + 0 & a & 1 \\ + 1 & b & 1 \\ + 0 & a & 1 \\ + 1 & b & 0 \\ + 1 & b & 0 \\ + \hline + \end{tabular} -$y = argmax(P(a,b|Y) * P(Y))$ \subsection{ROC-кривая} Число строк в квадрате справа равно числу единиц, число столбцов -- числу нулей. Стартуем из точки (0, 0)(левый нижний угол. Если значение метки класса в просматриваемой строке 1, то делаем шаг вверх; если 0, то делаем шаг вправо, если у нескольких объектов значения оценок равны, то делаем шаг в точку \textbf{а} блоков выше и \textbf{b} блоков правее, где \textbf{а} -- число единиц, \textbf{b} -- число нулей в рассматриваемой группе объектов. @@ -226,9 +260,44 @@ $y = argmax(P(a,b|Y) * P(Y))$ \includesvg[scale=1.01]{pics/04-bdisdt-00-roc.svg} \end{figure} +$a(X_i,w)=[\langle w,X_i\rangle >t]$, где $t$ -- порог, оценка $\sum_{j=1}^m\omega_jx_{ij}$. $TPR=\frac{TP}{TP+FN}$, доля правильно определенных объектов положительного класса $FPR=\frac{FP}{FP+TN}$ доля неправильно определенных объектов положительного класса. Число строк в прямоугольнике равно \textbf{числу единиц}, число столбцов – \textbf{числу нулей} вектора \textbf{$Y_i$}. Идем из точки (0, 0)(левый нижний угол). Если \textbf{$Y_i=1$} то шаг вверх; если 0, то шаг вправо. Если у нескольких объектов значения оценок равны, то делаем шаг в точку на $a$ блоков выше и $b$ блоков правее, где $a$ – число единиц, $b$ – число нулей. + +\begin{tabular}{||r|c|c||} + \hline + $i$ & оценка &$Y_i$ \\ [0.5ex] + \hline + 1 & 0.5 & 0 \\ + 2 & -0.1 & 0 \\ + 3 & 0.1 & 0 \\ + 4 & 0.6 & 1 \\ + 5 & 0.1 & 1 \\ + 6 & 0.3 & 1 \\ + 7 & -0.2 & 0 \\ + \hline +\end{tabular} + +\begin{tabular}{||r|c|c||} + \hline + $i$ & оценка &$Y_i$ \\ [0.5ex] + \hline + 4 & 0.6 & 1 \\ + 1 & 0.5 & 0 \\ + 6 & 0.3 & 1 \\ + 3 & 0.1 & 0 \\ + 5 & 0.1 & 1 \\ + 2 & -0.1 & 0 \\ + 7 & -0.2 & 0 \\ + \hline +\end{tabular} \textbf{Принятие решений на основе кривой.} Для того, чтобы решить, какие объекты отнести к классу 1, а какие к классу 0, нужно будет выбрать некоторый порог (объекты с оценками выше порога относим к классу 1, остальные -- 0). Выбору порога соответствует выбор точки на ROC-кривой. Здесь для порога $0.25$ выбрана точка (1/4,2/3). +В случае бинарных ответов ROC-кривая состоит из трёх точек, соединёнными линиями: $(0,0)$, $(FPR, TPR)$, $(1, 1)$, где FPR и TPR соответствуют любому порогу из интервала $(0, 1)$. На рисунке зелёным показана ROCкривая бинаризованногорешения, AUC ROC после бинаризации уменьшилась и стала равна $8.5/12 \sim 0.71$. Формула для вычисления AUC ROC для бинарного решения: + +\[\frac{TPR+FPR}{2}+TPR(1-FPR)+\frac{(1-FPR)(1-TPR}{2}=\frac{1+^2TPR-FPR}{2}\] + +Площадь под ROC кривой оценивает качество ранжирования объектов. Индекс $\text{Джини}=2*S_{AUCROC}-1$ + \begin{tabular}{||r|c|c||} \hline id & $>0.25$ & класс \\ [0.5ex] @@ -247,22 +316,171 @@ $y = argmax(P(a,b|Y) * P(Y))$ 2/3 - \% точек класса 1, верно классифицированых алгоритмом (TPR = True Positive Rate). -Качество ROC-кривой напрямую зависит от объёма выборки и количества признаков. С её помощью можно оченить информативность признаков (отобрать признаки). + Качество ROC-кривой напрямую зависит от объёма выборки и количества признаков. С её помощью можно оченить информативность признаков (отобрать признаки). + +\subsection{Площадь под ROC-кривой, AUC-ROC} + +\textbf{AUC ROC} оценивает качество упорядочивания алгоритмом объектов двух классов, (например, по вероятности принадлежности объекта к классу 1). Ее значение лежит на отрезке [0, 1]. В рассматриваемом примере $AUC ROC = 9.5 / 12 \sim 0.79$. + +На рисунке слева приведены случаи идеального, наихудшего и обратимого следования меток в упорядоченной таблице. Идеальному соответствует ROC-кривая, проходящая через точку $(0, 1)$, площадь под ней равна $1$. Если ROC кривая, проходит через точку $(1, 0)$, площадь под ней -- 0, в этом случае в результата инвертирования можно получить неплохую модель. Случайному -- что-то похожее на диагональ квадрата,площадь примерно равна $0.5$. + +\textbf{Индекс $\text{Джини}=2*S_{AUCROC}-1$} + +\begin{itemize} +\item Показатель AUC ROC предназначен скорее для сравнительного анализа нескольких моделей; +\item Его не имеет смысла использовать на коротких выборках +\item Высокий AUC ROC может существовать и в очень плохих моделях. Пример. +\end{itemize} + +\begin{figure}[H] + \centering + \includegraphics[width=100mm]{04-bdaisdt-00-roc-bad.png} +\end{figure} + +AUC ROC можно использовать для отбора признаков: +\begin{itemize} +\item Строим таблицу +\item Упорядочиваем по убыванию +\item Считаем AUC ROC +\end{itemize} + \subsection{Precision-recall кривая} +По оси абсцисс -- recall, по оси ординат -- precision. Критерий качества -- площадь под PR-кривой (AUC-PR). + +$precision=\frac{TP}{TP+FP}, recall=\frac{TP}{TP+FN}; t_{min} precision=?, recall=1$ Качество оценки площади PR-кривой зависит от объёма выборки при разной пропорции классов: при малых объемах выборки отклонения от среднего увеличиваются. \subsection{Тестирование модели} - +Обучающая выборка делится на 3 части: На обучающей выборке происходит обучение алгоритма. На валидационной выбираются гиперпараметры. На тестовой выборке никакие параметры не меняются. $60-70 \%$ -- обучение, $40\%-30\%$ -- валидационная и тестовая выборки. +\begin{itemize} + \item ошибка обучения = доля неверно классифицированных обучающих примеров; + \item ошибка теста = доля ошибочно классифицированных тестовых примеров на валидационной выборке; + \item ошибка обобщения = вероятность неправильной классификации новых случайный примеров. + \end{itemize} + \subsection{Оценка} Оценивание методов обычно проводится, относительно следцющих характеристик: скорость, робастность, интерпретируемость, надёжность. \begin{itemize} -\item скорость -- время которое требуется на создание модели и её использование +\item Скорость -- время которое требуется на создание модели и её использование \item Робастность -- устойчивость к отклонениям от исходных предпосылок метода, например, возможность работы с зашумленными данными, пропущенными значениями в данных, нарушениями предположений о распределении и пр. -\item Интерпретируемость -- обеспечивает возможность понимания модели аналитиком предметной области. Пусть для решения применили методы: деревья решений; байесовская +\item Интерпретируемость -- обеспечивает возможность понимания модели аналитиком предметной области. \end{itemize} -классификация, метод ближайшего соседа; - логистическая регрессия; +Пусть для решения применили методы: деревья решений; байесовская классификация, метод ближайшего соседа; логистическая регрессия; метод опорных векторов. Можно ли сравнить их по вышеперечисленным характеристикам? -метод опорных векторов. Можно ли сравнить их по вышеперечисленным +\subsection{Постановка задачи классификации} +Пусть $X_t\subset X$ -- объект множества $X$ c набором характеристик $(x_{t1},x_{t2},...,x_{tn})$, \textbf{Y} -- множество классов, к которым принадлежать объекты множества \textbf{X}. + +$\{X_t, Y_t\}^N_{t=1}$ -- обучающая выборка, для которой в подмножестве объектов $X_t\subset X$ известны ответы $Y_t$. Требуется построить алгоритм $a:X \to Y$, который определяет ответы $Y_t$ для любого объекта $X_t$, не принадлежащего обучающей выборке $\mathcal{L} = \{X_t, Y_t\}^N_{t=1}$. +\begin{itemize} + \item По числу классов различают двухклассовую классификацию: множество классов $Y=\{-1,1\}$ или $Y=\{0,1\}$ и многоклассовую классификацию $Y=\{1, 2, ..., m\}$. + \item Множество «ответов» (классов) задается либо числом (обозначение класса), либо вектором $\{p_1,p_2,...P_m\}$, где $P_i$ - верность или степень уверенности применяемого алгоритма, что выбранный объект принадлежит классу $i, i = 1, 2, ..., m, \sum^m_{i=1}p_i = 1$. + \item Алгоритм $a(Xt)$ отображает объект $X_t$ на вектор ответов $a:(X_t, g)\to \bigg\{0,...,\underbrace{1}_i,...,0\bigg\}$, где $i$ -- номер класса, определенного алгоритмом для объекта $X_t$, или $a:(X_t, g)\to\{p_1, p_2, ..., p_m\}$, где $p_i$ -- вероятность класса, $g$ -- вектор гиперпараметров. + \item Классы могут пересекаться: рассматривают задачи с непересекающимися и пересекающимися классами: объект может относиться одновременно к нескольким классам. $Y=\{0, 1\}^M$, Пусть $M = 3$, тогда $Y = \{ 0, 1\}\times\{0,1\}\times\{0,1\}$ и результат $Y=\{1\}\times\{1\}\times\{0\}$ означает, что классифицируемый объект принадлежит первому и второму классам. +\end{itemize} + +\subsection{Бинарная классификация линейной функцией} +Задача бинарной классификации -- разделение объектов множества $X$ на два класса. Пусть $\{X_i, Y_i\}^l_{i-1}$, где $X_i\in R^r,Y_i\in\{-1,1\}$, обучающая выборка. Линейная модель или алгоритм классификации: +\[ a(X_i,w)=w_0+\sum^m_{j=1}w_jx_{ij}=sign(\langle w,X_i\rangle+w_0) \] + +где $j$ -- номер признака объекта, $m$ -- число признаков. Если считать, что все рассматриваемые объекты имеют постоянный первый признак равный 1, то +\[ a(X_i, w)=w_0+\sum^m_{j=1}w_jx_ij=\text{sign}(\langle w,X_i\rangle+w_0)\] + +Алгоритм -- гиперплоскость в пространстве признаков с нормалью $||w||$ и расстоянием $a(x_i)$ до точки $x_i, \langle w, x_i\rangle$ -- скалярное произведение, величина которого пропорциональна расстоянию от разделяющей гиперплоскости $\langle w, x\rangle=0$ до $x_i$. + +Если признаковое пространство может быть разделено гиперплоскостью на два полупространства, в каждом из которых находятся только объекты одного из двух классов, то обучающая выборка называется линейно разделимой. + +\subsection{Метрики. Оценка качества работы алгоритма} + +Обучение линейного классификатора заключается в поиске вектора весов $w$, на котором достигается минимум заданного функционала качества. Примеры: + +\begin{enumerate} +\item Функция потерь: +\begin{equation*} + \begin{gathered} +L(a(x))=\frac{1}{l}\sum^l_{i=1}[sign(\langle w,X_i\rangle)\neq Y_i]\to min\\ +L(a(x))=\frac{1}{l}\sum^l_{i=1}[sign(\langle w,X_i\rangle)*Y_i<0]\to min + \end{gathered} +\end{equation*} +используется в задаче классификации. Величина $M_i=\langle w,X_i\rangle)*Y_i$ называется отступом объекта $X_i$, она равна расстоянию от объекта до разделяющей гиперплоскости $(x,w)=0$ + +\[L(a(x))=\frac{1}{l}\sum^l_{i=1}[M_i<0]=L(M)\rightarrow min\] +Обозначение: + \begin{equation*} + [a(x_i)\neq y_i]= + \begin{cases} + 1,if a(x_i)\neq y_itrue\\ + 0,if a(x_i)=y_ifalse + \end{cases} + \end{equation*} + +\item Среднеквадратичная ошибка (mean squared error, MSE): +\[ L(a(x))=\frac{1}{l}\sum^l_{i=1}(a(X_i-Y_i))^2\to min \] +используется в задаче регрессии. +\end{enumerate} + +\subsection{Верхняя оценка пороговой функции потерь} + +Оценим функцию $L(M_i)$ сверху во всех точках $M L (M)=log(1+e^{-M}))$. Кусочно -- линейная функция потерь $\tilde{L}(M)=(1-M)^+=max(0,1-M)$. Экспоненциальная функция потерь $\tilde{L}(M)=EXP(-M)$. Квадратичная функция потерь $\tilde{L}(M)=M^2$. + +Особенность оценочных функций в том, что они по значению больше, либо равны исходной пороговой. Следовательно, минимизация приводит к минимизации потерь и для пороговой функции. + +\subsection{Задача классификации. Метод логистической регрессии} +Рассматриваем бинарную классификацию $Y={1,-1}$, хотим построить модель, которая выдает не номер класса, а вероятность принадлежности объекта к классу. Бинарная логистическая регрессия предсказывает вероятность того, что модель принадлежит к положительному классу. Будем говорить, что модель корректно предсказывает вероятности, если среди множества объектов, для которых модель предсказала вероятность $p$, доля положительных равна $p$. + +Критерий $\sum^N_{i=1}\log(1+\exp(-Y_i\langle X_i,w\rangle)\to \underbrace{\min}_w$ + +\subsection{Классификация методом логистической регрессии} +Постановка задачи (требование к модели). Задача заключается в том, чтобы найти алгоритм $a(x)$, такой, что +\[arg\underset{b}{min}\frac{1}{l}\sum^l_{i=1}L(a(x),y)\approx p(y=+1|x)\approx \frac{1}{N}\sum^N_{i=1}y_i=1,\] + +Если задача решена (мы корректно оценили вероятности), тогда при $l\to\infty$ получаем: +\[arg\underset{b}{min} EL(a(x),y)=p(y=+1|x),\] + +где +\[EL(a(x),y)=p(y=+1|x)*L(a(x),1)+p(y=-1|x)*L(a(x),-1).\] + +\subsection{Преобразование ответа линейной модели} + +$\langle X_i,w\rangle \to \sigma(\langle X_i,w\rangle)=\frac{1}{1+exp(-\langle X_i,w\rangle)}\in[0,1]$, это преобразование сохраняет монотонность: если $z_1\leq z_2\to \sigma(z_1)\leq\sigma(z_2).$ Клаccификатор логистической регресии имеет вид: +\[b(\langle X_i,w\rangle)=\sigma(\langle X_i,w\rangle)\] + +\subsection{Обучение модели} +\begin{itemize} +\item Eсли $Y_i=1$, то $\sigma(\langle X_i,w\rangle)\to 1$ +\item Если $Y_i=-1$, то $\sigma(\langle X_i,w\rangle)\to 0$ +\item Если $\sigma(\langle X_i,w\rangle)\to 0$ то алгоритм уверен, что правильный ответ 0 +\item Если $\sigma(\langle X_i,w\rangle)\to 1$ то алгоритм уверен в положительном ответе +\end{itemize} + +Как это сделать?? +\begin{itemize} +\item Если $Y_i=1$, то $\sigma(\langle X_i,w\rangle)\to1,\langle X_i,w\rangle\to\infty$ +\item Если $Y_i=-1$, то $\sigma(\langle X_i,w\rangle)\to0,\langle X_i,w\rangle\to -\infty$ +\end{itemize} + +Нужно максимизировать абсолютную величину отступа +\[Y_i\langle X_i,w\rangle\to \underbrace{\max}_w\] + +\subsection{Выбор критерия} + + Нужно: $Y_i\langle X_i,w\rangle\to \underbrace{\max}_w$, Проанализируем $\sigma(\langle X_i,w\rangle)=\frac{1}{1+exp(-\langle X_i,w\rangle)}$ +\[-\sum^N_{i=1}\left\{[Y_i=1]\sigma(\langle X_i,w\rangle)+[Y_i=-1](1-\sigma(\langle X_i,w\rangle)\right\}\to\underbrace{\min}_w\] + +Этот критерий плохо штрафует за ошибки, если алгоритм уверен в своем ошибочном объекте. Изменим критерий +\[-\sum^N_{i=1}\left\{[Y_i=1]log(\sigma(\langle X_i,w\rangle))+[Y_i=-1]log((1-\sigma(\langle X_i,w\rangle))\right\}\to\underbrace{\min}_w\] + +log-loss $L(Y,z)=[Y=1]\log z+[y=-1]\log(1-z))$. Как изменится штраф? После несложных преобразований получим наш исходный критерий: $\sum^N_{i=1}log(1+exp(-Y_i\langle X_i,w\rangle))\to\underbrace{\min}_w$. + + \subsection{Преобразование критерия} +\begin{equation*} + \begin{gathered} +-\sum^N_{i=1}\left\{[Y_i=1]\log(\sigma(\langle X_i,w\rangle))+[Y_i=-1]\log((1-\sigma(\langle X_i,w\rangle))\right\}=\\ +-\sum^N_{i=1}\left\{[Y_i=1]\log\left(\frac{1}{1+exp(-\langle X_i,w\rangle)}\right)+[Y_i=-1]\log\left(1-\frac{1}{1+exp(-\langle X_i,w\rangle)}\right)\right\}=\\ +\sum^N_{i=1}\left\{[Y_i=1]\log(1+\exp(-\langle X_i,w\rangle))-[Y_i=-1]\log\left(1-\frac{\exp(-\langle X_i,w\rangle)}{1+\exp(-\langle X_i,w\rangle)}\right)\right\}=\\ +\sum^N_{i=1}\left\{[Y_i=1]\log(1+\exp(-\langle X_i,w\rangle))-[Y_i=-1]\log\left(1-\frac{1}{1+\exp(\langle X_i,w\rangle)}\right)\right\}=\\ +\sum^N_{i=1}\left\{\log(1+\exp(-Y_i\langle X_i,w\rangle)\right\}= + \end{gathered} +\end{equation*} \section{Решаемые задачи} \[ [a(x_i)\neq y_i] = @@ -275,25 +493,36 @@ $y = argmax(P(a,b|Y) * P(Y))$ $a(x_i)$ -- алгоритм обучения. Если применить алгоритм -- получим результат классификации $x_i$, сравниваемый с $y_i$. \begin{multicols}{2} -Классификация - \columnbreak -Прогнозирование +\textbf{Классификация} + +Линейный классификатор: +$a(x_i)=sign(\sum^r_{j-1}w_jf_{ij}+w_0) \to y_i$ + +Пороговая функция потерь алгоритма +$L(Y_i,a)=\frac{1}{l}\sum^l_{i=1}[(w,x_i)*y_i<0]\leq \tilde{L}(M)$ + +Метод обучения-минимизация эмпирического риска: +$L(Y_i,a)=\frac{1}{l}\sum^l_{i=1}[(w,x_i)*y_i<0]\leq \tilde{L}(M)\to \underset{w}{min}$ + +Мера качества: число неправильных классификаций +$Q(x,a)=\frac{1}{l}\sum^l_{i=1}[a(x_i)\neq y_i]$ + +\columnbreak +\textbf{Прогнозирование} + +Линейная регрессия-прогноз +$a(x_i)=\sum^r_{j-1}w_jf_{ij}+w_0 \to y_i$, модель прогнозирования + +Функция потерь алгоритма: +$L(a,y)=(a(X_i)-y_i)^2$ + +Методы обучения: наименьших квадратов; градиентного спуска: +$L(a,y)=\frac{1}{l}\sum_{i=1}^l(a(x_i))-y_i)^2\to \underset{w}{min}$ + +Мера качества. Средняя квадратичная ошибка (MSE): +$Q(a,x)=\frac{1}{l}\sum^l_{i=1}(a(x_i)-y_i)^2$ \end{multicols} -\subsection{Обозначения} -Пусть $X_t\subset X$ -- объект множества $X$ с набором характеристик $(X_1, Xız, ..., Xtn)$, $Y$ -- множество классов, к которым принадлежат объекты множества $Х$. - -% {X, Y} 1 - обучающая выборка, для которой на подмножестве объектов Xt CX известны ответы Yt. - -%Требуется построить алгоритм а: X → Y, который определяет ответы Yе для любого объекта Xt, не принадлежащего обучающей выборке £ = {Xt, Y}-1. Jt=1' - -\subsection{Задача классификации} - -\subsection{Метрики. Оценка качества работы алгоритма} -Обучение линейного елассификатора заключается в поиске вектора весов $w$, на котором достигается минимум заданного функционала качества. - -... - \subsection{Задача классификации. Метод логистической регрессии.} Рассматриваем бинарную классификацию $Y = \{1, -1\}$, хотим построить модель, которая выдает не номер класса, а вероятность принадлежности объекта к классу. Бинарная логистическая регрессия предсказывает вероятность того, что модель принадлежит к положительному классу. @@ -301,22 +530,121 @@ $a(x_i)$ -- алгоритм обучения. Если применить ал Критерий $\sum_{i=1}^N \log(1+\exp(-Y_i\langle X_i, w\rangle) \to \underset{w}{min})$\footnote{Треугольные скобки означают скалярное произведение, абсолютную величину отступа}. -\subsection{Выбор критерия} -сигма - это уверенность алгоритма в ответе. - \section{Регрессия} \subsection{Постановка задачи} + Пусть значение целевой переменной $Y\in R$ для входного вектора $X=\left\{X_1,X_2,...,X_n,..\right\}$ определяется значением детерминированной функции $g(X,w)$ с аддитивным гауссовым шумом: +\[Y=g(X,w)+\xi, \xi~N(0,\sigma^2)\] + +Тогда +\[P(Y|X,w,\sigma^2)~N(g(X,w),\sigma^2)\] -%Пусть значение целевой переменной $Y \in R$ для входного вектора 𝑿𝑿 = 𝑋𝑋1 , 𝑋𝑋2 , … , 𝑋𝑋𝑛𝑛 , . . определяется значением детерминированной функции 𝑔𝑔(𝑿𝑿, 𝝎𝝎) с аддитивным гауссовым шумом: -%Тогда -%𝑌𝑌 = 𝑔𝑔 𝑿𝑿, 𝑤𝑤 + 𝜉𝜉, 𝜉𝜉 ∼ 𝑁𝑁(0, 𝜎𝜎 2 ) 𝑃𝑃 𝑌𝑌|𝑿𝑿, 𝑤𝑤, 𝜎𝜎 2 ∼ 𝑁𝑁(𝑔𝑔 𝑿𝑿, 𝑤𝑤 , 𝜎𝜎 2 ). -% Требуется построить функцию 𝑔𝑔: (𝑿𝑿, 𝜔𝜔) ⟹ 𝑹𝑹 . Вид функции 𝑔𝑔 мы задаем, веса 𝜔𝜔 определяются в процессе обучения. +Требуется построить функцию $g$: $(X,w)\implies R$ Вид функции $g$ мы задаем, веса $\omega$ определяются в процессе обучения. \subsection{Модель прогнозирования} -если линейно-зависимые столбцы мы не можем регрессировать. -разность между модельным У и реальным У называется разностью. можно построить график разностей. если они примерно однородны - это линейные остатки. если остатки не переходят в другие области такого графика -- это называется гомоскедастичность. +Если линейно-зависимые столбцы мы не можем регрессировать. Разность между модельным и реальным называется разностью. Можно построить график разностей. Если они примерно однородны -- это линейные остатки. Если остатки не переходят в другие области такого графика -- это называется гомоскедастичность. + +Пусть объект прогнозирования описывается формулой: +\[y_i=\sum^r_{j=1}(w_jx_ij+w_0)+\xi_i,\] +где: + +\begin{enumerate} +\item Регрессоры (признаки) $x_{i1},...,x_{ir}$, не являются случайными величинами. +\item Столбцы $X,...,X_r$ - линейно независимы. +\item Последовательность ошибок удовлетворяет условиям («белый шум»): + \[E\xi_i=,Var(\xi_i)=\sigma^2_\xi, cov(\xi_i,\xi_j)=0, i\neq j\] +\end{enumerate} + +Ошибки некоррелированыи гомоскедастичны. Если величины $\xi_i, i=1, 2, ..., n$,распределены по нормальному закону, то модель называется \textbf{Нормальной регрессионной моделью}. + +По результатам наблюдений признаков требуется найти значения $w$, которые лучше всего объясняли бы $y_i$, т.е отклонение $\sum^l_{i=1}(y_i-a(x_i))^2$ было бы минимальными для всех возможных значений $(x_i, y_i), i=1, 2, ..., l$. + +\subsection{Теорема Гаусса -Маркова} +При выполнении предположений 1-3 для модели +\[y_i=\sum^r_{j=1}(w_jx_{ij}+w_0)+\xi_i,\] +оценки $w_j$ полученные методом наименьших квадратов, имеют наименьшую дисперсию в классе всех линейных несмещенных оценок. Формула МНК: $W=(X^TX)^{-1}X^TY$. Сложность обращения матрицы $r^3$. Если столбцы линейно зависимы, то определитель матрицы $X$ равен 0. + +\subsection{Регуляризация} +Если матрица $X$ -- вырожденная, то $(X^TX)$ -- не является обратимой, функционал $Q(a,x)=\frac{1}{l}\sum^l_{i=1}(\langle w,x_i\rangle-y_I)^2\to min$ может иметь бесконечное число решений и очень большие веса $w$. Тогда применяют регуляризацию -- минимизируют функционал + +\[Q(a,x)=\frac{1}{l}\sum^l_{i=1}(\langle w,x_i\rangle-y_I)^2\to min\] + +\begin{itemize} +\item $\sum|w|<\alpha$ Лассо-регрессия +\item $Q(a,x)=\frac{1}{l}\sum^l_{i=1}(\langle w,x_i\rangle-y_I)^2+\gamma||w||^2\to min$ Ридж-регрессия +\end{itemize} + +Решение задачи регуляризации имеет вид: + +\begin{itemize} +\item $w=(X^TX+\gamma w)^{-1}X^TY.$ Лассо-регрессия может привести к обнулению отдельных переменных +\item $w=(X^TX+\gamma E_n)^{-1}X^TY.$ Ридж-регрессия +\end{itemize} +Параметр $\gamma$ называется гипер-параметром. + +\subsection{Стандартизация данных} +Признаки $x_i=\left\{f_{i1},f_{i2},...,f_{ir}\right\}$ объекта $х$ могут иметь различный физический смысл и размерности, поэтому коэффициент $w$, $у$ признака, принимающего большие значения, может принимать маленькие значения, не соответствующие важности признака. Поэтому для повышения способности модели к интерпретации следует выполнять стандартизацию признаков: + +\[\hat{f_{ij}}=\frac{(f_{ij}-\bar{f_j})}{\sigma_j}, j = 1, 2, ..., r\] +где $\bar{f_j}=\frac{1}{l}\sum^l_{i=1}f_{ij}$ выборочное среднее, а $\sigma_j=\frac{1}{l}\sum^l_{i=1}(f_{ij}-\bar{f_j})^2$ выборочное средне-квадратичное отклонение. + +\subsection{Регуляризация в логистической регрессии} +Логистическая функция потерь: +\[\tilde{D}(M)=log(1+e^{-M}),\] где \[M=y_i(\langle w,x_i\rangle+w_0)\] -- margin (отступ) объекта. Минимизация эмпирического риска: +\begin{itemize} +\item $\frac{1}{l}\sum^l_{i=1}\log(1+e^{-y_i\langle w,x_i\rangle})\to min$ -- без регуляризации +\item $\frac{1}{l}\sum^l_{i=1}\log(1+e^{-y_i\langle w,x_i\rangle})+C||w||_2\to \underbrace{\min}_{C,w}$ -- с регуляризацией по норме $L_2$ +\item $\frac{1}{l}\sum^l_{i=1}\log(1+e^{-y_i\langle w,x_i\rangle})+C||w||_1\to \underbrace{\min}_{C,w}$ -- с регуляризацией по норме $L_1$ +\end{itemize} + +\subsection{Меры качества прогнозирования } +\begin{enumerate} +\item Средняя квадратичная ошибка $Q(a,x)=MSE=\frac{1}{l}\sum^l_{i=1}(a(x_i)-y_i)^2$ +\item Корень из среднеквадратичной ошибки (root mean squared error, RMSE): $RMSE=\sqrt{\frac{1}{l}\sum^l_{i=1}(a(x_i)-y_i)^2}$ +\item коэффициент R2 или коэффициент детерминации: $R^2=1-\frac{\sum^l_{i=1}(a(x_i)-y_i)^2}{\sum^l_{i=1}(y_i-\bar{y})^2}$ где $\bar{y}=\sum^l_{i=1}y_i, \sum^l_{i=1}(a(x_i)-y_i)^2$ доля дисперсии объясняемая моделью. +\item Среднее абсолютное отклонение (mean absolute error, MAE): $MAE(a,x)=\frac{1}{l}\sum^l_{i=1}\lceil y_i-a(x_i)\rceil$ +\end{enumerate} + +\subsection {Критерии Акаике и Шварца} +Критерий Акаике: +\[AIC=\widehat{\ln \sigma_r}^2+2\frac{r}{l}\] + +Критерий Шварца: +\[AIC=\widehat{\ln \sigma_r}^2+\frac{r\ln l}{l}\] + +строго состоятельны. +\[\hat{\sigma}^2_r=\sum^n_{j=m+1}\xi^2_j/(l-r)\] + +-- дисперсия ошибки, r -- число признаков. Оптимальная модель имеет минимальное значение критерия. Использование информационных критериев для построения модели: + +\begin{itemize} +\item Построить все возможные варианты регрессионной модели, удовлетворяющие критериям (см пред лекцию) +\item Наилучшая модель должна иметь минимальные значения критериев Акаикеи Шварца. +\end{itemize} + + \subsection {Меры качества прогнозирования} +Скорректированный Коэффициент детерминации $R^2_{adj}=R^2-\frac{r}{l-r}(1-R^2)$. Выбор признаков: если в модель не будет включена переменная, которая должна быть там, то + +\begin{enumerate} +\item Уменьшается возможность правильной оценки и интерпретации уравнения +\item Оценки коэффициентов могут оказаться смещенными +\item Стандартные ошибки коэффициентов и соответствующие t-статистики в целом становятся некорректными. +\end{enumerate} + +\textbf{Четыре критерия для включения переменной} +\begin{enumerate} +\item Роль переменной в уравнении опирается на прочные теоретические основания +\item Высокие значения t-статистики $t_{stat}=\frac{w-\bar{w}}{\sigma_w\sqrt{l}}$ +\item Исправленный коэффициент детерминации растет при включении переменной +\item Другие коэффициенты испытывают значительное смещение при включении новой переменной +\end{enumerate} + \subsection {Пример решения задачи регрессии с ис} \section{Линейная регрессия} + $g(X_i,w)=\sum^r_{j=1}(w_jx_{ij}+w_0)\rightarrow Y_i$ , модель прогнозирования, $X_i-r$–мерный вектор + Функция потерь алгоритма: $L(a,y)=(g(X_i,w)-Y_i)^2$ + Методы обучения: наименьших квадратов; градиентного спуска: + $$L(a,y)=\frac{1}{l}\sum^l_{i=1}(g(X_i,w)-Y_i)^2\rightarrow min \underset{w}{min}$$ + Мера качества. Средняя квадратичная ошибка (MSE): $Q(a,x)=\frac{1}{l}\sum^l_{i=1}(g(X_i,w)-Y_i)^2$ % lgrebenuk12@yandex.ru \begin{equation*} \begin{gathered} @@ -344,6 +672,10 @@ $a(x_i)$ -- алгоритм обучения. Если применить ал регрессия выдаёт вероятности. Алгоритм максимизирует отступ классификатора (расстояние до ближайшего объекта). +\subsubsection {Нелинейная регрессия. Базисные функции.} +\[g(X,w)\sum^p_{j=1}w_j\varphi_j(X)+w_0=\sum^p_{j=0}w_j\varphi_j(X),\varphi_0(X)=1'\] +Число базисных функций может отличаться от числа признаков $j$. + \subsection{Линейно разделимый случай} Мы можем найти такие параметры, при которых классификатор не допускает ни одной ошибки diff --git a/04-time-series-analysis-forecasting.tex b/04-time-series-analysis-forecasting.tex index 61dd228..dccf8da 100644 --- a/04-time-series-analysis-forecasting.tex +++ b/04-time-series-analysis-forecasting.tex @@ -119,7 +119,13 @@ $\sigma$ -алгебра F - набор подмножеств (подмноже \[ P_2(x)=\frac{1}{\sqrt{2\pi}}e^{\frac{(x+1)^2}{2\sigma^2}}\] у синей ($a = 0, \sigma = 1$) \[ P_1(x)=\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}} \] -получается у второго будет меньше вариативности, около -1 +получается у второго будет меньше вариативности, около -1. + +\subsection{Стандартное нормальное распределение} +$a = 0, \sigma = 1$ -- параметры, $f(x)=\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}$ -- плотность. + +\[\frac{1}{\sqrt{2\pi}}\int_{-infty}^xe^{-\frac{x^2}{2}}dx = F(x)\] функция распределения, +\[\frac{1}{\sqrt{2\pi}}\int_{0}^xe^{-\frac{x^2}{2}}dx = \Phi(x)\] обозначение. Свойства нормального распределения \begin{enumerate} @@ -138,11 +144,9 @@ $\sigma$ -алгебра F - набор подмножеств (подмноже \item Если $x\sim N(a,\sigma^2)$, то $P(|\xi - a| < 3\sigma) \approx 0,997$ \end{itemize} -Характеристики Математическим ожиданием случайной величины $Х$ с плотностью $р_X(х)$ называется неслучайная велична \[ m_X = \int xp_X(x) dx,\] -если этот интеграл сходится, то есть $\int |x| p_X(x) dx < \infty$. -Если $X$ -- дискретная величина, то +если этот интеграл сходится, то есть $\int |x| p_X(x) dx < \infty$. Если $X$ -- дискретная величина, то \[ m_X = \sum_{i=1}^x x_ip(X=x_i)\] \begin{frm} @@ -179,11 +183,19 @@ $\sigma$ -алгебра F - набор подмножеств (подмноже \[ D(X+Y) = DX+D\xi(t)\] \end{enumerate} +\subsection{Зависимые и независимые случайные величины, ковариация и корреляция} Во временных рядах каждое следующее значение в момент $t$ зависит от предыдущего в момент $t-1$. Например, изменение температуры или цен. Если эта зависимость существует, то существует связь, мера этой связи называется ковариацией. ковариация величины с самой собой это дисперсия. Две случайные величины $X$ и $Y$ называются независимыми, если закон распределения одной из них не зависит от того, какие возможные значения приняла другая величина. -Ковариация – это мера линейной зависимости случайных величин. +Ковариация – это мера линейной зависимости случайных величин -- $cov(X,Y) = E[(X-E(X))(Y-E(Y))]$. +\begin{enumerate} +\item $cov(X,X) = Var(X)$; +\item $cov(X,Y) = cov(Y,X)$; +\item $cov(cX,Y) = c$; +\item $cov(a+bX)(c+dY) = bd*cov(X,Y)$. +\end{enumerate} +\[ \rho(X,Y) = \frac{cov(X,Y)}{\sqrt{Var(X) * Var(Y)}} = \text{корреляция}\] Белый шум -- это когда МО = 0, дисперсия $\sigma^2 != 0$, а ковариация = 0. @@ -201,18 +213,46 @@ $\sigma$ -алгебра F - набор подмножеств (подмноже \[Var(x\pm y) = Var(x) + Var(y) \pm 2Cov(x, y),\] если $x$ и $y$ не кореллируют. +\subsection{Процесс авторегрессии первого порядка (Марковский процесс)} +$y_t = \alpha y_{t-1} + \xi_t$ -- уравнение процесса. $E(y_t) = \alpha E(y_{t-1}) + E(\xi_t)$ -- математическое ожидание процесса. + +\begin{equation*} + \begin{gathered} +Var(y_t) = \alpha^2Var(y_{t-1}) + 2\alpha cov(y_{t-1}, \xi_t) + Var(\xi_t) \\ +y_t = \alpha y_{t-1} + \xi_t = \alpha(\alpha y_{t-2} + \xi_1) + \xi_t + ... \\ +Var(y_t) = \gamma(0) = \frac{\sigma_\xi^2}{1-\alpha^2} (\text{дисперсия процесса})\\ +cov(y_t, y_{t+k}) = \gamma(0) = ??\\ +E(y_t, y_t) = Var(y_t) = \alpha^2Var(y_{t}) + 2\alpha cov(y_{t-1}, \xi_t) + Var(\xi_t)\\ +\sigma_y^2 = \alpha^2\sigma_y^2 + \sigma_\xi^2 \Rightarrow |\alpha| < 1\\ +(1-\alpha L) y_t = \xi_t\\ +(1-\alpha L)^{-1}(1-\alpha L)y_t = (1-\alpha L)^{-1}\xi_t = \xi_t + \alpha\xi_{t-1}+...+\alpha^k\xi_{t-k}+...\\ +y_t = \xi_t + \alpha\xi_{t-1}+...+\alpha^k\xi_{t-k}+... (\text{при условии сходимости ряда})\\ +\sum_{j=0}^\infty \alpha^j = \frac{1}{1-\alpha} < \infty \Rightarrow |\alpha| < 1 + \end{gathered} +\end{equation*} + \section{Анализ и прогнозирование временных рядов} +Рассмотрим класс динамических объектов поведение которых может быть описано последовательностью наблюдений, полученных в дискретные моменты времени. Значения наблюдений в момент времени $t$ зависят +\begin{enumerate} +\item от значений, зарегистрированных в предыдущие моменты времени, +\item от совокупного воздействия множества случайных факторов. +\end{enumerate} +Полученную последовательность случайных величин, мы будем называть временным рядом. + рассмотрение динамических объектов. \begin{enumerate} -\item могут быть описаны дономерными или многомерными временными рядами -\item образующие временной ряд последовательности случайных величин не являются независимыми -\item закон распределения может изменяться от числа наблюдаемых временных отсчётов. +\item могут быть описаны одномерными или многомерными временными рядами +\item образующие временной ряд последовательности случайных величин не являются независимыми. наблюдаемое значение в момент времени $t$ зависит от значений, зарегистрированных в предыдущие моменты времени +\item закон распределения может изменяться от числа наблюдаемых временных отсчётов и момента наблюдения $k$. \end{enumerate} +\begin{frm} Временной ряд представляет собой последовательность наблюдений, выполняемых в фиксированные промежутки времени. Предполагается, что временной ряд образует последовательность случайных величин, которая является случайным процессом. \end{frm} + \subsection{Цели АВР} \begin{itemize} \item выявление закономерностей изучаемых процессов -\item построение.... +\item построение моделей для прогноза; +\item обнаружение изменений свойств с целью контроля и управления процессом, выработка сигналов, предупреждающих о нежелательных последствиях. \end{itemize} \subsection{Стационарность рядов} @@ -222,27 +262,54 @@ $\sigma$ -алгебра F - набор подмножеств (подмноже E(Y_t) = \mu;\\ Var(Y_t) = \sigma^2\\ M_K = \int_a^b(x - mx)^a p(x) dx\\ - \gamma(k) = \rho(Y)t, Y_{t-k} = \frac{cov(Y_t, Y_{t-k})}{\sqrt{Var(Y_t) * Var(Y_{t-k})}} + \gamma(k) = \rho(Y_t, Y_{t-k}) = \frac{cov(Y_t, Y_{t-k})}{\sqrt{Var(Y_t) * Var(Y_{t-k})}} \end{gathered} \end{equation*} Свойства стационарного (в ШС) ВР -\begin{itemize} -\item $EY_t = \mu$ -\item $Cov(Y_t, Y_{t+\tau}) = E[(Y_T - EY_t)(Y_{t+\tau}-EY_{t+\tau})] = \gamma(\tau)$ -\end{itemize} +\begin{equation*} + \begin{gathered} +EY_t = \mu; Var(Y_t) = \sigma^2\\ +Cov(Y_t, Y_{t+\tau}) = E[(Y_T - EY_t)(Y_{t+\tau}-EY_{t+\tau})] = \gamma(\tau) = \gamma_\tau\\ +\gamma(0) = (\gamma_0) = cov(Y_t, Y_t) = Var(Y_t)\\ +\rho(Y_t, Y_{t+\tau}) = \frac{cov(Y_t,Y_{t+\tau})}{\sqrt{Var(Y_t) * Var(Y_{t+\tau})}} = \frac{\gamma(\tau)}{\gamma(0)} = \rho(\tau) = \rho(0) = \frac{\gamma(0)}{\gamma(0)} = 1 + \end{gathered} +\end{equation*} + Чтобы определнить степень зависимости, лучше использовать нормальные величины. \subsection{Свойство Гауссова процесса} -Функции распределения Гауссова процесса любого .. +Функции распределения Гауссова процесса любого порядка определяются вектором математических ожиданий и ковариационной матрицей. Следовательно из слабой стационарности следует строгая стационарность. + +Гауссовский белый шум. Модель процесса +\[ Y_t = \xi_t, \xi_t = N(0, \sigma^2)\] + +Свойства процесса +\begin{equation*} + \begin{gathered} + EY_t = 0, Var Y_t = \sigma^2\\ + \gamma_j = \rho_j = 0 \iff j \neq 0 + \end{gathered} +\end{equation*} +Обозначение $\xi_t\sim WN(0, \sigma^2)$ + +\subsection{Основные определения} +\begin{itemize} +\item Ковариации и корреляции между элементами $y_t$ и $y{t+\tau}$ процесса называются автоковариациями и автокорреляциями. +\item Последовательность автокорреляций называется автокорреляционной функцией процесса. +\item График автокорреляционной функции называется кореллограммой. +\end{itemize} \subsection{Оператор сдвига} -Оператором сдвига называется такое преобразование временного ряда, которое смещает ряд на один временной интервал +Оператором сдвига называется такое преобразование временного ряда, которое смещает ряд на один временной интервал назад \begin{equation*} \begin{gathered} LY_t = Y_{t-1}\\ - L^kY_t = Y_{t-k} + L^kY_t = Y_{t-k}\\ + (\alpha L^k)Y_t=\alpha(L^kY_t)=\alpha Y_{t-k}\\ + (\alpha L^k + \beta L^m)Y_t= \alpha L^kY_t + \beta L^mY_t = \alpha Y_{t-k} + \beta Y_{t-m}\\ + L^{-k}Y_t=T_{t+k} \end{gathered} \end{equation*} например @@ -253,26 +320,39 @@ $\sigma$ -алгебра F - набор подмножеств (подмноже Y_t - 0.5Y_{t-1}+0.6Y_{t-4}-0.3Y_{t-5} = c+\xi_t \end{gathered} \end{equation*} -\subsection{Теорема Вольда} -Любой стационарный вШС случайный процесс без детерминированной составляющей может быть представлен в виде -\[ Y_t - \mu = \sum_{j=0}^\infty \beta_j \xi_{t-j} \] -Если в разложении Вольда случайного процесса присутствует только конечное число членов, то такой процесс называется моделью скользящего среднего (MA, moving average). +\subsection{Теорема Вольда} +Любой стационарный в широком смысле случайный процесс без детерминированной составляющей может быть представлен в виде +\[ Y_t - \mu = \sum_{j=0}^\infty \beta_j \xi_{t-j}, \] +где $\sum_{j=0}^\infty \beta_j < \infty, E(\xi_t) = 0; E(Y_t) = \mu; Var(\xi_t)=\sigma^2; cov(\xi_i, \xi_j) = 0 \iff i \neq j$. + +Если в разложении Вольда случайного процесса присутствует только конечное число членов, то такой процесс называется моделью скользящего среднего (MA(q), moving average). +\[Y_t - \mu = \sum_{j=0}^\q \beta_j\xi_{t-j} \] Различные формы представления МА \begin{itemize} -\item исходный ряд -\item центрирование -\item центрированный процесс -\item с использованием оператора сдвига +\item исходный ряд $Y_1, ..., Y_t, ...$ +\item центрированный процесс $y_t = Y_t - \mu$ +\item $MA(q)$ центрированного процесса $y_t = \sum_{j=0}^\q \beta_j\xi_{t-j}$ +\item с использованием оператора сдвига $y_t = B(L)\xi_t$ + \[ y_t = \sum_{j=0}^\q(\beta_jL^j)\xi_{t} = (1 + \beta_1L + \beta_2L^2 + ... + \beta_qL^q) \xi_t\] \end{itemize} -Обратимый процесс - это процесс, при котором существует такой оператор, при котором сумма операндов равна единице. Для бесконечных процессов условие обратимости находить очень сложно. +Обратимый процесс -- это процесс, при котором существует такой оператор, при котором сумма операндов равна единице. Для бесконечных процессов условие обратимости находить очень сложно. + +Процесс $y_t=\xi_t+\beta_1\xi_{t-1}+\beta_2\xi_{t-2}+...+\beta_q\xi_{t-q}=B(L)\xi_t$ обратим, если для него существует представление $A(L)y_t=\xi_t$ такое, что $A(L) * B(L) = 1$. Можем для процесса построить характеристическое уравнение (взять коэффициенты и приравнять нулю). Если корни характеристического уравнения по модулю больше 1, то процесс обратим. +\subsection{Свойства процесса MA(q)} +\begin{enumerate} +\item Процесс MA(q) стационарен, так как он представляет собой частный случай разложения Вольда. +\item Процесс $y_t = (1 + \beta_1L + \beta_2L^2 + ... + \beta_qL^q) \xi_t$ обратим, если корни характеристического уравнения по модулю больше единицы + \[ |\frac{1}{z_j}| < 1, |z_j| > 1, j = 1,2,...,q \] +\end{enumerate} + \subsection{Процесс авторегрессии} -Для того, чтобы процесс авторегрессии был стационарным необходимо, чтобы корни характеристического уравнения были по модулю больше единицы +Для того, чтобы процесс авторегрессии был стационарным необходимо, чтобы корни характеристического уравнения $A(z) = 1-\alpha_1\lambda-\alpha_2\lambda^2-...-\alpha_k\lambda^k = 0$ были по модулю больше единицы Пример. Процесс МА \begin{equation*} @@ -402,7 +482,12 @@ $ARIMA(p, d, q);$ Если ряд -- стационарный, то строим Например, функция получится -(1) +\begin{figure}[H] + \centering + \fontsize{12}{1}\selectfont + \includesvg[scale=1.01]{pics/04-tsaf-00-acf.svg} +\end{figure} + видно, что первые три значения (лаги) отличаются (нулевой равен единице, это белый шум, там н е может быть корелляций), а все последующие незначительно отличаются от нуля. Получим одну из моделей \hrf{eq:arima-models} котороые возможно считать по АРИМА с нужными параметрами. По автокорреляции мы видим, какие варианты моделей возможны. для каждой модели строим распечатки и делаем диагностику. diff --git a/pics/04-bdaisdt-00-roc-bad.png b/pics/04-bdaisdt-00-roc-bad.png new file mode 100644 index 0000000..1ae23c6 Binary files /dev/null and b/pics/04-bdaisdt-00-roc-bad.png differ diff --git a/pics/04-tsaf-00-acf.svg b/pics/04-tsaf-00-acf.svg new file mode 100644 index 0000000..7a7d03b --- /dev/null +++ b/pics/04-tsaf-00-acf.svg @@ -0,0 +1,599 @@ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + image/svg+xml + + + + + + + + + + + + + + + + + + + + + + + + + + +