last feb wed

2023-02-27 17:37:31 +03:00 · 2023-02-27 17:37:31 +03:00 · c55842b43a
parent bb3d6c3f63
commit c55842b43a
3 changed files with 205 additions and 6 deletions
--- a/04-big-data-analysis-information-systems-developing-technologies.tex
+++ b/04-big-data-analysis-information-systems-developing-technologies.tex
@ -316,4 +316,46 @@ $a(x_i)$ -- алгоритм обучения. Если применить ал
 если линейно-зависимые столбцы мы не можем регрессировать.
 разность между модельным У и реальным У называется разностью. можно построить график разностей. если они примерно однородны - это линейные остатки. если остатки не переходят в другие области такого графика -- это называется гомоскедастичность.

+\section{Линейная регрессия}
+% lgrebenuk12@yandex.ru
+\begin{equation*}
+  \begin{gathered}
+    R^2 = 1-\frac{\sum_{i=1}^l(a(x_i)-y_i)}{\sum_{i=1}^l(y_i-\overline{y})^2}\\
+    \overline{y} = \frac{1}{n}\sum y_i\\
+    MSE = \frac{1}{n}\sum_{i=1}^n(y_i - \overline{y})^2 = \sigma^2_r
+  \end{gathered}
+\end{equation*}
+числитель -- среднеквадратичная ошибка, знаменатель -- простое среднее. Хорошая модель - где ошибка классификатора минимальна. r - число регрессоров. В модель нежелательно включать лишние регрессоры (штрафы по критериям акаике и шварца).
+
+Критерии для включения переменной
+\begin{enumerate}
+\item Роль переменной в уравнении опирается на прочные теоретические основания
+\item высокие значения t-статистики $t_{stat} = \frac{\omega-\overline{\omega}}{\sigma_\omega\sqrt{l}}$
+\item исправленный коэффициент детерминации растёт при включении лишней переменной
+\item другие коэффициенты испытывают значительное смещение при включении лишней новой переменной
+\end{enumerate}
+
+\begin{equation*}
+  \begin{gathered}
+    y = \omega x + \omega_0 = \tilde{\omega{x}} \to \frac{1}{1-e^{-\omega x}} = \sigma\\
+    x = (x_1, ..., x_K 1)
+  \end{gathered}
+\end{equation*}
+
+регрессия выдаёт вероятности. Алгоритм максимизирует отступ классификатора (расстояние до ближайшего объекта).
+
+\subsection{Линейно разделимый случай}
+Мы можем найти такие параметры, при которых классификатор не допускает ни одной ошибки
+
+Отступ классификатора
+
+...
+
+Вычисление ширины разделяющей полосы классификатора
+
+...
+
+Метод опорных векторов
+
+\section{Домашнее задание}
 \end{document}
--- a/04-time-series-analysis-forecasting.tex
+++ b/04-time-series-analysis-forecasting.tex
@ -290,15 +290,149 @@ $\sigma$ -алгебра F - набор подмножеств (подмноже
 \[ \rho_\tau = \rho(\tau) = \frac{\gamma(\tau)}{\gamma(0)} \]

 \subsection{Модель авторегрессии}
-\[ y_t = \alpha_1y_{t-1}+\alpha_2y_{t-2}+...+\alpha_Py_{t-p}+\xi_t AR{K}\]
-
-\[ y_t = \xi_t +\beta_1\xi_{t-1}+ ...+\beta_q\xi_{t-q}; MA(q)\]
-
-\[ y_t = \alpha_1y_{t-1}+...+\alpha_ky_{t-k} = \beta_1\xi_{t-1}; ARMA(p,q)\]
+\begin{equation}
+  \begin{gathered}
+  y_t = \alpha_1y_{t-1}+\alpha_2y_{t-2}+...+\alpha_Py_{t-p}+\xi_t AR\{K\}\\
+  y_t = \xi_t +\beta_1\xi_{t-1}+ ...+\beta_q\xi_{t-q}; MA(q)\\
+  y_t = \alpha_1y_{t-1}+...+\alpha_ky_{t-k} = \beta_1\xi_{t-1}; ARMA(p,q)
+  \end{gathered}
+  \label{eq:arima-models}
+\end{equation}

 $ARIMA(p, d, q);$ Если ряд -- стационарный, то строим модель по $d=0$ если нет то строим модель по разности.

-Основной инструмент для выбора границ порядков -- автокорреляционная и частная автокорреляционная функция временного ряда. Tckb d fdnjhtuhtccbb ldf pyfxbvs[ xktyf nj d vjltkb crjkmpzotuj chtlytuj yt vj;tn m,snm ,jkmit lde[ xktyjd/
+Основной инструмент для выбора границ порядков -- автокорреляционная и частная автокорреляционная функция временного ряда. Если в авторегрессии для значения члена то в модели скользящего среднего не может быть больше двух членов.

+\newpage
+
+\section{АКФ процесса}
+процесс
+
+\begin{equation*}
+  \begin{gathered}
+    y_t = 0,6y_{t-1} + 0,2y_{t-2 + \xi_t}, \xi\approx(0,1)\\
+    cov(y_t, y_{t-1}) = cov(0,6y_{t-1}, y_{t-1}) = cov(0,2y_{t-2}, y_{t-2}) + cov(\xi_{t}, y_{t-1})\\
+    \gamma(1) = 0,6\gamma(0) + 0,2\gamma(1)\\
+    \gamma(0) = 0,6\gamma(1) + 0,2\gamma(2) + 1; cov(\xi_t, y_t) = cov(\xi_t, \xi_t-1)\\
+    \gamma(2) = 0,6\gamma(1) + 0,2\gamma(0)\\
+    \gamma(3) = 0,6\gamma(2) + 0,2 \gamma(1)\\
+    \gamma(K) = 0,6\gamma(k-1) + 0,2\gamma(k-2)\\
+    \gamma(1) = cov(y_t, y_{t-1}) = cov(y_{t-k}, y_{t-k-1})
+  \end{gathered}
+\end{equation*}
+
+\begin{equation*}
+  \begin{gathered}
+    y_t = 0,7 + 0,5y_{t-1} + \xi_t \sim N(0,1)\\
+    var y = 0,5 \\
+    var(y_t) = var(0,7 + 0,5 y_{t-1} + \xi_t) = var(0,5y_{t-1} + \xi_t)\\
+    1 = 0,5\lambda\\
+    1-0,5\lambda = 0\\
+    \lambda = 2>1 (\text{стационарный})\\
+    var(y_t) = var(0,5y_{t-1}) + var(\xi_t)\\
+    var(y_t) = 0,25 var(y_t) + var(\xi_t)\\
+    0,5 = 0,25 * 0,5 = var(\xi_t)\\
+    var(\xi_t) = 0,5 - 0,125\\
+    var(\xi_t) = 0,375.
+  \end{gathered}
+\end{equation*}
+
+\begin{equation*}
+  \begin{gathered}
+    y_t = 0,5 + 0,4\xi_{t-1} - 0,05\xi_{t-2} + \xi_t, \xi_t\sim N(0, \sigma^2)\\
+    var(y_t) = var(0,4\xi_{t-1} - 0,05\xi_{t-1}+\xi_t)\\ %раскрываем скобки
+    var(y_t) = var(0,4\xi_{t-1}) + var(-0,05\xi_{t-1}) + var(\xi_t)\\ % выносим константы в квадрате
+    var(y_t) = (0,16 + 0,0025 + 1)var(\xi_t) = 1,1625\sigma^2\\ %далее ищем ковариацию
+    cov(y_t, y_{t-1}) = E[(y_t - E y_t)(y_{t-1}- E y_{t-1})]\\
+    E[0,5 + 0,4\xi_{t-1}...] \\ % E от \xi всегда == 0
+    E((0,4\xi_{t-1} - 0,05 \xi_{t-1} + \xi_t)(0,4\xi_{t-2} - 0,05 \xi_{t-1} + \xi_t)) =\\
+    =(0,4\sigma^2 - 0,02\sigma^2) = 0,38\sigma^2 = \gamma(1)\\
+    E((0,4\xi_{t-1} - 0,05\xi_{t-2} + \xi_t)(0,4\xi_{t-3} - 0,05 \xi_{t-4} + \xi_{t-2})) = \\
+    = -0,05 \sigma^2
+  \end{gathered}
+\end{equation*}
+
+\begin{equation*}
+  \begin{gathered}
+    y_t = 2\xi_{t-3} - \xi_{t-2} + 3\xi_{t-1} + \xi_t; \xi_t \sim N(0, \sigma^2)\\
+    var(y_t) = var(2\xi_{t-3}) + var(-\xi_{t-2}) + var(3\xi_{t-1}) + var(\xi_t)\\
+    var(y_t) = (4+1+9)\sigma^2 = 15\sigma^2\\
+    cov(y_t, y_{t-1}) = E[(y_t - E y_t)(y_{t-1}- E y_{t-1})]\\
+    E(y_t) = 0;\\
+    cov(y_t, y_{t-1}) = E[(2\xi_{t-3}- \xi_{t-2} + 3\xi_{t-1} + \xi_t)(2\xi_{t-4}- \xi_{t-3} + 3\xi_{t-2} + \xi_{t-1})]=\\
+    = E[(-2\xi_{t-3}^2 - 3\xi_{t-2}^2 + 3\xi_{t-1}^2)] = \\
+    = -2\sigma^2\\
+    \gamma(1) = -2\sigma^2\\
+    \gamma(2) = 5\sigma^2\\
+    \gamma(3) = 2\sigma^2\\
+    \gamma(4) = 0
+  \end{gathered}
+\end{equation*}
+
+
+
+\appendix
+\setcounter{secnumdepth}{0}
+\section*{Приложения}
+\addcontentsline{toc}{section}{Приложения}
+\renewcommand{\thesubsection}{\Asbuk{subsection}}
+
+\subsection{Лабораторная работа 1}
+Проверка гипотез
+
+Есть процесс, есть модель. Надо проверить, соответствует ли какое-то следующее значение модели.
+
+\begin{equation*}
+  \begin{gathered}
+    H_0: \alpha \neq 0;\\
+    H_1: \alpha = 0;\\
+    y_t = \alpha; y_{t+1} + \xi
+  \end{gathered}
+\end{equation*}
+
+Нам машина посчитала альфу, но на реальной выборке не получится посчитать 0. значение отклонения делим на дисперсию и получаем p-value, если оно $\geq 0,05$ нулевая гипотеза неверна. то есть это уровень доверия. Если выборка маленькая - можно взять больший коэффициент.
+
+Стационарный процесс. Чтобы его проверить нужно построить автокорреляционную функцию
+\begin{equation*}
+  \begin{gathered}
+\rho(K) = \frac{Cov(y_t, t_{t-K})}{\sqrt{Var(y) + Var(y+k)}}\\
+\frac{cov(y_t, t_{t-K})}{Var(y)}, cov(y_t, t_{t-K}) = \gamma(k)
+  \end{gathered}
+\end{equation*}
+
+Например, функция получится
+
+(1)
+
+видно, что первые три значения (лаги) отличаются (нулевой равен единице, это белый шум, там н е может быть корелляций), а все последующие незначительно отличаются от нуля. Получим одну из моделей \hrf{eq:arima-models} котороые возможно считать по АРИМА с нужными параметрами. По автокорреляции мы видим, какие варианты моделей возможны. для каждой модели строим распечатки и делаем диагностику.
+
+Проверка стационарности процесса. Размер выборки должен быть треть от числа лагов. корреляционная и автокорреляционная функция участвуют в выборе правильной модели. по АКФ мы видим, что может быть самое больше -- два лага.
+
+\[MSE = \tilde{\sigma}^2 = \frac{1}{K}\sum_{i=3}^n(y_i-y_i^M)^2\]
+
+Вычислили на обучающей выборке, затем вычисляем на контрольной выборке. По автокорреляции мы считаем не порядок авторегрессии, а порядок скользящего среднего. А для того чтобы примерно прикинуть порядок p -- нужно вычислить частный коэффициент автокорреляции.
+\[ 0\leq q \leq 2, 0\leq p\leq 1\]
+
+\[y_t = \alpha_0 y_{t-1} + ... + \alpha_{K-1} y_{t-k+1} \]
+
+влияние игреков уменьшается чем дальше мы отходим от $\alpha_0$. частный коэффициент показывает влияние предыдущих значений на последующие.
+
+Криетрий Акаике
+
+\begin{equation*}
+  \begin{gathered}
+    AIC = \tilde{\sigma}^2 + \frac{r}{N};\\
+    SIC = \tilde{\sigma}^2 + \frac{r\ln r}{N};
+  \end{gathered}
+\end{equation*}
+
+r = число параметров модели, N - объём выборки. добавляет штраф за переобучение. Шваарц более сильно штрфует, Хеннана-куина штрафует ещё сильнее. Нужно выбрать лучшую модель по критерию Акаике.
+
+Люнг-Бокс говорит о том, насколько мы ошибёмся, если отвергнем нулевую гипотезу (остатки не коррелированы). Если остатки коррелированы - модель плохая, мы не смоделировали зависимость. Критерий гетероскедастичности -- если остатки неоднородны лучше не брать такую модель.
+
+Вероятность ошибиться отвергнув нулевую гипотезу должна быть меньше 0,05.
+
+SARIMA(p,d,q)(P,D,Q,S) -- учёт сезонности.

 \end{document}
+ 
--- a/04-videostream-object-parameter-recognition-algorithms.tex
+++ b/04-videostream-object-parameter-recognition-algorithms.tex
@ -224,5 +224,28 @@ $A$ -- не чёткое изображение, на рисунке -- гран
 \[ H = \begin{pmatrix} h_{11}&h_{12}&h_{13}\\h_{21}&h_{22}&h_{23}\\h_{31}&h_{32}&h_{33} \end{pmatrix} \]

 Основная задача -- поиск точек, подверженных гомографии. Такой поиск называется схема RANSAC.
+
+\section{Стереозрение}
+эпиполярная геометрия
+
+берём две камеры, смотрим их углы обзора.
+(1)
+d -- стереобаза
+
+\[ r = \frac{f(x_1-x_2)}{d} \]
+
+Преимущество в лёгкости, недостаток в сложности настройки подобной системы (две абсолютно идентичные камеры будут всё равно иметь свои искажения, углы зрения и так далее). Частоты камер могут не совпадать. Оси камер должны быть параллельны друг другу (соосны).
+
+(2)
+
+В результате получаем стереопару. Библиотека \code{calib3d}. Получив стереопару возможно строить карту глубин изображения (depth map). \code{cvStereoBMState} block matching. ищем пиксель с одной камеры в полосе другой камеры. Есть другой вид функций -- \code{...GC...} -- graph cut, вычислительно более сложны, остаются только ветки с наименьшими ошибками сопоставления. \footnote{Bradski - Learning OpenCV, Multiple View Geometry in Computer Vision - Hartley, Zisserman}
+
+\subsection{Ректификация}
+(3)
+
+Для определения объекта далее берутся характерные точки и признаки на одном изображении и ищутся на другом изображении.
+
+\section{Анализ размытия изображения}
+
 \end{document}