BMSTU/04-big-data-analysis-inform...

\documentclass{article}

\input{settings/common-preamble}
\input{settings/bmstu-preamble}
\input{settings/fancy-listings-preamble}
\author{Гребенюк Елена Алексеевна}
\title{Технологии разработки информационных систем для анализа больших объёмов информации}
\date{2023-02-08}

\begin{document}
\maketitle
\tableofcontents
\newpage
\section{Введение}
\subsection{Что нужно знать}
\begin{itemize}
\item \textbf{Основы теории вероятностей и математической статистики} (случайные величины, непрерывные и дискретные случайные величины, матожидание, дисперсия, ковариация, корреляция)
\item выборка, статистика, гистограмма, смещение
\item несмещённая оценка, асимптотически несмещённая оценка, состоятельная оценка, дисперсия оценки, коэффициент корреляции Пирсона, коэффициент корреляции Спирмена, нормальное (гауссовское) распределение (одномерное и многомерное), центральная предельная
\item \textbf{основы линейной алгебры}
  \begin{itemize}
  \item Вектор, операции над векторами и их свойства, векторное пространство, аксиомы векторного пространства, размерность векторного пространства.
  \item Линейная зависимость векторов, линейная независимость векторов, методы проверки линейной независимости векторов.
  \item Матрица, операции над матрицами, умножение матрицы на вектор, умножение матрицы на матрицу, ранг матрицы, транспонирование матриц, обратная матрица.
  \item Система линейных уравнений (СЛУ), число решений СЛУ, ранг матрицы СЛУ и число ее решений.
  \item Евклидово пространство, его свойства, норма вектора, ее свойства, метрика, евклидова метрика, скалярное произведение векторов, угол между векторами.
  \end{itemize}
\item \textbf{Теория информации} Информационная энтропия (Entropy) – мера неопределённости некоторой системы
\item \textbf{Python} Библиотеки: Scikit-Learn, Numpy, Scipy, Pandas, Matplotlib, ...
\end{itemize}

\subsection{Типы задач анализа данных}
\begin{itemize}
\item Визуализация - анализ ситуации, анализ исходной информации, анализ, интерпретация и представление результатов
\item Поиск шаблонов поиск частых наборов - метод ассоциативных правил - market basket analysis
\item прогнозирование - определение нового класса или объекта, которого не было в обучающей выборке
\item кластеризация или сегментация
\end{itemize}

\textbf{Этапы решения задачи алгоритмами машинного обучения}
\begin{itemize}
\item формальная постановка задачи (кампания по привлечению кредитов, найти модель)
\item данные (признаковое описание -- бинарные, числовые, категориальные, порядковые; матрица расстояний между объектами, временные ряды скалярных или векторных наблюдений, итого 16 прпизнаков)
\item определение ответа (да/нет), но чаще всего нужен не бинарный ответ, а определение степени доверия ответу.
\item выбор критериев качества решения (метрики оценивания используемого метода решения должны иметь интерпретацию, значимую для решаемой бизнес-задачи)
\item выбор метода решения
\item предобработка данных (если клиентов приндалежащих какому-то классу меньше 5\% выборка не сбалансирована)
\item реализация, оценка качества
\end{itemize}
Пример -- Скоринг -- определение платёжеспособности.

\begin{enumerate}
\item \textbf{Постановка задачи}. Проводилась компания по привлечению клиентов для открытия депозита. Цель маркетинговой компании: привлечь клиентов на депозит, предлагая долгосрочные депозитные заявки с высокими процентными ставками, при сокращении затрат и времени на проведение компании: контактов должно быть меньше, но число клиентов, подписавшихся на депозит не должно уменьшаться. Цель исследования: найти модель, которая может объяснить успех компании т. е., если клиент подписывает депозит. Решается задача классификации: по имеющемуся признаковому описанию клиента определить подпишет ли он депозит (успех) и нет (неудача).
\item \textbf{Данные задачи}. \textbf{Типы входных данных}: признаковое описание, каждый объект описывается набором числовых или нечисловых признаков; матрица расстояний между объектами (метод ближайших соседей); временные ряды скалярных или векторных наблюдений (сигналы); изображение или видеоряд;

\textbf{Признаковое описание} Бинарные признаки – $(0, 1)$; Числовые признаки: $x_{ik} \in R$ -- с этими признаками удобно работать, практически любой метод применим к задаче с числовыми признаками; Категориальные признаки $x_{ik} \in \{\alpha_1, ..., \alpha_k\}$ нет метрики, нет упорядочения; Порядковые признаки $x_{ik} \in \{\alpha_1, ..., \alpha_k\}$ есть упорядочение.

\textbf{Входные данные 16 признаков}
\textbf{Общие данные о клиенте}
1 - age (numeric);
2 - job : (categorical: "admin.", "unknown", "unemployed", "management", "housemaid", "entrepreneur", "student", "blue-collar", "self-employed", "retired", "technician", "services")
3 - marital (categorical: "married", "divorced", "single")
4 - education (categorical: "unknown","secondary","primary","tertiary")
\textbf{Финансовое положение}
5 - default: has credit in default? (binary: "yes","no")
6 - balance:, in euros (numeric)
7 - housing: has housing loan? (binary: "yes","no")
8 - loan: has personal loan? (binary: "yes","no")
\textbf{Данные о рекламной компании}
9 - contact: contact communication type (categorical: "unknown","telephone","cellular")
10 - day: last contact day of the month (numeric)
11 - month: last contact month of year (categorical: "jan", "feb", "mar", ..., "nov", "dec")
12 - duration: last contact duration, in seconds (numeric)
13 - campaign: number of contacts performed during this campaign (numerict)
14 - pdays: number of days that passed by after the client was last contacted (numeric)
15 - previous: number of contacts performed before this campaign and for this client (numeric)
16 - poutcome: outcome of the c (categorical: "unknown","other","failure","success")
17 - y - has the client subscribed a term deposit? (binary: "yes","no")

\item \textbf{Предварительная обработка и проверка качества исходных данных}
1. Какова доля объектов первого класса в данных? Если эта доля менее 5\% - имеем несбалансированную выборку.
2.Какова доля выбросов, пропусков в данных? Выбросы могут быть результатом: событий, которые происходят с небольшой вероятностью и большим воздействием, системной ошибки.

\item \textbf{Определение ответа} Варианты ответов: клиент подписывает контракт -- класс 1, клиент не подписывает -- класс 0;

  вектор $\{p, 1-p\} = P, p$ --степень уверенности алгоритма (вероятность) в том, что объект принадлежит классу 1 .

\item Выбор критериев: метрики оценивания используемого метода решения должны иметь интерпретацию, значимую для решаемой бизнес-задачи.

\end{enumerate}

\subsection{Работа с несбалансированными выборками}
Метрики для несбалансированных наборов данных: AUC-ROC (площадь под ROC-кривой) , f1-score.

\begin{enumerate}
\item Удаление части элементов мажоритарного класса (недостаток: потеря данных).
\item Дополнение миноритарного класса повторяющимися данными (недостаток: переобучение на элементах миноритарного класса).
\item Создание дополнительных искусственных объектов.
\item Настройка классификатора с использованием весов. В контексте кредитования потеря денег из-за незаслуживающего доверия заемщика обходится существенно выше, чем отсутствие возможности кредитования надежного заемщика. Поэтому мы можем назначать этим классам различные веса и отсечки
\end{enumerate}

Метрики Качества. Пусть имеется два класса 1 -- положительный и 0 -- отрицательный
\begin{itemize}
\item True positive TP объекты, принадлежащие положительному классу $Y_1$, определены алгоритмом как положительные
  \[ TP = \{ X_t \in Y_1 | a(X_t, g) = 1 \} \]
\item False positive FP объекты, принадлежащие отрицательному классу $Y_0$ ,определены алгоритмом как положительные
  \[ FP = \{ X_t \in Y_0 | a(X_t, g) = 1 \} \]
\item False negative FN объекты, принадлежащие положительному классу $Y_1$ , определены алгоритмом как отрицательные
  \[ FN = \{ X_t \in Y_1 | a(X_t, g) = 0 \} \]
\item True negative TN объекты, принадлежащие отрицательному классу $Y_0$ , определены алгоритмом как отрицательные
  \[ TN = \{ X_t \in Y_0 | a(X_t, g) = 0 \} \]
\end{itemize}

\subsection{Метрики качества оценки алгоритмов машинного обучения}
\begin{itemize}
\item \textbf{Accuracy} $\frac{TN + TP}{n}$ -- метрика сама по себе неприменима.
\item \textbf{Precision} $\frac{TP}{TP+FP}$ -- уровень доверия к положительным ответам модели, доля истинных положительных объектов, выделенных классификатором как положительные.
\item \textbf{Recall} $\frac{TP}{TP+FN}$ -- какая часть положительных объектов правильно определена классификатором
\item \textbf{F-мера} (F-score) -- гармоническое среднее точности и полноты. F-мера обладает важным свойством -- она близка к нулю, если хотя бы один из  аргументов близок к нулю: $F = \frac{2*precision*recall}{precision+recall}, 0\leq F \leq 1$
\item Ошибка 1 рода (Туре I Error) случается, когда объект ошибочно относится к положительному классу
\item Ошибка 2 рода (Туре II Error) случается, когда объект ошибочно относится к отрицательному классу
\end{itemize}

\subsection{Confusion Matrix}
Хорошо подходит для многоклассовой классификации. Классификация в случае двух классов:
\begin{equation*}
\begin{pmatrix}
  TP & FP \\
  FN & TN \\
\end{pmatrix}
\end{equation*}
FP, FN -- число элементов, определённых ложно.

Многоклассовая классификация, $m$ классов.
\begin{itemize}
\item $C = (c_{ij} i = 1, ..., m, j = 1, ..., m)$
\item $c_{ij} = |X_t:X_t \in i|a(X_t, g)= j|$
\item число объектов, принадлежащих классу $i$, отнесённые алгоритмом к классу $j$.
\begin{equation*}
\begin{pmatrix}
  10 & 5 & 0 & 0 \\
  3 & 12 & 0 & 0 \\
  0 & 0 & 14 & 1 \\
  0 & 0 & 0 & 15 \\
\end{pmatrix}
\end{equation*}
\end{itemize}

\subsection{Отбор признаков}
Посчитаем число вариантов признаковых описаний одного клиента. Число значений категориальных и бинарных признаков каждого клиента, не считая возраста, равно
\[N = 12 * 3 * 4 * 8 * 3 * 12 * 4 = 144 * 24 * 48 = 165888.\]
С ростом размера признакового пространства увеличивается сложность задачи и снижается достоверность решения.

\textbf{Шумовые признаки} -- это признаки, которые никак не связаны с целевой переменной. Зашумленность данных означает, что отдельные значимые объясняющие переменные, возможно, не были зарегистрированы или что дефолт произошел случайно.

\textbf{Методы отбора признаков}
\begin{itemize}
\item Обертки -- использующие для отбора признаков конкретную модель. Модель обучается на подмножестве признаков, для нее строится матрица ошибок, затем на другом и т.д.
\item Фильтры -- удаляем коррелированные данные матрица рассеяния, F-тест -- оценивает степень линейной зависимости между признаками и целевой переменной, поэтому он лучше всего подойдёт для линейных моделей. Реализован как \code{f_classif} для классификации; хи-квадрат -- оценивает степень линейной зависимости между признаками и целевой переменной.
\item Встроенные методы -- задача отбора признаков -- побочная задача (случайный лес)
  \[ IG = H(S_i) - \frac{|S_{il}|}{|S_i|} H(S_{il}) - \frac{|S_{ir}|}{|S_i|} H(S_{ir}) \to \max \]
\end{itemize}

\textbf{Отбор категориальных признаков}
Значения категориальных признаков могут быть любыми объектами, на которых определена операция сравнения (равно и не равно).

\begin{itemize}
\item \textbf{Lable encoding} -- отображение каждого признака в число позволяет использовать его в модели обучения. Недостатки: неявно задает порядок категории, не может работать с неизвестными в процессе обучения значениями категориального признака
\item \textbf{Onehot coding} -- недостатки: увеличение количества признаков
\item \textbf{Target encoding} -- кодирование с учётом целевой переменной
  \[ p_j(x \in X) = \frac{\sum_{i=1}^N[f_j(x\in X) = f_j(x_i)][y_i = 1]}{\sum_{i=1}^N[f_j(x\in X) = f_j(x_i)]} \]
где $p_j(x \in X)$ -- числовое значение $j$-го категориального признака на объекте $x, f_j(x_i)$ -- исходное значение $j$-го категориального признака на объекте $x_i$. Использование счетчиков может привести к переобучению. Модель может опираться на счетчики, если есть уверенность в том, что модель обучена по большому числу объектов. Сглаживание

  \[ p_j(x \in X) = \frac{\sum_{i=1}^N[f_j(x\in X) = f_j(x_i)][y_i = 1] + C/N \sum_{i=1}^N[y_i = 1]}{\sum_{i=1}^N[f_j(x\in X) = f_j(x_i)] + C} \]

Если мало объектов этой категории, то числовое значение признака приближается близко к среднему по всей выборке, а для популярных к среднему значению по категории. $p_j(X) \to 1/N \sum_{i=1}^N[y_i = 1]$, если мало объектов в категории.

Значение категориального признака в задаче регрессии
  \[ p_j(x \in X) = \frac{\sum_{i=1}^N[f_j(x\in X) = f_j(x_i)]*\ddot{y_i}}{\sum_{i=1}^N[f_j(x\in X) = f_j(x_i)]} \]

$\ddot{y_j}$ -- среднее значение $y_t$ для объектов с категориальным признаком.
\end{itemize}

\subsection{Permutation Importance, Feature selection}
Важность перестановки
\begin{itemize}
\item Случайным образом тасуется один столбец в валидационной выборке. Признак считается значимым, если точность модели сильно падает и вызывает увеличение ошибки и «неважным», если перетасовка его значений не влияет на точность модели.
\item Permutation Importance рассчитывается после обучения модели с использованием библиотеки ELI5. ELI5 -- это библиотека Python, которая позволяет визуализировать и отлаживать различные модели машинного обучения с использованием унифицированного API.
\item Feature selection -- отбор самых важных признаков. Оценка информативности признаков: Вычисление дисперсии: чем больше дисперсия, тем информативнее признак
  \[ Var(x_j) = \frac{1}{N}\sum_{i=1}^N(x_{ij} - \overline{x_j})^2\]
Позволяет убирать малоинформативные признаки, недостатки: никак не учитываются значения целевой переменной.
\item Вычисление корреляции между значениями признака и целевой переменной (задача регрессии)
\item Задача классификации: Подсчет процента успешной классификации для каждого из значений признака $p$. По теореме Байеса считаем $P(X_j|Y)$ -- вероятность признака $X_j$, если объект принадлежит положительному классу. Если $P(X_j|Y = 1) > 0,7 \cup P(X_j|Y = 1) < 0,3$, то считаем $X_j$ информативным признаком.
\end{itemize}

\subsection{Отбор признаков по Теореме Байеса}
Теорема Байеса. Пусть $В_1, В_2, ..., В_r$, полная группа событий $А$ -- некоторое событие, вероятность которого связана с $В_i$, тогда
\[ P(B_i|A) = \frac{P(A|B_i)p(B_i)}{P(A)}\],
где $P(A) = \sum_{i=1}^rP(A|B_i)p(B_i)$.По теореме Байеса считаем $P(X_j,Y)$ -- вероятность признака $Х_у$, если объект принадлежит положительному классу. Если Р(X,IY = 1) > P

 0,7 UP(XIY = 1)<0,3, то считаем X, информативным признаком.

 Пример. Оценим информативность признаков x, и х, по Теореме Байеса:

 P(xy = 1)Y = 1) =1/2

 P(xr = b/Y = 1) =3/16

\subsection{Наивный байесовский классификатор}
\[ L = \{X_t, Y_t\}_t=1^N \] обучающая выборка, $X_j=\left( \begin{array}{c} x_{1j}\\ ...\\ x_{Nj}\end{array} \right)$ -- j-ый признак, $X_k$ -- новый объект.

Предположение. При заданном значении класса $Y_t$ признаки $\dot{X_j}, ..., \dot{X_j}$ независимые.

$P(Y = 1|0,b) = \frac{P(0,b|Y)P(Y)}{P(0,b)}$

$y = argmax(P(a,b|Y) * P(Y))$

\subsection{ROC-кривая}
Число строк в квадрате справа равно числу единиц, число столбцов -- числу нулей. Стартуем из точки (0, 0)(левый нижний угол. Если значение метки класса в просматриваемой строке 1, то делаем шаг вверх; если 0, то делаем шаг вправо, если у нескольких объектов значения оценок равны, то делаем шаг в точку \textbf{а} блоков выше и \textbf{b} блоков правее, где \textbf{а} -- число единиц, \textbf{b} -- число нулей в рассматриваемой группе объектов.

Считаем сколько \% покрыто.

\begin{figure}[H]
  \centering
  \fontsize{14}{1}\selectfont
  \includesvg[scale=1.01]{pics/04-bdisdt-00-roc.svg}
\end{figure}


\textbf{Принятие решений на основе кривой.} Для того, чтобы решить, какие объекты отнести к классу 1, а какие к классу 0, нужно будет выбрать некоторый порог (объекты с оценками выше порога относим к классу 1, остальные -- 0). Выбору порога соответствует выбор точки на ROC-кривой. Здесь для порога $0.25$ выбрана точка (1/4,2/3).

  \begin{tabular}{||r|c|c||}
    \hline
    id & $>0.25$ & класс \\ [0.5ex]
    \hline
    4 & 1 & 1 \\
    1 & 1 & 0 \\
    6 & 1 & 1 \\
    3 & 0 & 0 \\
    5 & 0 & 1 \\
    2 & 0 & 0 \\
    7 & 0 & 0 \\
    \hline
  \end{tabular}

 1/4 - это \% точек класса 0, которые неверно классифицированы алгоритмом (FPR = False Positive Rate),

 2/3 - \% точек класса 1, верно классифицированых алгоритмом (TPR = True Positive Rate).

Качество ROC-кривой напрямую зависит от объёма выборки и количества признаков. С её помощью можно оченить информативность признаков (отобрать признаки).

\subsection{Precision-recall кривая}

\subsection{Тестирование модели}

\subsection{Оценка}
Оценивание методов обычно проводится, относительно следцющих характеристик: скорость, робастность, интерпретируемость, надёжность.
\begin{itemize}
\item скорость -- время которое требуется на создание модели и её использование
\item Робастность -- устойчивость к отклонениям от исходных предпосылок метода, например, возможность работы с зашумленными данными, пропущенными значениями в данных, нарушениями предположений о распределении и пр.
\item Интерпретируемость -- обеспечивает возможность понимания модели аналитиком предметной области. Пусть для решения применили методы: деревья решений; байесовская
\end{itemize}
классификация, метод ближайшего соседа; - логистическая регрессия;

метод опорных векторов. Можно ли сравнить их по вышеперечисленным

\section{Решаемые задачи}
\[ [a(x_i)\neq y_i] =
  \begin{cases}
    1, if a(x_i) \neq y_i\\
    0, if a(x_i) = y_i
  \end{cases}
\]

$a(x_i)$ -- алгоритм обучения. Если применить алгоритм -- получим результат классификации $x_i$, сравниваемый с $y_i$.

\begin{multicols}{2}
Классификация
  \columnbreak
Прогнозирование
\end{multicols}

\subsection{Обозначения}
Пусть $X_t\subset X$ -- объект множества $X$ с набором характеристик $(X_1, Xız, ..., Xtn)$, $Y$ -- множество классов, к которым принадлежат объекты множества $Х$.

% {X, Y} 1 - обучающая выборка, для которой на подмножестве объектов Xt CX известны ответы Yt.

%Требуется построить алгоритм а: X → Y, который определяет ответы Yе для любого объекта Xt, не принадлежащего обучающей выборке £ = {Xt, Y}-1. Jt=1'

\subsection{Задача классификации}

\subsection{Метрики. Оценка качества работы алгоритма}
Обучение линейного елассификатора заключается в поиске вектора весов $w$, на котором достигается минимум заданного функционала качества.

...

\subsection{Задача классификации. Метод логистической регрессии.}
Рассматриваем бинарную классификацию $Y = \{1, -1\}$, хотим построить модель, которая выдает не номер класса, а вероятность принадлежности объекта к классу. Бинарная логистическая регрессия предсказывает вероятность того, что модель принадлежит к положительному классу.

Будем говорить, что модель корректно предсказывает вероятности, если среди множества объектов, для которых модель предсказала вероятность $p$, доля положительных равна $p$.

Критерий $\sum_{i=1}^N \log(1+\exp(-Y_i\langle X_i, w\rangle) \to \underset{w}{min})$\footnote{Треугольные скобки означают скалярное произведение, абсолютную величину отступа}.

\subsection{Выбор критерия}
сигма - это уверенность алгоритма в ответе.

\section{Регрессия}
\subsection{Постановка задачи}

%Пусть значение целевой переменной $Y \in R$ для входного вектора 𝑿𝑿 = 𝑋𝑋1 , 𝑋𝑋2 , … , 𝑋𝑋𝑛𝑛 , . . определяется значением детерминированной функции 𝑔𝑔(𝑿𝑿, 𝝎𝝎) с аддитивным гауссовым шумом:
%Тогда
%𝑌𝑌 = 𝑔𝑔 𝑿𝑿, 𝑤𝑤 + 𝜉𝜉, 𝜉𝜉 ∼ 𝑁𝑁(0, 𝜎𝜎 2 ) 𝑃𝑃 𝑌𝑌|𝑿𝑿, 𝑤𝑤, 𝜎𝜎 2 ∼ 𝑁𝑁(𝑔𝑔 𝑿𝑿, 𝑤𝑤 , 𝜎𝜎 2 ).
% Требуется построить функцию 𝑔𝑔: (𝑿𝑿, 𝜔𝜔) ⟹ 𝑹𝑹 . Вид функции 𝑔𝑔 мы задаем, веса 𝜔𝜔 определяются в процессе обучения.

\subsection{Модель прогнозирования}
если линейно-зависимые столбцы мы не можем регрессировать.
разность между модельным У и реальным У называется разностью. можно построить график разностей. если они примерно однородны - это линейные остатки. если остатки не переходят в другие области такого графика -- это называется гомоскедастичность.

\section{Линейная регрессия}
% lgrebenuk12@yandex.ru
\begin{equation*}
  \begin{gathered}
    R^2 = 1-\frac{\sum_{i=1}^l(a(x_i)-y_i)}{\sum_{i=1}^l(y_i-\overline{y})^2}\\
    \overline{y} = \frac{1}{n}\sum y_i\\
    MSE = \frac{1}{n}\sum_{i=1}^n(y_i - \overline{y})^2 = \sigma^2_r
  \end{gathered}
\end{equation*}
числитель -- среднеквадратичная ошибка, знаменатель -- простое среднее. Хорошая модель - где ошибка классификатора минимальна. r - число регрессоров. В модель нежелательно включать лишние регрессоры (штрафы по критериям акаике и шварца).

Критерии для включения переменной
\begin{enumerate}
\item Роль переменной в уравнении опирается на прочные теоретические основания
\item высокие значения t-статистики $t_{stat} = \frac{\omega-\overline{\omega}}{\sigma_\omega\sqrt{l}}$
\item исправленный коэффициент детерминации растёт при включении лишней переменной
\item другие коэффициенты испытывают значительное смещение при включении лишней новой переменной
\end{enumerate}

\begin{equation*}
  \begin{gathered}
    y = \omega x + \omega_0 = \tilde{\omega{x}} \to \frac{1}{1-e^{-\omega x}} = \sigma\\
    x = (x_1, ..., x_K 1)
  \end{gathered}
\end{equation*}

регрессия выдаёт вероятности. Алгоритм максимизирует отступ классификатора (расстояние до ближайшего объекта).

\subsection{Линейно разделимый случай}
Мы можем найти такие параметры, при которых классификатор не допускает ни одной ошибки

Отступ классификатора

...

Вычисление ширины разделяющей полосы классификатора

...

Метод опорных векторов

\section{Домашнее задание}
\end{document}