BMSTU/04-big-data-analysis-inform...

\documentclass{article}

\input{settings/common-preamble}
\input{settings/bmstu-preamble}
\input{settings/fancy-listings-preamble}
\author{Гребенюк Елена Алексеевна}
\title{Технологии разработки информационных систем для анализа больших объёмов информации}
\date{2023-02-08}

\begin{document}
\maketitle
\tableofcontents
\newpage
\section{Введение}
Основы ТВ и МС (случайные величины, непрерывные и дискретные СВ, матожидание, дисперсия, ковариация, корреляция)
выборка, статистика, гистограмма, смещение
несмещённая оценка...

основы линейной алгебры. (матрицы, энтропия, ...)

Визуализация - анализ ситуации, анализ исходной информации, анализ, интерпретация и представление результатов
Поиск шаблонов поиск частых наборов - метод ассоциативных правил - market basket analysis
прогнозирование - определение нового класса или объекта, которого не было в обучающей выборке

\textbf{Этапы}
Пример - Скоринг - определение платёжеспособности.
\begin{itemize}
\item формальная постановка задачи (кампания по привлечению кредитов, найти модель)
\item данные (признаковое описание -- бинарные, числовые, категориальные, порядковые; матрица расстояний между объектами, временные ряды скалярных или векторных наблюдений, итого 16 прпизнаков)
\item определение ответа (да/нет), но чаще всего нужен не бинарный ответ, а определение степени доверия ответу.
\item выбор критериев качества решения (метрики оценивания используемого метода решения должны иметь интерпретацию, значимую для решаемой бизнес-задачи)
\item выбор метода решения
\item предобработка данных (если клиентов приндалежащих какому-то классу меньше 5\% выборка не сбалансирована)
\item реализация, оценка качества
\end{itemize}

Работа с несбалансированными выборками
\begin{enumerate}
\item выкинуть лишнее или продублировать недостающее
\item создать недостающие параметры
\item изменить веса параметров
\end{enumerate}

Метрики
TP FP FN TN (ошибки первого и второго рода).

Accuracy = TN + TP / n - метрика сама по себе неприменима.
Precision = TP/TP+FP уровень доверия к положительным ответам модели, доля истинных положительных объектов, выделенных классификатором как положительные
Recall = TP/TP+FN какая часть положительных объектов правильно определена классификатором

F - мера (F-score)- гармоническое среднее точности и полноты. F – мера обладает важным свойством - она близка к нулю, если хотя бы один из  аргументов близок к нулю: F = 2*precision recall precision+recall 0≤ F ≤ 1

Ошибка 1 рода (Туре I Error) случается, когда объект ошибочно относится к положительному классу
Ошибка 2 рода (Туре II Error) случается, когда объект ошибочно относится к отрицательному классу

Confusion Matrix
TP FP
FN TN
Хорошо подходит для многоклассовой классификации.

ROC-кривая
Число строк в квадрате справа равно числу единиц, число столбцов - числу нулей. Стартуем из точки (0, 0)(левый нижний угол. Если значение метки класса в просматриваемой строке 1, то делаем шаг вверх; если 0, то делаем шаг вправо, если у нескольких объектов значения оценок равны, то делаем шаг в точку а блоков выше и блоков правее, где а - число единиц, b - число нулей в рассматриваемой группе объектов.  Считаем сколько \% покрыто.

Принятие решений на основе кривой.Для того, чтобы решить, какие объекты отнести к классу 1, а какие к классу 0, нужно будет выбрать некоторый порог (объекты с оценками выше порога относим к классу 1, остальные 0). Выбору порога соответствует выбор точки на ROC-кривой. Здесь для порога 0.25 выбрана точка (1/4,2/3), (табл. 3).
 1/4 - это\% точек класса 0, которые неверно классифицированы алгоритмом (FPR = False Positive Rate),

 2/3 - \% точек класса 1, верно классифицированых алгоритмом (TPR = True Positive Rate).

Отбор признаков
Могут быть зашумлены
Методы: обёртки, фильтры, внутренние методы.

\end{document}