BMSTU/04-big-data-analysis-inform...

73 lines
6.2 KiB
TeX
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

\documentclass{article}
\input{settings/common-preamble}
\input{settings/bmstu-preamble}
\input{settings/fancy-listings-preamble}
\author{Гребенюк Елена Алексеевна}
\title{Технологии разработки информационных систем для анализа больших объёмов информации}
\date{2023-02-08}
\begin{document}
\maketitle
\tableofcontents
\newpage
\section{Введение}
Основы ТВ и МС (случайные величины, непрерывные и дискретные СВ, матожидание, дисперсия, ковариация, корреляция)
выборка, статистика, гистограмма, смещение
несмещённая оценка...
основы линейной алгебры. (матрицы, энтропия, ...)
Визуализация - анализ ситуации, анализ исходной информации, анализ, интерпретация и представление результатов
Поиск шаблонов поиск частых наборов - метод ассоциативных правил - market basket analysis
прогнозирование - определение нового класса или объекта, которого не было в обучающей выборке
\textbf{Этапы}
Пример - Скоринг - определение платёжеспособности.
\begin{itemize}
\item формальная постановка задачи (кампания по привлечению кредитов, найти модель)
\item данные (признаковое описание -- бинарные, числовые, категориальные, порядковые; матрица расстояний между объектами, временные ряды скалярных или векторных наблюдений, итого 16 прпизнаков)
\item определение ответа (да/нет), но чаще всего нужен не бинарный ответ, а определение степени доверия ответу.
\item выбор критериев качества решения (метрики оценивания используемого метода решения должны иметь интерпретацию, значимую для решаемой бизнес-задачи)
\item выбор метода решения
\item предобработка данных (если клиентов приндалежащих какому-то классу меньше 5\% выборка не сбалансирована)
\item реализация, оценка качества
\end{itemize}
Работа с несбалансированными выборками
\begin{enumerate}
\item выкинуть лишнее или продублировать недостающее
\item создать недостающие параметры
\item изменить веса параметров
\end{enumerate}
Метрики
TP FP FN TN (ошибки первого и второго рода).
Accuracy = TN + TP / n - метрика сама по себе неприменима.
Precision = TP/TP+FP уровень доверия к положительным ответам модели, доля истинных положительных объектов, выделенных классификатором как положительные
Recall = TP/TP+FN какая часть положительных объектов правильно определена классификатором
F - мера (F-score)- гармоническое среднее точности и полноты. F мера обладает важным свойством - она близка к нулю, если хотя бы один из аргументов близок к нулю: F = 2*precision recall precision+recall 0≤ F ≤ 1
Ошибка 1 рода (Туре I Error) случается, когда объект ошибочно относится к положительному классу
Ошибка 2 рода (Туре II Error) случается, когда объект ошибочно относится к отрицательному классу
Confusion Matrix
TP FP
FN TN
Хорошо подходит для многоклассовой классификации.
ROC-кривая
Число строк в квадрате справа равно числу единиц, число столбцов - числу нулей. Стартуем из точки (0, 0)(левый нижний угол. Если значение метки класса в просматриваемой строке 1, то делаем шаг вверх; если 0, то делаем шаг вправо, если у нескольких объектов значения оценок равны, то делаем шаг в точку а блоков выше и блоков правее, где а - число единиц, b - число нулей в рассматриваемой группе объектов. Считаем сколько \% покрыто.
Принятие решений на основе кривой.Для того, чтобы решить, какие объекты отнести к классу 1, а какие к классу 0, нужно будет выбрать некоторый порог (объекты с оценками выше порога относим к классу 1, остальные 0). Выбору порога соответствует выбор точки на ROC-кривой. Здесь для порога 0.25 выбрана точка (1/4,2/3), (табл. 3).
1/4 - это\% точек класса 0, которые неверно классифицированы алгоритмом (FPR = False Positive Rate),
2/3 - \% точек класса 1, верно классифицированых алгоритмом (TPR = True Positive Rate).
Отбор признаков
Могут быть зашумлены
Методы: обёртки, фильтры, внутренние методы.
\end{document}