73 lines
6.2 KiB
TeX
73 lines
6.2 KiB
TeX
|
\documentclass{article}
|
|||
|
|
|||
|
\input{settings/common-preamble}
|
|||
|
\input{settings/bmstu-preamble}
|
|||
|
\input{settings/fancy-listings-preamble}
|
|||
|
\author{Гребенюк Елена Алексеевна}
|
|||
|
\title{Технологии разработки информационных систем для анализа больших объёмов информации}
|
|||
|
\date{2023-02-08}
|
|||
|
|
|||
|
\begin{document}
|
|||
|
\maketitle
|
|||
|
\tableofcontents
|
|||
|
\newpage
|
|||
|
\section{Введение}
|
|||
|
Основы ТВ и МС (случайные величины, непрерывные и дискретные СВ, матожидание, дисперсия, ковариация, корреляция)
|
|||
|
выборка, статистика, гистограмма, смещение
|
|||
|
несмещённая оценка...
|
|||
|
|
|||
|
основы линейной алгебры. (матрицы, энтропия, ...)
|
|||
|
|
|||
|
Визуализация - анализ ситуации, анализ исходной информации, анализ, интерпретация и представление результатов
|
|||
|
Поиск шаблонов поиск частых наборов - метод ассоциативных правил - market basket analysis
|
|||
|
прогнозирование - определение нового класса или объекта, которого не было в обучающей выборке
|
|||
|
|
|||
|
\textbf{Этапы}
|
|||
|
Пример - Скоринг - определение платёжеспособности.
|
|||
|
\begin{itemize}
|
|||
|
\item формальная постановка задачи (кампания по привлечению кредитов, найти модель)
|
|||
|
\item данные (признаковое описание -- бинарные, числовые, категориальные, порядковые; матрица расстояний между объектами, временные ряды скалярных или векторных наблюдений, итого 16 прпизнаков)
|
|||
|
\item определение ответа (да/нет), но чаще всего нужен не бинарный ответ, а определение степени доверия ответу.
|
|||
|
\item выбор критериев качества решения (метрики оценивания используемого метода решения должны иметь интерпретацию, значимую для решаемой бизнес-задачи)
|
|||
|
\item выбор метода решения
|
|||
|
\item предобработка данных (если клиентов приндалежащих какому-то классу меньше 5\% выборка не сбалансирована)
|
|||
|
\item реализация, оценка качества
|
|||
|
\end{itemize}
|
|||
|
|
|||
|
Работа с несбалансированными выборками
|
|||
|
\begin{enumerate}
|
|||
|
\item выкинуть лишнее или продублировать недостающее
|
|||
|
\item создать недостающие параметры
|
|||
|
\item изменить веса параметров
|
|||
|
\end{enumerate}
|
|||
|
|
|||
|
Метрики
|
|||
|
TP FP FN TN (ошибки первого и второго рода).
|
|||
|
|
|||
|
Accuracy = TN + TP / n - метрика сама по себе неприменима.
|
|||
|
Precision = TP/TP+FP уровень доверия к положительным ответам модели, доля истинных положительных объектов, выделенных классификатором как положительные
|
|||
|
Recall = TP/TP+FN какая часть положительных объектов правильно определена классификатором
|
|||
|
|
|||
|
F - мера (F-score)- гармоническое среднее точности и полноты. F – мера обладает важным свойством - она близка к нулю, если хотя бы один из аргументов близок к нулю: F = 2*precision recall precision+recall 0≤ F ≤ 1
|
|||
|
|
|||
|
Ошибка 1 рода (Туре I Error) случается, когда объект ошибочно относится к положительному классу
|
|||
|
Ошибка 2 рода (Туре II Error) случается, когда объект ошибочно относится к отрицательному классу
|
|||
|
|
|||
|
Confusion Matrix
|
|||
|
TP FP
|
|||
|
FN TN
|
|||
|
Хорошо подходит для многоклассовой классификации.
|
|||
|
|
|||
|
ROC-кривая
|
|||
|
Число строк в квадрате справа равно числу единиц, число столбцов - числу нулей. Стартуем из точки (0, 0)(левый нижний угол. Если значение метки класса в просматриваемой строке 1, то делаем шаг вверх; если 0, то делаем шаг вправо, если у нескольких объектов значения оценок равны, то делаем шаг в точку а блоков выше и блоков правее, где а - число единиц, b - число нулей в рассматриваемой группе объектов. Считаем сколько \% покрыто.
|
|||
|
|
|||
|
Принятие решений на основе кривой.Для того, чтобы решить, какие объекты отнести к классу 1, а какие к классу 0, нужно будет выбрать некоторый порог (объекты с оценками выше порога относим к классу 1, остальные 0). Выбору порога соответствует выбор точки на ROC-кривой. Здесь для порога 0.25 выбрана точка (1/4,2/3), (табл. 3).
|
|||
|
1/4 - это\% точек класса 0, которые неверно классифицированы алгоритмом (FPR = False Positive Rate),
|
|||
|
|
|||
|
2/3 - \% точек класса 1, верно классифицированых алгоритмом (TPR = True Positive Rate).
|
|||
|
|
|||
|
Отбор признаков
|
|||
|
Могут быть зашумлены
|
|||
|
Методы: обёртки, фильтры, внутренние методы.
|
|||
|
|
|||
|
\end{document}
|