73 lines
6.2 KiB
TeX
73 lines
6.2 KiB
TeX
\documentclass{article}
|
||
|
||
\input{settings/common-preamble}
|
||
\input{settings/bmstu-preamble}
|
||
\input{settings/fancy-listings-preamble}
|
||
\author{Гребенюк Елена Алексеевна}
|
||
\title{Технологии разработки информационных систем для анализа больших объёмов информации}
|
||
\date{2023-02-08}
|
||
|
||
\begin{document}
|
||
\maketitle
|
||
\tableofcontents
|
||
\newpage
|
||
\section{Введение}
|
||
Основы ТВ и МС (случайные величины, непрерывные и дискретные СВ, матожидание, дисперсия, ковариация, корреляция)
|
||
выборка, статистика, гистограмма, смещение
|
||
несмещённая оценка...
|
||
|
||
основы линейной алгебры. (матрицы, энтропия, ...)
|
||
|
||
Визуализация - анализ ситуации, анализ исходной информации, анализ, интерпретация и представление результатов
|
||
Поиск шаблонов поиск частых наборов - метод ассоциативных правил - market basket analysis
|
||
прогнозирование - определение нового класса или объекта, которого не было в обучающей выборке
|
||
|
||
\textbf{Этапы}
|
||
Пример - Скоринг - определение платёжеспособности.
|
||
\begin{itemize}
|
||
\item формальная постановка задачи (кампания по привлечению кредитов, найти модель)
|
||
\item данные (признаковое описание -- бинарные, числовые, категориальные, порядковые; матрица расстояний между объектами, временные ряды скалярных или векторных наблюдений, итого 16 прпизнаков)
|
||
\item определение ответа (да/нет), но чаще всего нужен не бинарный ответ, а определение степени доверия ответу.
|
||
\item выбор критериев качества решения (метрики оценивания используемого метода решения должны иметь интерпретацию, значимую для решаемой бизнес-задачи)
|
||
\item выбор метода решения
|
||
\item предобработка данных (если клиентов приндалежащих какому-то классу меньше 5\% выборка не сбалансирована)
|
||
\item реализация, оценка качества
|
||
\end{itemize}
|
||
|
||
Работа с несбалансированными выборками
|
||
\begin{enumerate}
|
||
\item выкинуть лишнее или продублировать недостающее
|
||
\item создать недостающие параметры
|
||
\item изменить веса параметров
|
||
\end{enumerate}
|
||
|
||
Метрики
|
||
TP FP FN TN (ошибки первого и второго рода).
|
||
|
||
Accuracy = TN + TP / n - метрика сама по себе неприменима.
|
||
Precision = TP/TP+FP уровень доверия к положительным ответам модели, доля истинных положительных объектов, выделенных классификатором как положительные
|
||
Recall = TP/TP+FN какая часть положительных объектов правильно определена классификатором
|
||
|
||
F - мера (F-score)- гармоническое среднее точности и полноты. F – мера обладает важным свойством - она близка к нулю, если хотя бы один из аргументов близок к нулю: F = 2*precision recall precision+recall 0≤ F ≤ 1
|
||
|
||
Ошибка 1 рода (Туре I Error) случается, когда объект ошибочно относится к положительному классу
|
||
Ошибка 2 рода (Туре II Error) случается, когда объект ошибочно относится к отрицательному классу
|
||
|
||
Confusion Matrix
|
||
TP FP
|
||
FN TN
|
||
Хорошо подходит для многоклассовой классификации.
|
||
|
||
ROC-кривая
|
||
Число строк в квадрате справа равно числу единиц, число столбцов - числу нулей. Стартуем из точки (0, 0)(левый нижний угол. Если значение метки класса в просматриваемой строке 1, то делаем шаг вверх; если 0, то делаем шаг вправо, если у нескольких объектов значения оценок равны, то делаем шаг в точку а блоков выше и блоков правее, где а - число единиц, b - число нулей в рассматриваемой группе объектов. Считаем сколько \% покрыто.
|
||
|
||
Принятие решений на основе кривой.Для того, чтобы решить, какие объекты отнести к классу 1, а какие к классу 0, нужно будет выбрать некоторый порог (объекты с оценками выше порога относим к классу 1, остальные 0). Выбору порога соответствует выбор точки на ROC-кривой. Здесь для порога 0.25 выбрана точка (1/4,2/3), (табл. 3).
|
||
1/4 - это\% точек класса 0, которые неверно классифицированы алгоритмом (FPR = False Positive Rate),
|
||
|
||
2/3 - \% точек класса 1, верно классифицированых алгоритмом (TPR = True Positive Rate).
|
||
|
||
Отбор признаков
|
||
Могут быть зашумлены
|
||
Методы: обёртки, фильтры, внутренние методы.
|
||
|
||
\end{document} |