BMSTU/04-big-data-analysis-inform...

73 lines
6.2 KiB
TeX
Raw Normal View History

2023-02-13 13:59:23 +03:00
\documentclass{article}
\input{settings/common-preamble}
\input{settings/bmstu-preamble}
\input{settings/fancy-listings-preamble}
\author{Гребенюк Елена Алексеевна}
\title{Технологии разработки информационных систем для анализа больших объёмов информации}
\date{2023-02-08}
\begin{document}
\maketitle
\tableofcontents
\newpage
\section{Введение}
Основы ТВ и МС (случайные величины, непрерывные и дискретные СВ, матожидание, дисперсия, ковариация, корреляция)
выборка, статистика, гистограмма, смещение
несмещённая оценка...
основы линейной алгебры. (матрицы, энтропия, ...)
Визуализация - анализ ситуации, анализ исходной информации, анализ, интерпретация и представление результатов
Поиск шаблонов поиск частых наборов - метод ассоциативных правил - market basket analysis
прогнозирование - определение нового класса или объекта, которого не было в обучающей выборке
\textbf{Этапы}
Пример - Скоринг - определение платёжеспособности.
\begin{itemize}
\item формальная постановка задачи (кампания по привлечению кредитов, найти модель)
\item данные (признаковое описание -- бинарные, числовые, категориальные, порядковые; матрица расстояний между объектами, временные ряды скалярных или векторных наблюдений, итого 16 прпизнаков)
\item определение ответа (да/нет), но чаще всего нужен не бинарный ответ, а определение степени доверия ответу.
\item выбор критериев качества решения (метрики оценивания используемого метода решения должны иметь интерпретацию, значимую для решаемой бизнес-задачи)
\item выбор метода решения
\item предобработка данных (если клиентов приндалежащих какому-то классу меньше 5\% выборка не сбалансирована)
\item реализация, оценка качества
\end{itemize}
Работа с несбалансированными выборками
\begin{enumerate}
\item выкинуть лишнее или продублировать недостающее
\item создать недостающие параметры
\item изменить веса параметров
\end{enumerate}
Метрики
TP FP FN TN (ошибки первого и второго рода).
Accuracy = TN + TP / n - метрика сама по себе неприменима.
Precision = TP/TP+FP уровень доверия к положительным ответам модели, доля истинных положительных объектов, выделенных классификатором как положительные
Recall = TP/TP+FN какая часть положительных объектов правильно определена классификатором
F - мера (F-score)- гармоническое среднее точности и полноты. F мера обладает важным свойством - она близка к нулю, если хотя бы один из аргументов близок к нулю: F = 2*precision recall precision+recall 0≤ F ≤ 1
Ошибка 1 рода (Туре I Error) случается, когда объект ошибочно относится к положительному классу
Ошибка 2 рода (Туре II Error) случается, когда объект ошибочно относится к отрицательному классу
Confusion Matrix
TP FP
FN TN
Хорошо подходит для многоклассовой классификации.
ROC-кривая
Число строк в квадрате справа равно числу единиц, число столбцов - числу нулей. Стартуем из точки (0, 0)(левый нижний угол. Если значение метки класса в просматриваемой строке 1, то делаем шаг вверх; если 0, то делаем шаг вправо, если у нескольких объектов значения оценок равны, то делаем шаг в точку а блоков выше и блоков правее, где а - число единиц, b - число нулей в рассматриваемой группе объектов. Считаем сколько \% покрыто.
Принятие решений на основе кривой.Для того, чтобы решить, какие объекты отнести к классу 1, а какие к классу 0, нужно будет выбрать некоторый порог (объекты с оценками выше порога относим к классу 1, остальные 0). Выбору порога соответствует выбор точки на ROC-кривой. Здесь для порога 0.25 выбрана точка (1/4,2/3), (табл. 3).
1/4 - это\% точек класса 0, которые неверно классифицированы алгоритмом (FPR = False Positive Rate),
2/3 - \% точек класса 1, верно классифицированых алгоритмом (TPR = True Positive Rate).
Отбор признаков
Могут быть зашумлены
Методы: обёртки, фильтры, внутренние методы.
\end{document}