\documentclass{article} \input{settings/common-preamble} \input{settings/bmstu-preamble} \input{settings/fancy-listings-preamble} \author{Гребенюк Елена Алексеевна} \title{Технологии разработки информационных систем для анализа больших объёмов информации} \date{2023-02-08} \begin{document} \maketitle \tableofcontents \newpage \section{Введение} Основы ТВ и МС (случайные величины, непрерывные и дискретные СВ, матожидание, дисперсия, ковариация, корреляция) выборка, статистика, гистограмма, смещение несмещённая оценка... основы линейной алгебры. (матрицы, энтропия, ...) Визуализация - анализ ситуации, анализ исходной информации, анализ, интерпретация и представление результатов Поиск шаблонов поиск частых наборов - метод ассоциативных правил - market basket analysis прогнозирование - определение нового класса или объекта, которого не было в обучающей выборке \textbf{Этапы} Пример - Скоринг - определение платёжеспособности. \begin{itemize} \item формальная постановка задачи (кампания по привлечению кредитов, найти модель) \item данные (признаковое описание -- бинарные, числовые, категориальные, порядковые; матрица расстояний между объектами, временные ряды скалярных или векторных наблюдений, итого 16 прпизнаков) \item определение ответа (да/нет), но чаще всего нужен не бинарный ответ, а определение степени доверия ответу. \item выбор критериев качества решения (метрики оценивания используемого метода решения должны иметь интерпретацию, значимую для решаемой бизнес-задачи) \item выбор метода решения \item предобработка данных (если клиентов приндалежащих какому-то классу меньше 5\% выборка не сбалансирована) \item реализация, оценка качества \end{itemize} Работа с несбалансированными выборками \begin{enumerate} \item выкинуть лишнее или продублировать недостающее \item создать недостающие параметры \item изменить веса параметров \end{enumerate} Метрики TP FP FN TN (ошибки первого и второго рода). Accuracy = TN + TP / n - метрика сама по себе неприменима. Precision = TP/TP+FP уровень доверия к положительным ответам модели, доля истинных положительных объектов, выделенных классификатором как положительные Recall = TP/TP+FN какая часть положительных объектов правильно определена классификатором F - мера (F-score)- гармоническое среднее точности и полноты. F – мера обладает важным свойством - она близка к нулю, если хотя бы один из аргументов близок к нулю: F = 2*precision recall precision+recall 0≤ F ≤ 1 Ошибка 1 рода (Туре I Error) случается, когда объект ошибочно относится к положительному классу Ошибка 2 рода (Туре II Error) случается, когда объект ошибочно относится к отрицательному классу Confusion Matrix TP FP FN TN Хорошо подходит для многоклассовой классификации. ROC-кривая Число строк в квадрате справа равно числу единиц, число столбцов - числу нулей. Стартуем из точки (0, 0)(левый нижний угол. Если значение метки класса в просматриваемой строке 1, то делаем шаг вверх; если 0, то делаем шаг вправо, если у нескольких объектов значения оценок равны, то делаем шаг в точку а блоков выше и блоков правее, где а - число единиц, b - число нулей в рассматриваемой группе объектов. Считаем сколько \% покрыто. Принятие решений на основе кривой.Для того, чтобы решить, какие объекты отнести к классу 1, а какие к классу 0, нужно будет выбрать некоторый порог (объекты с оценками выше порога относим к классу 1, остальные 0). Выбору порога соответствует выбор точки на ROC-кривой. Здесь для порога 0.25 выбрана точка (1/4,2/3), (табл. 3). 1/4 - это\% точек класса 0, которые неверно классифицированы алгоритмом (FPR = False Positive Rate), 2/3 - \% точек класса 1, верно классифицированых алгоритмом (TPR = True Positive Rate). Отбор признаков Могут быть зашумлены Методы: обёртки, фильтры, внутренние методы. \end{document}