BMSTU/02-digital-image-processing...

508 lines
53 KiB
TeX
Raw Normal View History

2023-01-27 22:32:16 +03:00
\documentclass[a4paper,fontsize=14bp]{article}
\author{Алфимцев Александр Николаевич}
\title{Цифровая обработка изображений в информационных системах}
\date{2022-02-09}
\input{../common-preamble}
\input{../fancy-listings-preamble}
\input{../bmstu-preamble}
\numerationTop
\usepackage{subfiles}
\begin{document}
\thispagestyle{titlepage}
\maketitle
\newpage
\pagestyle{fancy}
\section{Введение}
Изображения всё больше оцифровываются. Мультимодальность в изображениях заключается в том, что человек много дополняет зрительную информацию (80\%) образами из головы.
ЦОИ много применяется для медицины (последние годы особенно), полиграфии, оптического приборостроения. Мы будем использовать для распознавания образов. Главная математическая модель для ЦОИ - глубокие нейронные сети, глубокие свёрточные нейронные сети (джефри хилтон). ЦОИ это не только про распознавание, но и про фильтрации для получения дополнительной информации. Цои используется для кавтоматизации контроля производства (конвейерные линии)
\begin{itemize}
\item 1980год Неокогнитрон
\item 1990-1995-свёрточные нейросети
\item 2012 DL революция в распознавании CNN
\end{itemize}
Джеффри хинтон
\begin{itemize}
\item ЦОИ = изображение - обработка - изображение
\item Компьютерное зрение = изображение - обработка - число (вектор, свёртка). данные и алгоритмы.
\item Машинное зрение - данные, алгоритмя, аппаратное обеспечение
\end{itemize}
Актуальность ЦОИ:
\begin{enumerate}
\item изображение - главный источник информации
\item средства получения изображений дёшевы и распространены
\item последовательность изображений (видеопоток) - это биг дата
\item ЦОИ математическими методами и моделями - это простая и понятная иллюстрация их работы
\item автоматическая обработка цифровых изображений - самый выразительный пример развития искусственного интеллекта
\item Курс ЦОИ фундаментальная структура современного технологического мировоззрения.
\end{enumerate}
Будем использовать Python, в начале стараемся не использовать OpenCV, хотя им можно закрыть весь курс.
Литература:
\begin{enumerate}
\item Gonzalez R., Woods R. Digital Image Processing (4th Edition). London: Pearson. 2018. 1019 p. ( Гонсалес Н., Вудс Р. Цифровая обработка изображений. Уч. пос. М.: Изд. “Техносфера”, 2012. 1104 с.)
\item Шапиро Л., Стокман Д. Компьютерное зрение; Пер. с англ.-М.: БИНОМ. Лаборатория знаний, 2006. 752 с.
\item Красильников Н. Н. Цифровая обработка 2D- и 3D-изображений : учеб. пособие для вузов / Красильников Н. Н. СПб. : БХВ-Петербург, 2011. 595 с.
\item Duda, Hart. Pattern Classification, 2nd edition. Wiley Interscience. 2001.
\item Пролетарский А.В., Алфимцев А.Н., Лычков И.И. Практикум по цифровой обработке изображений в компьютерных сетях. М.: МГТУ им. Н.Э. Баумана. 2016. 71 с.
\item Laganière R. OpenCV 3 Computer Vision Application Programming Cookbook. 2017.
\item Тарантино К. Цифровая фотография. Компьютерная обработка изображений. М.: Омега, 2005.- 142 с.
\end{enumerate}
\textbf{Вопросы, решаемые курсом}
\begin{enumerate}
\item понятие цои
\item история цои
\item области применения цои
\item основные этапы цои
\item введение в теорию вероятности
\end{enumerate}
\subsection{Понятие}
изображение - это двумерная функция f(x,y) где x и y это координаты в пространстве (на плоскости). Если величины x, y, f принимают дискретные значения, то изображение является цифровым (I[x,y]).
\textbf{Цифровой обработкой изображений} называется обработка цифровых изображений с помощью цифровых вычислительных машин. Первое цифровое изображение содержало боксёра, цифровое изображение, полученное с использованием перфоленты это портреь Фрейда. Первые цифровые обработки связаны с фотографиями луны в 1958 и 1964 годах, соответственно.
Области применения цои - слишком много, поэтому берём базовую идею. в бытовом смысле цои - это работа с видимым спектром. В промышленности (прикладная область цои) использует гораздо больший спектр электромагнитного излучения.
\begin{itemize}
\item гамма излучение - это медицинская радиология и космическая цои (остатки сверхновой, опухоли, боеголовка ядерной ракеты, рентгены, в том числе печатных плат).
\item Ультрафиолет (снимки зёрен, звёзд).
\item Инфракрасный диапазон (дистанционное зондирование, астрономия, световая микроскопия, промышленность, правоохранительная деятельность).
\item Терагерцевое излучение - между инфракрасным и СВЧ диапазоном. Используется в безопасности, например, просвечивает одежду
\item Микроволны. Радиолокация объектов
\item Радиоволны (медицина, астрономия), отслеживание спектров излучений.
\item Цифровые изображения могут быть получены сейсмически, ультразвуком, электронным микроскопом, фрактальные.
\end{itemize}
База знаний курса, этапы ЦОИ
\begin{enumerate}
\item регистрация изображений;
\item улучшение изображения (improvement) - обработка с целью повысить качество для человека.
\item восстановление изображений (enhancement) - мат. Процедура которая основывается на модели шума.
\item обработка цветных изображений;
\item морфологическая обработка;
\item сегментация изображения;
\item описание изображения;
\item распознавание образов
\end{enumerate}
\subsection{Введение в теорию вероятности}
Случайная величина (random variable) — это переменная, значения которой представляют собой исходы какого-нибудь случайного события (численное выражение результата случайного события). Вероятность (probability) — степень (относительная мера, количественная оценка) возможности наступления некоторого события.
\section{Аудио у Вики}
\section{Пространственные методы улучшения изображений}
пространственные методы - слева-направо-сверху-вниз
частотные методы - через преобразование фурье превращается в набор коэффициентов. происходит переход и туда и обратно.
основные градационные преобразования - работа над чб. $g(x,y) = T[f(x,y)]$. логарифмические формы и обратные лог формы функции это преобразование яркости, либо затемнение (обратный) либо осветление (прямой). Фильтрация происходит в рамках границ.
\begin{itemize}
\item Преобразование в негатив $s = L - 1 - r$.
\item логарифмическое преобразование $s = c\log(1+r)$
\item степенные преобразования $s = cr^\gamma$. гамма-преобразование. положительная гамма затемняет, дробная осветляет.
\item кусочно-линейные функции преобразования - вырезание диапазона яркостей, усиление контраста. широкие возможности, но есть проблема производительности. вырезание битовых плоскостей
\end{itemize}
видоизменение гистограммы - отличная визуализация для человека. Гистограмма - это дискретная функция $h(r_k)$. по оси абсцисс если яркость 0-255 где 0 чёрное, то по ординатам будет кол-во пикселей, имеющих такую яркость. гистограммы используют только те пиксели, которые есть в изображении, ничего не домысливая. приёмы:
\begin{enumerate}
\item Эквализация Г - похожа на нормализацию. формулы пытаются проверить, является ли функция яркости однозначной и монотонной.
\item приведени гистограммы. не просто автоматически, а экспертно подбираем функцию. нужно чтобы специально обработать изображение.
\item локальное улучшение - любое из предыдущих улучшений, применённое локально. обычно это квадрат или прямоугольник. используется когда глобальная обработка сильно зашумит итоговое изображени
\item улучшение основанное на локальных статистиках. происходит сравнение локлаьного значения яркости с глобальным значением яркости, то есть если относительно ярче - делаем более ярким (улучшаем) по сигмаидальной функции отклонения
\end{enumerate}
арифметико-логические операции улучшения изображений - редкое применение в ЦОИ. поэлементно применяем к изображению. называется функционально-полный базис. операции используются для маскИрования изображения. с точки зрения задач улучшения делается для изолирования области. часто используются в морфологических операциях.
\begin{itemize}
\item Вычитание изображений - простейший алгоритм для обнаружения движения.
\item Усреднение изображения - сложение. используется для улучшения путём избавления от шума (выдержка).
\end{itemize}
пространственная фильтрация - математическая работа с фильтрами. обычно маски выбираются нечётных размерностей. маски называются свёртками. накрываем область маской. в результате получаем число. что делают с краями? заполняют нулями или дублируют крайние пиксели. Операция свёртки отличается от операции корелляции.
Известные пространственные фильтры
\begin{itemize}
\item простейший линейный сглаживающий усредняющий фильтр (нч-фильтр) получает взвешенное среднее по окрестности. полезны для расфокусировки. можно выполнить обратное преобразование
\item медианный фильтр - нелинейное преобразование.
\item адаптивный медианный фильтр
\item пространственный фильтр повышения резкости. используется для увеличения резкости мелких деталей. основывается на пространственном диференцировании. дифференцирование позволяет усилить разрывы в изображения (не затрагивает области медленного изменения яркости).
\item улучшение изображений с использованием лапласиан - фильтр повышения резкости второй производной.
\item нерезкое маскирование и фильтрация с подъёмом частот.
\item градиент (первая производная). обобщение по модулю. на основании градиента получается оператор Собеля.
\end{itemize}
методы часто комбинируют, поскольку один метод чаще всего не решает задачу. общей теории нет, поэтому комбинации и порядок каждый раз разные.
\newpage
\section{Частотные методы улучшения изображений}
преобразование фурье и частотная область. любая периодическая функция может быть представлена как сумма синусов и косинусов, которая называется рядом фурье.
Одномерное преобразование фурье это парные функции. можно применять к функциям двух переменных (ф-лы 3,4). дороговато работать с экспонентой, поэтому использовали ф-лу эйлера (7), что позволило получить привычный вид преобразований.
дискретное прямое и обратное преобразование фурье (слайд13)
фильтры и их свойства
\begin{enumerate}
\item фильтр-пробка 04-17. оптически вырезает начало координат. происходит падение общей яркости.
\item фильтр нч и вч. по названию понимаем, какие частоты пропускаются. это центрально-симметричные фильтры. чтобы не терять яркость добавляют дополнительные коэффициенты в фильтры вч.
\item гауссов фильтр. прямое и обратное ПФ это гауссовы функции.
\item сглаживающие частотные фильтры. ослабляем высокочастотные значения и получаем размытие. Идеальный ФНЧ по сути как фильтр-пробка, очень жёсткий.
\item ФНЧ Баттерворта (нечто среднее между идеальным и гауссовым)
\item гауссовы ФНЧ - гарантируют, что никакие артефакты после фильтрации не появятся
\item фильтры повышения резкости ослабляем низкочастотные колебания. идеальные ФВЧ с очень резким порогом
\item Баттерворт
\item Гаусс
\end{enumerate}
Лапласиан в частотной области
получаем некоторое серое изображение, при наложении на исходное значительно повышаем резкость.
\section{Обработка цветных цифровых изображений}
\subsection{Цветовые модели}
Исследование показало, что в цветовом пространстве HSI цвета кожи лежат в одном пространстве, что позволяет осуществлять обработку изображений с камер для управления жестами. В целом существует 6,2 млрд устройств, способных формировать изображения. Цветные изображения в видимом электромагнитном излучении это капля в море. (05-07)
Цвет это субъективная характеристика. Глаз видит в RGB. Цвет фактически проходит через весь мозг до затылочной зоны. При интерпретации цветов для устройств (печать, например, используется CMYK). Для более-менее объективного представления цветов и определения возможностей цветопередачи, например, устройств, используют диаграммы цветности.
\begin{figure}[H]
\centering
\includegraphics[width=8cm]{05-col-diag.png}
\caption{Диаграмма цветностей}
\label{pic:col-diag}
\end{figure}
Человеческий фактор в восприятии цвета обычно выражается в сопоставлении цветов явлениям. как, например, объяснить слепому, что такое красный или зелёный. То есть мозг интерпретирует цвета и дополняет эту интерпретацию образами или ощущуениями. Цвета часто дополняют друг друга или чёрно-белые изображения (эксперименты когда смотрим на точку в негативе, меняем на ЧБ изображение и видим цвет).
Самое простое и частое представление цвета - это RGB. это обычный куб где в обном углу чисто белый в противоположеном чисто чёрный и по оси идут отенки серого. в дополнение к цвету дополняют дальномером для вычитания фона - это rgb-d.
Обратное цветовое пространство - это cmyk. где cmy = 1 - RGB.
HSI сразу даёт оценку основному цвету. в РГБ яркость размазана по компонентам, а здесь интенсивность выделена в отдельный компонент. большинство проблем компьютерного зрения решается. Недостаток - это очень дорогой переход из пространства RGB.
YUV - пространство имеющее свои корни в телевидении. UV это цветность красного и синего. Y - это полутоновые значения. есть некоторая матрица перевода в RGB.
\subsection{Обработка изображений в псевдоцветах}
Полутона это на самом деле трёхмерный объект. Чтобы превратить такое изображение в цвет осуществляют квантование по яркости. Самое распространённое это применение например при метеосводках или а аэропортах для контроля багажа - красим изображение в некоторые цвета. всегда очень много эвристики, надо понимать какие компоненты цвета квантовать.
Часто псевдоцвета используются в космической отрасли или ДЗЗ. Либо преобразуем всё целиком, либо какую-то одну компоненту.
Основы преобразований: \textbf{c} есть некоторый вектор в цветовом пространстве \textbf{RGB}
\begin{equation*}
\begin{gathered}
c = \Big[\substack{c_R\\c_G\\c_B} \Big] = \Big[\substack{R\\G\\B}\Big]\\
c(x,y) = \bigg[\substack{c_R(x,y)\\c_G(x,y)\\c_B(x,y)} \bigg] = \bigg[\substack{R(x,y)\\G(x,y)\\B(x,y)}\bigg]
\end{gathered}
\end{equation*}
\subsection{Цветовые преобразования}
Преобразование цветных изображений задается выражением:
\[ g(x,y) = T[f(x,y)] \]
Рассмотрим преобразование вида
\begin{equation*}
\begin{gathered}
s_i = T_i(r_1,r_2,...,r_n), i=1,2,...,n\\
g(x,y)=kf(x,y)\\
s_3=kr_3\\
s_i=kr_i, i=1,2,3\\
s_i=kr_i+(1-k), i=1,2,3
\end{gathered}
\end{equation*}
в 3 к это коэффициент яркости. все простые цифровые преобразования работают и для цветовых преобразований.
\begin{enumerate}
\item Цветовое дополнение. в полутонах использовали для поднятия яркости. для уветного изображения используется для преобразования в негатив.
\item Использование цветовых сочетаний - комплементарное (противоположные по HSI), аналогия (соседние), троичное (треугольник по HSI), сплит-комплементарное (контрастная триада), тетраидное сочетание (прямоугольник в HSI). Используются, например, в кино, для создания эффектов мякгости, уюта, экшна, привлечения внимания, дискотеки.
\item вырезание цветового диапазона
\item яркостная и цветовая коррекция (модель увета представлена сферой). смысл в том что надо сначала исправить яркость, чтобы работать с цветом. Некоторые цвета заложены в аналогиях в мозге. Мы глазами сразу видим расхождения в цвете, это обусловлено эволюционно.
\item Обработка гистограмм (нормализация и эквализация). можем потерять детали
\end{enumerate}
\subsection{Сглаживание и повышение резкости}
\begin{itemize}
\item фильтр усреднения (сглаживание, интеграл).
\item повышение резкости с помощью лапласиана
\end{itemize}
\subsection{Цветовая сегментация}
выбираем компоненту которая ближе к искомому объекту, бинаризируем, сглаживаем и выделяем не просто порогом, а трёхмерное пороговое преобразование, которое более точное.
Обнаружение контуров на цветных изображениях производится также выделением шума, в HSI не очень удобно, компоненты выдяелять сложнее.
Усиление цвета - частая задача для подводных работ, поскольку цвет на глубине визуально меняется. Короризацию осуществляют нейросетями и свёртками.
\section{Морфологическая обработка изображений}
Также называют математической обработкой изображений. Теория множеств позволяет получить базовый математический аппарат, выполняющий обработки.
\subsection{Основы морфологической обработки}
\begin{itemize}
\item Центральное отражение $\hat{B} = \{ w| w=-b, b\in B \}$;
\item сдвиг $(A)_z = \{ c|c=a+z,a\in A \}$;
\item логические операция (функционально-полный базис) (06-06-13)
\item дилатация $A\oplus B = \{ z|(\hat{B}_z \cap A \neq \oslash)\}$ или $A\oplus B = \{ z|[(\hat{B}_z) \cap A] \subseteq A \}$;
\item эрозия $A\ominus B = \{z| (\hat{B}_z\subseteq) A\}$ (06-15);
\item размыкание в общем случае подсвечивает разрывы, расширяет (06-18)
\item замыкание в общем случае заливает узкие места изображения.
\item hit or miss transform (06-28)
\end{itemize}
Операции размыкания и замыкания являются двойственными (06-22). Многократное применение операций не имеет действия. Эффект будет только один раз.
\subsection{Морфологические алгоритмы}
Это некий набор устоявшихся эвристик (комбинаций основных морфологических основ).
\begin{enumerate}
\setcounter{enumi}{-1}
\item (29) Определение отверстий, углов и связных признаков: при правильном выборе свёртки и операции успех/неудача у изображения будут «подсвечены» соответствующие части, например, отверстия, углы или границы;
\item (30) Выделение границ $\beta (A) = A - (A \ominus B)$.
\item (31) Алгоритм заполнения областей $X_k = (X_{k-1} \oplus B) \cap A^c$. Рекуррентная процедура, находим границу и границы заливки, и объединяем.
\item (32) Выделение связных компонент $X_k = (X_{k-1} \oplus B) \cap A$. Также рекуррентная процедура. Связанные компоненты это если между ними есть цепочка пикселей.
\item (33) Выпуклая оболочка. полезна для построения описания объектов. Используем 4 примитива, в отличие от остальных. Сама оболочка это объединение четырёх обработок.
\item (34) Уточнение. основано на успех/неудаче.
\item (35) Утолщение. двойственная операция от утончения. также можно записать серией примитивов
\item (36) Построение остова. сильно похож на утончение, применяется для сегментации сложных объектов
\item (42) Усечение. позволяет практически «вырастить» исходное изображение из минимального набора данных. область применения - распознавания рукописных знаков. есть допущение, что длина паразитных пикселей не должна быть больше полезной. так можно подавить паразитную ветку. у этого преобразования строго набранные примитивы и применяются в строгом порядке для получения концевых точек.
\item (43-48) Морфологическая реконструкция. сходная по работе с усечением. но кроме примитива используется более сложное изображение.
\end{enumerate}
\subsection{Применение морфологии к полутоновым изображениям}
\begin{enumerate}
\item дилатация (52)
\item эрозия (53)
\item (54) размыкание и замыкание применяются для устранения шумов.
\end{enumerate}
\subsection{Полутоновые морфологические алгоритмы}
\begin{enumerate}
\item морфологическое сглаживание избавление от шумов
\item морфологический градиент ищет границы исходного изображения
\item top-hat bottom-hat находит верхний и нижний уровень, коррекция затемнения
\item гранулометрия
\item текстурная сегментация
\item полутоновая морфологическая реконструкция
\end{enumerate}
Для сложных комбинаций используются нейронные сети и глубокое обучение.
\section{Сегментация цифрового изображения}
\subsection{Обнаружение областей}
Сегментация изображения это процесс разбиения изображения на множество покрывающих его областей.
Две основные цели сегментации:
\begin{enumerate}
\item Декомпозиция изображения на части, более удобные для дальнейшей обработки.
\item Изменение формы описания изображения. (для уменьшения объёма хранения, например).
\end{enumerate}
Ключевой вопрос, можно ли выполнять сегментацию снизу вверх без уч§та особенностей информации. Сегментация также называется бинаризация и возможна при помощи нечёткой логики. Желательные свойства сегментированных областей:
\begin{enumerate}
\item Области должны быть целостными и однородными по какому-либо признаку. (например по текстуре)
\item Внутренние части областей должны иметь простую форму и не содержать большое количество мелких отверстий. (хотя мелкие области могут формировать текстуру)
\item Смежные области должны существенно отличаться по значению сегментирующего признака. (по которыми они должны быть неоднородными)
\item Границы области должны иметь гладкую форму. (без зазубрин и разрывов)
\end{enumerate}
Рассмотрим следующие алгоритмы сегментации, позволяющие обнаруживать области на цифровом изображении:
\begin{enumerate}
\item Итерационная кластеризация по математическому ожиданию.
Кластеризация это процесс разбиения множества векторов признаков на подмножества, называемые кластерами.
(07-08)
Будем рассматривать K кластеров $C_1, C_2, ..., C_K$ с математическими ожиданиями $m_z, m_2, ..., m_K$. Квадратичная ошибка определяется выражением
\[D = \sum_{k=1}^K \sum_{x_i \in C_k} || x_i - m_k ||^2\]
измеряем точки между собой и определяем центры, каждую точку сравниваем с центром полученного кластера и определяем, какая точка принадлежит какому кластеру. Алгоритм точно завершится, но нельзя заранее понять сколько кластеров (нужно задавать руками)
Формирование K кластеров на множестве n-мерных векторов.
\begin{enumerate}
\item присвоить счётчику итераций $ic$ значение 1
\item случайным образом выбрать K значений математических ожиданий $m_1(1), m_2(1), ..., m_K(1)$
\item для каждого вектора $x_i$ вычислить расстояние $D(x_i, m_k(ic))$ для каждого $k = 1, ..., K$ и поместить $x_i$ в кластер $C_j$ с ближайшим вектором математического ожидания
\item увеличить $ic$ на 1 и скорректировать значения математических ожиданий для получения нового множества $m_1(ic), m_2(ic), ..., m_K(ic)$
\item повторять шаги 3 и 4 до тех пор, пока при всех $k$ не будет выполняться равенство $C_k(ic) = C_k(ic + 1)$.
\end{enumerate}
\item Алгоритм кластеризации ISODATA.
\[x_i = [v_1, v_2, ..., v_n] \]
\[m_k = [m_{1k}, m_{2k}, ..., m_{nk}] \]
\begin{equation*}
\sum_k = \begin{bmatrix}
\sigma_{11} & \sigma_{21} & ... & \sigma_{1n} \\[0.3em]
\sigma_{12} & \sigma_{22} & ... & \sigma_{2n} \\[0.3em]
... & ... & ... & ... \\[0.3em]
\sigma_{1n} & \sigma_{2n} & ... & \sigma_{nn}
\end{bmatrix}
\end{equation*}
(07-12)
развитие евклидовых способов обработки изображений.
\item Алгоритм поиска моды гистограммы.
Относится к простым гистограммным методам. итерационные идут по исходным данным много раз, а эти один раз, то есть работает значительно быстрее. предназначен для сегментации в пространстве измерений. например, для выбора моды (мода в отличие от средних значений выбирается, а не вычисляется).
процедура бинаризации - это всегда преобразование в ч/б.
\item Рекурсивный гистограммный метод Оландера.
усовершенствование гистограммного метода. сначала ищется мода на полном изображении, а затем на каждом кластере, пока возможно сегментировать.
(07-16)
связанные компоненты маркируются, и снова вызывается метод. гистограммы не всегда работают на RGB.
\item Графовое разбиение Ши.
в отличие от предыдущих, работающих на простых изображениях. цель сегментации в нахождении такого количества вершин, чтобы были непересекающиеся множества, максимально отличающихся друг от друга.
(07-17,18)
\item Алгоритм наращивая областей Харалика
ищутся области из связанных пикселей с общим выборочным средним и дисперсией. Если выбрать пиксели с определённой интенсивностью, то область является областью с некоторой степенью свободы, куда может быть добавлена новая область с новым средним и новой дисперсией.
\end{enumerate}
\subsection{Обнаружение контуров}
Рассмотрим следующие алгоритмы сегментации, позволяющие обнаруживать контуры на цифровом изображении:
\begin{enumerate}
\item Выделение границ областей на маркированном изображении. (24)
\item Детектор краев Кэнни. наиболее часто применяемый алгоритм. сначала сглаживаем изображение с сигмой, потом считаем направление градиента для максимального подавления.
\item Группировка согласующихся контуров в кривые. (27)
\item Преобразование Хафа. (31)
ищут обычно дуги окружностей, нелинейные отрезки. параметры выбираются вручную.
\end{enumerate}
\subsection{Обнаружение моделей сегментов}
Рассмотрим подходы, позволяющие обнаруживать модели сегментов на цифровом изображении, в частности подбор прямой.
\begin{itemize}
\item подбор прямой (37) используется критерий наименьших квадратовПроблемы аппроксимации:
1. Выбросы.
2. Определения отклонения.
3. Нелинейная оптимизация.
4. Большая размерность.
5. Ограничения аппроксимации.
лентой называется продолговатой области, форма которой приблизительно симметрична относительно главной оси. часто, но не всегда края ленты характеризуются симметричным контрастом и фоном.
\item обнаружение углов (43) поиск характерных признаков и построение вектора движения, то есть работа уже в 4х мерном прстранстве
\end{itemize}
главная архитектура - это кодер/декодер. главная модель - U-net. изображения сегментируют в базы данных, которые классифицируют.
\subsection{Обнаружение высокоуровневых структур}
\subsection{Обнаружение согласованного движения}
\subsection{Нейронные сети}
\section{Описание цифрового изображения}
возможно представить область через внешние или через внутренние характеристики. Внешнее обычно выбирается если интересна форма, внутренняя если текстура или цвет.
1) Коды, линии, границы, области.
2) Дескрипторы границ.
3) Дескрипторы областей.
Цепной код. с их помощью граница показывается в виде точек и соединений в одном направлении. важен момент аппроксимации, чтобы потом возможно было восстановить изображение обратно. иногда кодируют не абсолютными значениями, а разницей прошлой точки и следующей.
Аппроксимация ломанной линией. цель - представить объект как можно меньшим числом линий. используются методы слияния, разбиения на различные отрезки (до выполнения критерия).
сегменты границы. при декомпозиции упрощается описание за сч§т уменьшения сложности. обычно применяется если есть несколько ярко выраженных вогнутостей. на практике границы областей неровные, поэтому их можно сегментировать и отбросить неважное методами морфологического анализа.
один из простейших дескрипторов - длина (возможно, с порогом отклонением). также можно использовать диаметр (две экстремальные точки, определяющие диаметр). эксцентриситет - величина границы (кривизна, которая определяется как скорость изменения угла наклона).
Фурье дескрипторы обходят границу и представляют ея в виде последовательности координат (комплексных чисел). применив дискретное преобразование - получим фигуру с заданной точностью.
статистические характеристики это средние, дисперсии, и так далее. характеризовать можно не только яркость, но и цвет, и так далее. здесь рассматриваются амплитуды и строятся гистограммы, чтобы наложить изображение на координатную ось, которое можно нормализовать и преобразовать. с точки зрения реализации явно указывается простота.
дескрипторы областей
\begin{itemize}
\item площадь (число пикселей внутри)
\item периметр (кол-во пикселей на периметре)
\item компактность (наличие неровностей)
\item среднее значение яркостей пикселей
\item медиана яркостей пикселей
\end{itemize}
Топологические дескрипторы
если нет разрывов и склеек - это область изучения топологии.
Текстурные дескрипторы
Отсутствует формальное определение, но интуитивно понятно, что есть гладкость, шероховатость, периодичность. Для определения текстуры есть статистический, структурный и спектральный подходы.
моменты двухмерных функций. с исходным изображением совершили несколько манипуляций и получили несколько инвариантов
\section{Распознавание образов}
Самый популярный способ - машины опорных векторов. в них возможно использовать не только одномерные но и двухмерные (линейные базисные функции). но этот подход неустойчив к шуму. У деревьев решений также есть ряд недостатков: недостаточность данных, многозначные атрибуты.
Есть также кластерный анализ (как в сегментации).
SIFT.
\appendix
\setcounter{secnumdepth}{0}
\section*{Приложения}
\addcontentsline{toc}{section}{Приложения}
\renewcommand{\thesubsection}{\Alph{subsection}}
\subsection{Семинар 1 (2022-02-16)}
Книга: Dictionary of computer vision and image processing
Вопросы нам:
\begin{itemize}
\item \textbf{color quantization}: The quantization (i.e., discretization) of the image sig- nal into a number of bins each rep- resenting a specific level of intensity (i.e., pixel values). Occurs at image capture, at the CCD or CMOS sensor level, within the camera. For RGB color image capture this is facilitated using the Bayer pattern on the sensor itself.
Also performed as a secondary process, re-quantization for color reduction or color re-mapping: Coarser quantization allows image compression with fewer bits. [SB11:2.3.2]
\item color re-mapping: An image transfor- mation where each original color is replaced by another color from a col- ormap. If the image has indexed col- ors, this can be a very fast opera- tion and can provide special graphical effects for very low processing over- head: [WAF+98]
\item Ferets diameter: The distance between two parallel lines at the extremities of some shape that are tangential to the boundary of the shape. Maximum, minimum and mean values of Ferets diameter are often used (where every possible pair of parallel tangent lines is considered): [WP:Feret\_diameter]
\end{itemize}
Наши возможные вопросы:
\begin{multicols}{2}
\includegraphics[width=7cm]{sem-02-illum.png}
\columnbreak
coaxial illumination: Front lighting with the illumination path running along the imaging optical axis. An advantage of this technique is that there are no visible shadows or direct specularities from the cameras viewpoint.
\end{multicols}
\subsection{Семинар 2 (2022-03-16)}
При МО мы имеем изображения как на входе так и на выходе, то есть в отличие от частотной нет промежуточного результата.
МО использует математику множеств.
множеству можно принадлежать или не принадлежать, множества можно объединять, у множеств бывают пересечения. Множества можно вычитать. Математическое множество можно перевернуть (отражать) и осуществить параллельный перенос.
В морфологии изображений есть два базовых понятия
\begin{itemize}
\item Дилатация - это все такие точки З, что перенос отражённого Б в эту точку принадлежит множеству А. Все переносы считаются относительно центра примитива Б.маленький квадрат Б двигаем внутри большого квадрата А и там точно есть хотя бы одна общая точка. Дилатация Б приводит к расширению А.
\item Эрозия - наоборот А как-то схлопывается. $A\ominus B = \{z | (B_z) \subseteq A\}$. Так мы можем убирать какие-то помехи и шумы.
\end{itemize}
Из этих базовых операций складываются операции замыкания и размыкания. смыкание для сглаживания контуров. Размыкание - это сначала эрозия, потом дилатация А по Б. Замыкание - обратная операция - сначала дилатация А по Б, затем эрозию А по Б.
Если берём А треугольник, а Б круг - при размыкании получим такой же треугольник, но с закруглёнными углами.
У размыкания есть свойства. А размыкание Б всегда лежит в А.
\begin{enumerate}
\item $A\odot B \subseteq A$
\item $C \in D, C \odot B \subseteq B \in D \odot B$
\item $(A\odot B) \odot B = A\odot B$
\end{enumerate}
\subsection{Семинар 3 (2022-04-13)}
Вариант 9
1. Поменять местами второй и пятый столбцы матрицы. Нумерация идет слева направо.
2. Поменять местами первую и вторую строку. Нумерация идет сверху вниз.
3. Выполнить траспонирование матрицы
4. Горизонтальный переворот матрицы. Первый столбец становится пятым и т.д.
5. Увеличение яркости. К каждому значению RGB прибавить 20.
6. Уменьшение яркости. Из каждого значения RGB вычесть 30.
7. Выполнить обработку матрицы согласно эффекту сепия.
8. Выполнить обработку матрицы согласно эффекту оттенки серого.
9. Сделать изображение черно-белым.
\subsection{Семинар 4 (2022-04-27)}
ForeSight
\subsection{Семинар 5 (2022-05-11)}
Вариант 9
Разделы автореферата
- степень разработанности проблемы;
написано будто задачи поставлены и решены, но явного указания (раздела) нет
- материал и методы исследования (предмет и объект исследования, методологическая и теоретическая база исследования);
методы и инструменты описаны, но раздела с материалом нет
?+ теоретическая и практическая значимость работы;
описана только практическая
- выводы;
(описаны основные результаты работы, но не указаны места сообщений и не сделаны выводы)
- практические рекомендации;
раздел практических рекомендаций также отсутствует
Подробнее:
Актуальность: не указана научная (но значительно раскрыта практическая)
Цели+
Задачи+
Предмет-
Объект-
Положения на защиту+ но не указан личный вклад (изложение не структурировано, просто перечислены пункты)
Научная новизна+ но не соответствует структуре (нет новых проблем, не устанавливаются связи)
Практическая значимость формально+ но никакой аналитики нет (экономика, масштабы, итд)
Обоснование соответствия диссертации паспорту специальности указано, но не указаны в примерах
\end{document}