, ASPECTS15). Для уровня 1 (подтвержденный диагноз) необходимы данные медицинской карты, позволяющие поставить диагноз.

Классификация отображает взаимосвязь:

– объемов и качества исходных данных;

– трудозатрат на подготовку;

– методик разметки и работы с первичными данными;

– диагностической ценности.

Стоит отметить, что данная классификация применима в случае поиска патологических находок. Для некоторых НД, например, при задаче сегментации анатомической структуры, подтверждение диагноза неприменимо, соответственно данную классификацию использовать нельзя.

Также разметку данных можно разделить на проспективную и ретроспективную, т.е. по времени их получения.

Проспективная разметка аналогично ретроспективной разметке представляет собой сбор элементов в соответствии с поставленной целью, при этом обязательным условием является проведение дополнительных манипуляций с элементами (например, постановка метки начала и окончания события, меток обнаружения признаков, обозначений патологий и т.п.). Этот вид разметки проводят с участием обученного медицинского персонала (зачастую квалифицированного врача в субспециализации размечаемого набора данных) путем ручного аннотирования содержания данных или их частей.

Ретроспективная разметка данных представляет собой сбор элементов в соответствии с метаданными, которые отбираются по поставленной цели. Такую разметку проводят путем минимальных трудозатрат: выгрузка данных происходит из медицинской информационной системы, которую может провести инженер (аналитик) без участия врача. При этом для каждого элемента (изображение, сигнальные данные и т.д.) набора данных устанавливают соответствие с медицинской информацией (диагноз, результаты лабораторного тестирования и т.п.).

Также разметка характеризуется следующими параметрами:

1. Уровень разметки: пациент, серия, набор изображений, изображение.

Примеры:

– на уровне пациента: у пациентки с диагнозом злокачественного новообразования (ЗНО) молочной железы разметка проводится на основании маммографии и гистологического исследования;

– на уровне серии (у той же пациентки): маммография, прямая и боковая проекции;

– на уровне изображения: прямая проекция правой молочной железы.

2. Тип разметки: бинарная, мультикласс, мультилейбл.

Примеры:

– бинарная разметка: норма/патология;

– мультиклассовая разметка: норма/патология/технический дефект;

– мультилейбл разметка: лейбл «Признаки эмфиземы легкого», лейбл «Процент поражения легкого».

3. Характер разметки: бинарная, категориальная, регрессионная.

Примеры:

– бинарная: наличие признаков патологии/отсутствие признаков патологии;

– категориальная: категория BI-RADS для маммографии;

– регрессионная: процент поражения легкого при COVID-19.


Контрольные вопросы

1. Какие бывают методы верификации данных?

2. Какие бывают виды разметки данных по диагностической ценности?

3. Как классифицируется разметка данных в зависимости от времени получения данных?

4. Перечислите параметры разметки.

5. Какие бывают уровни разметки данных? Приведите примеры.

Глава 2. ЖИЗНЕННЫЙ ЦИКЛ НАБОРОВ МЕДИЦИНСКИХ ДАННЫХ

Жизненный цикл – развитие системы, продукции, услуги, проекта или другой создаваемой изготовителем сущности – от замысла до вывода из эксплуатации.

Жизненный цикл данных – последовательность этапов, которую конкретная порция данных проходит от начального этапа создания или получения до момента архивации или удаления [6].

Жизненный цикл наборов данных состоит из следующих этапов:

– инициирования;

– планирования;

– формирования;

– этап регистрации и публикации;

– использования;

– смены версии;