Набор данных(Data set) – это совокупность данных, прошедших предварительную подготовку (обработку) в соответствии с требованиями законодательства Российской Федерации об информации, информационных технологиях и о защите информации и необходимых для разработки программного обеспечения на основе искусственного интеллекта (Национальная стратегия развития искусственного интеллекта на период до 2030 года).
«Н»
Набор данных DataFrame (DataFrame) – это проиндексированный многомерный массив значений для представления наборов данных в pandas. DataFrame аналогичен таблице. Каждый столбец DataFrame имеет имя (заголовок), а каждая строка идентифицируется номером.
Набор признаков (Feature set) – это группа признаков, на которых обучается модель машинного обучения. Например, почтовый индекс, размер собственности и состояние могут представлять собой простой набор признаков для модели, предсказывающей цены на жилье.
Наивная семантика (Naive semantics) – это подход, используемый в компьютерных науках для представления базовых знаний о конкретной области, и он использовался в таких приложениях, как представление значения предложений на естественном языке в приложениях искусственного интеллекта. В общем случае этот термин использовался для обозначения использования ограниченного хранилища общепонятных знаний о конкретной области в мире и применялся к таким областям, как проектирование схем данных, основанное на данных.
Наивный Байес (Naive Bayes) – это очень популярный и простой в машинном обучении алгоритм. Как следует из названия, этот алгоритм делает предположение, что все переменные в наборе данных «наивные», т.е. не коррелируют друг с другом. [61]
Наивный байесовский классификатор (Naive Bayes classifier) – это простой вероятностный классификатор, основанный на применении теоремы Байеса со строгими (наивными) предположениями о независимости.
Намерение (Intent) – это механизм для описания операции (выбрать фотографию, отправить письмо, сделать звонок, запустить браузер и перейти по указанному адресу), которую необходимо выполнить. Используется в обучающих данных для чат-ботов и других задач обработки естественного языка, в качестве типа метки, которая определяет цель сказанного.
Направленный ациклический граф (Directed acyclic graph, DAG) – это график, которые направлен и связывает остальные рёбра без циклов. Это значит, что невозможно преодолеть весь направленный граф, начав с одного ребра. Рёбра направленного графа идут только одним путём.
Направленный ациклический граф являет собой топологическую сортировку, где каждый нод находится в определённом порядке. Конструкция DAG состоит из вершин, соединяемых рёбрами. Основной алгоритм DAG называется топологическим распределением, это означает, что каждое ребро направлено от более раннего ребра к более позднему.
Наука о данных (Data Science) – это профессиональная деятельность, связанная с эффективным и максимально достоверным поиском закономерностей в данных, извлечение знаний из данных в обобщённой форме, а также их оформление в виде, пригодном для обработки заинтересованными сторонами (людьми, программными системами, управляющими устройствами) в целях принятия обоснованных решений. Также, – это процесс исследования, фильтрация, преобразование и моделирования данных с целью извлечения полезной информации и принятия решений.
Н-грамма (N-gram) – это просто последовательность из n элементов (звуков, слогов, слов или символов), идущих в каком-то тексте подряд. На практике чаще имеют в виду ряд слов (реже символов). Последовательность из двух элементов называют биграмма, из трёх элементов – триграмма [