```python

from sklearn.cluster import KMeans

# Инициализация модели k-средних

kmeans = KMeans(n_clusters=5, random_state=42)

# Обучение модели на данных

kmeans.fit(data)

# Получение меток кластеров для каждого клиента

labels = kmeans.labels_

```

Теперь у нас есть метки кластеров для каждого клиента. Мы можем визуализировать результаты кластеризации, чтобы лучше понять структуру различных сегментов клиентов:

```python

import matplotlib.pyplot as plt

# Визуализация кластеров

plt.scatter(data['Age'], data['Annual Income (k$)'], c=labels, cmap='viridis')

plt.xlabel('Age')

plt.ylabel('Annual Income (k$)')

plt.title('Clusters of Mall Customers')

plt.show()

```

Этот код создает график, на котором каждый клиент представлен точкой, а цвет точек указывает на принадлежность к кластеру. Таким образом, мы можем визуально оценить результаты кластеризации и выделить различные сегменты клиентов в торговом центре.


Иерархическая кластеризация

Это метод, который строит иерархию кластеров, представляющую собой древовидную структуру, называемую дендрограммой. Принцип работы этого метода заключается в постепенном объединении ближайших кластеров до тех пор, пока все объекты не окажутся в единственном кластере.

На первом шаге каждый объект представляет собой отдельный кластер. Затем на каждом последующем шаге два ближайших кластера объединяются в один. Этот процесс повторяется до тех пор, пока все объекты не соберутся в одном кластере.

Иерархическая кластеризация имеет ряд преимуществ. В отличие от метода k-средних, она не требует знания количества кластеров заранее, что делает ее более удобной в использовании. Кроме того, возможность визуализации дендрограммы позволяет анализировать иерархию кластеров и принимать более обоснованные решения.

Однако у этого метода есть и недостатки. Иерархическая кластеризация может быть неэффективной на больших наборах данных из-за сложности вычислений, особенно при использовании полной матрицы расстояний между объектами. Кроме того, этот метод может быть неустойчивым к выбросам, что может привести к нежелательным результатам.


Пример 1

Давайте рассмотрим пример использования иерархической кластеризации на наборе данных о потреблении энергии в различных странах. Допустим, у нас есть данные о потреблении энергии по разным источникам в нескольких странах. Наша задача – провести кластеризацию этих стран на группы с похожими паттернами потребления энергии.

1. Подготовка данных: Загрузим данные о потреблении энергии в разных странах.

2. Иерархическая кластеризация: Применим метод иерархической кластеризации к данным, чтобы разбить страны на кластеры на основе их паттернов потребления энергии.

3. Визуализация дендрограммы: Построим дендрограмму, чтобы визуально оценить иерархию кластеров и выбрать оптимальное число кластеров для нашего анализа.

4. Анализ результатов: Проанализируем полученные кластеры и сделаем выводы о схожести или различии паттернов потребления энергии в различных странах.

Давайте начнем с загрузки данных и применим метод иерархической кластеризации.

```python

import pandas as pd

import matplotlib.pyplot as plt

import seaborn as sns

from sklearn.preprocessing import StandardScaler

from sklearn.cluster import AgglomerativeClustering

from scipy.cluster.hierarchy import dendrogram, linkage

# Загрузка данных

data = pd.read_csv('energy_consumption.csv')

# Подготовка данных

X = data.drop('Country', axis=1) # Отделяем признаки от меток классов

scaler = StandardScaler()

X_scaled = scaler.fit_transform(X) # Масштабируем данные

# Иерархическая кластеризация

model = AgglomerativeClustering(n_clusters=3) # Задаем количество кластеров