Как построить корреляционный анализ датафрейма пандас?

Для построения корреляционного анализа данных в pandas можно использовать метод corr() для датафрейма. Этот метод вычисляет корреляции Пирсона (по умолчанию) между парами столбцов данных. Коэффициент корреляции Пирсона измеряет линейную зависимость между двумя переменными, принимает значения от -1 до 1: значение близкое к 1 указывает на высокую положительную корреляцию, значение близкое к -1 указывает на высокую отрицательную корреляцию, а значение близкое к 0 указывает на отсутствие корреляции.

Пример использования метода corr():

import pandas as pd

# Создание датафрейма для примера
data = {
    'A': [1, 2, 3, 4, 5],
    'B': [5, 4, 3, 2, 1],
    'C': [1, 1, 2, 2, 3]
}

df = pd.DataFrame(data)

# Вычисление корреляций между столбцами
correlation_matrix = df.corr()

print(correlation_matrix)

Также можно визуализировать корреляционную матрицу с помощью тепловой карты (heatmap) при помощи библиотеки seaborn:

import seaborn as sns
import matplotlib.pyplot as plt

# Визуализация корреляционной матрицы
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', vmin=-1, vmax=1)
plt.title('Correlation Matrix')
plt.show()

Таким образом, с помощью метода corr() в pandas можно легко провести корреляционный анализ данных и визуализировать результаты для лучшего понимания взаимосвязей между переменными.