Для построения корреляционного анализа данных в pandas можно использовать метод corr()
для датафрейма. Этот метод вычисляет корреляции Пирсона (по умолчанию) между парами столбцов данных. Коэффициент корреляции Пирсона измеряет линейную зависимость между двумя переменными, принимает значения от -1 до 1: значение близкое к 1 указывает на высокую положительную корреляцию, значение близкое к -1 указывает на высокую отрицательную корреляцию, а значение близкое к 0 указывает на отсутствие корреляции.
Пример использования метода corr()
:
import pandas as pd # Создание датафрейма для примера data = { 'A': [1, 2, 3, 4, 5], 'B': [5, 4, 3, 2, 1], 'C': [1, 1, 2, 2, 3] } df = pd.DataFrame(data) # Вычисление корреляций между столбцами correlation_matrix = df.corr() print(correlation_matrix)
Также можно визуализировать корреляционную матрицу с помощью тепловой карты (heatmap) при помощи библиотеки seaborn
:
import seaborn as sns import matplotlib.pyplot as plt # Визуализация корреляционной матрицы sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', vmin=-1, vmax=1) plt.title('Correlation Matrix') plt.show()
Таким образом, с помощью метода corr()
в pandas можно легко провести корреляционный анализ данных и визуализировать результаты для лучшего понимания взаимосвязей между переменными.