Как вывести топ слов в pandas?

Для вывода топ слов в pandas, можно использовать следующий алгоритм:

  1. Импортировать необходимые библиотеки. В данном случае pandas и collections:
import pandas as pd
import collections
  1. Создать датафрейм с текстовыми данными. Предположим, у нас есть столбец text с текстом:
data = {'text': ['apple banana banana orange grape', 'banana orange banana orange apple']}
df = pd.DataFrame(data)
  1. Обработать текст и собрать все слова в одну строку:
all_words = ' '.join(df['text']).split()
  1. Посчитать количество вхождений каждого слова:
word_counts = collections.Counter(all_words)
  1. Преобразовать словарь в отсортированный список кортежей (слово, количество вхождений) и создать датафрейм на его основе:
word_counts = sorted(word_counts.items(), key=lambda x: x[1], reverse=True)
top_words_df = pd.DataFrame(word_counts, columns=['word', 'count'])
  1. Вывести топ N слов (например, топ 5):
top_n = 5
top_n_words = top_words_df.head(top_n)
print(top_n_words)

Таким образом, данный алгоритм позволяет вывести топ слов в pandas по количеству их вхождений в текстовые данные.