Для вывода топ слов в pandas, можно использовать следующий алгоритм:
1. Импортировать необходимые библиотеки. В данном случае pandas и collections:
import pandas as pd import collections
2. Создать датафрейм с текстовыми данными. Предположим, у нас есть столбец text
с текстом:
data = {'text': ['apple banana banana orange grape', 'banana orange banana orange apple']} df = pd.DataFrame(data)
3. Обработать текст и собрать все слова в одну строку:
all_words = ' '.join(df['text']).split()
4. Посчитать количество вхождений каждого слова:
word_counts = collections.Counter(all_words)
5. Преобразовать словарь в отсортированный список кортежей (слово, количество вхождений) и создать датафрейм на его основе:
word_counts = sorted(word_counts.items(), key=lambda x: x[1], reverse=True) top_words_df = pd.DataFrame(word_counts, columns=['word', 'count'])
6. Вывести топ N слов (например, топ 5):
top_n = 5 top_n_words = top_words_df.head(top_n) print(top_n_words)
Таким образом, данный алгоритм позволяет вывести топ слов в pandas по количеству их вхождений в текстовые данные.