列の行を分割し、出現する各単語の数を見つけ、棒グラフを使用して最も多い単語を見つけます

KnowTooLess

私はデータフレームを持っています
文字列を各行に分割したいのですが、
表示される各単語の数を見つけて、すべての単語を数えます
最高のものを視覚化するための棒グラフを作成します。

私がした唯一のことは、文字列を「[x | x | x]」から「[x、x、x]」に分割することですが、各単語を数える方法は混乱しています。

df_genres = df.copy()
df_genres.genres.head()

    0    Action|Adventure|Science Fiction|Thriller
    1    Action|Adventure|Science Fiction|Thriller
    2           Adventure|Science Fiction|Thriller
    3     Action|Adventure|Science Fiction|Fantasy
    4                        Action|Crime|Thriller
    Name: genres, dtype: object
-----------------------------------------------------------------
s = df_genres['genres'].str.split('|')
s.head()

    0    [Action, Adventure, Science Fiction, Thriller]
    1    [Action, Adventure, Science Fiction, Thriller]
    2            [Adventure, Science Fiction, Thriller]
    3     [Action, Adventure, Science Fiction, Fantasy]
    4                         [Action, Crime, Thriller]
    Name: genres, dtype: object

- count each word like"Action, Adventure, Fiction, etc",
- make the bar chart and see which word has the highest bar.

user7440787

あまりエレガントではありませんが、これでうまくいくはずです。

import pandas as pd
import matplotlib.pyplot as plt

df_genres = pd.DataFrame({'genres': ["Action|Adventure|Science Fiction|Thriller", "Action|Adventure|Science Fiction|Thriller", "Adventure|Science Fiction|Thriller", "Action|Adventure|Science Fiction|Fantasy", "Action|Crime|Thriller" ] })

genres_count = {j : ''.join(df_genres.genres.tolist()).count(j) for i in df_genres.genres.str.split('|').tolist() for j in i}

pd.DataFrame({'genres': list(genres_count.keys()), 'count': list(genres_count.values())}).plot.bar(x='genres', y='count')

plt.show()

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集2021-07-21

コメントを追加

サインイン

前の投稿：JSONオブジェクトへの角括弧の追加

TOP 一覧

記事

列の行を分割し、出現する各単語の数を見つけ、棒グラフを使用して最も多い単語を見つけます

列の行を分割し、出現する各単語の数を見つけ、棒グラフを使用して最も多い単語を見つけます

コメントを追加

関連記事

TOP 一覧

三項演算子良い練習の代わりとしてOptional.ofNullableを使用していますか？

STSでループプロセス「クラスパス通知の送信」のループを停止する方法

Spring Boot Filter is not getting invoked if remove @component in fitler class

セレンのモデルダイアログからテキストを抽出するにはどうすればよいですか？

tkinterウィンドウを閉じてもPythonプログラムが終了しない

Ansibleで複数行のシェルスクリプトを実行する方法

Python / SciPyのピーク検出アルゴリズム

画像変更コードを実行してもボタンの画像が変更されない

ビュー用にサイズ変更した後の画像の高さと幅を取得する方法

VisualStudioコードの特異点/ドッカー画像でPythonインタープリターを使用するにはどうすればよいですか？

Three.js indexed BufferGeometry vs. InstancedBufferGeometry

init。pyファイルの整理中に循環インポートエラーが発生しました

二次導関数を数値計算するときの大きな誤差

値間の一致を見つける最も簡単な方法は何ですか

androidsoongビルドシステムによるネイティブコードカバレッジ

Reactでclsxを使用する方法

How to access json value by key value in freemarker?

エンティティIDを含む@RequestBody属性をSpringの対応するエンティティに変換します

PyTesseractを使用した背景色のため、スクリーンショットからテキストを読み取ることができません

Using Angular's UI-router, how can we make sure the new version of the html partial views are used, rather than the cached version?

symfonyエラーサーバーが404NotFoundを返しました

ホットタグ

アーカイブ

列の行を分割し、出現する各単語の数を見つけ、棒グラフを使用して最も多い単語を見つけます

列の行を分割し、出現する各単語の数を見つけ、棒グラフを使用して最も多い単語を見つけます

三項演算子良い練習の代わりとしてOptional.ofNullableを使用していますか？

STSでループプロセス「クラスパス通知の送信」のループを停止する方法

Spring Boot Filter is not getting invoked if remove @component in fitler class

セレンのモデルダイアログからテキストを抽出するにはどうすればよいですか？

tkinterウィンドウを閉じてもPythonプログラムが終了しない

Ansibleで複数行のシェルスクリプトを実行する方法

Python / SciPyのピーク検出アルゴリズム

画像変更コードを実行してもボタンの画像が変更されない

ビュー用にサイズ変更した後の画像の高さと幅を取得する方法

VisualStudioコードの特異点/ドッカー画像でPythonインタープリターを使用するにはどうすればよいですか？

Three.js indexed BufferGeometry vs. InstancedBufferGeometry

__init__。pyファイルの整理中に循環インポートエラーが発生しました

二次導関数を数値計算するときの大きな誤差

値間の一致を見つける最も簡単な方法は何ですか

androidsoongビルドシステムによるネイティブコードカバレッジ

Reactでclsxを使用する方法

How to access json value by key value in freemarker?

エンティティIDを含む@RequestBody属性をSpringの対応するエンティティに変換します

PyTesseractを使用した背景色のため、スクリーンショットからテキストを読み取ることができません

Using Angular's UI-router, how can we make sure the new version of the html partial views are used, rather than the cached version?

symfonyエラーサーバーが404NotFoundを返しました

init。pyファイルの整理中に循環インポートエラーが発生しました