多くのファイルでのPython関数呼び出しの並列化/スケジューリング

BBQuercus

同じ機能を適用したいcsvファイルが数十万個あります。次のダミー関数のようなもの：

def process_single_file(fname):
    df = pd.read_csv(fname)
    # Pandas and non-pandas processing
    df.to_csv(f"./output/{fname}")

すべてのファイルを個別にループするのは時間がかかりすぎるので、私の質問は、この実行をスケジュールして並列化するための最も効率的な方法は何ですか。プロセスは相互に依存していません。私はPythonを使おうと試み始めましたmultiprocessing：

import multiprocessing

files = sorted(glob.glob("./input/*.csv"))

processes = []
for fname in files:
    p = multiprocessing.Process(target=process_file, args=(fname,))
    processes.append(p)
    p.start()

for process in processes:
    process.join()

しかし、私のコンピューターは、すべてのCPUにすぐに過負荷をかけ、速度低下とクラッシュを引き起こすため、このプロセスを好まないようです。すべてのCPUのワークロードを削減しDask、Bashスクリプトの使用や変更などのタスクをスケジュールするためのより効率的な方法はありpythonますか？前もって感謝します。

お兄さん

それは本当にあなたのボトルネックがどこにあるかに依存します：あなたはファイルの読み取り/書き込み、またはCPU処理の作業により多くの時間を費やしていますか？

このRealPythonチュートリアルは、これらすべてについて学ぶのに本当に役立ちました。良い読み物をお勧めすることしかできません;）

チュートリアルで説明されているように、I / Oの場合、マルチスレッドで十分です（マルチプロセッシングよりも優れている可能性があります）。

def process_all_files(files):
    with concurrent.futures.ThreadPoolExecutor(max_workers=5) as executor:
        executor.map(process_single_file, files)

また、CPUの場合、マルチプロセッシングを使用すると、使用可能なすべてのコアを使用できます。

def process_all_files(files):
    with multiprocessing.Pool() as pool:
        pool.map(process_single_file, files)

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集2021-08-13

コメントを追加

サインイン

前の投稿：ScriptableObjectからクラスを参照する

TOP 一覧

記事

多くのファイルでのPython関数呼び出しの並列化/スケジューリング

多くのファイルでのPython関数呼び出しの並列化/スケジューリング

セレンのモデルダイアログからテキストを抽出するにはどうすればよいですか？

Ansibleで複数行のシェルスクリプトを実行する方法

tkinterウィンドウを閉じてもPythonプログラムが終了しない

Windows 10 Pro 1709を1803、1809、または1903に更新しますか？

Crashlytics：コンパイラー生成とはどういう意味ですか？

GoDaddyでのCKEditorとKCfinderの画像プレビュー

パンダは異なる名前の列に追加します

モーダルダイアログを自動的に閉じる-サーバーコードが完了したら、Googleスプレッドシートのダイアログを閉じます

グラフ（.PNG）ファイルをエクスポートするZabbix

Chromeウェブアプリのウェブビューの高さの問題

ラベルとエントリがpythontkinterに表示されないのはなぜですか？

Windows 10の起動時間：以前は20秒でしたが、現在は6〜8倍になっています

mutate_allとifelseを組み合わせるにはどうすればよいですか

Reactでclsxを使用する方法

ネットワークグラフで、ネットワークコンポーネントにカーソルを合わせたときに、それらを強調表示するにはどうすればよいですか？

テキストフィールドの値に基づいて UIslider を移動します

ファイル内の2つのマーカー間のテキストを、別のファイルのテキストのセクションに置き換えるにはどうすればよいですか？

MLでのデータ前処理の背後にある直感

Unity：未知のスクリプトをGameObject（カスタムエディター）に動的にアタッチする方法

Pythonを使用して同じ列の同じ値の間の時差を取得する方法

グラフからテーブルに条件付き書式を適用するにはどうすればよいですか？