2つのファイルの行の違いを計算する最も効率的な方法は何ですか？

ヴィニシウスモレ：

私はpython list_aとの2つのリストを持っていますlist_b。list_a一部の画像リンクを持っており、list_bあまりにも。アイテムの99％は同じですが、私はこれを1％知っている必要があります。すべての余剰アイテムはにあります。list_aつまり、内のすべてのアイテムlist_bはにありlist_aます。私の最初のアイデアはlist_a - list_b = list_c、すべてのアイテムを差し引くことlist_cです。私のコードは：

list_a = []
list_b = []
list_c = []

arq_b = open('list_b.txt','r')
for b in arq_b:
    list_b.append(b)

arq_a = open('list_a.txt','r')
for a in arq_a:
    if a not in arq_b:
        list_c.append(a)

arq_c = open('list_c.txt','w')
for c in list_c:
    arq_c.write(c)

ロジックは正しいと思います。アイテムがある場合、コードは高速に実行されます。しかし、私は10アイテム、または1.000、または100.000さえ持っていません。私が持っている78.514.022私の中のアイテムlist_b.txtと78.616.777私のリストではlist_a.txt。この表現のコストがわかりませんif a not in arq_b。しかし、このコードを実行すると、今年は終了しないと思います。

私のPCには8GBがあり、RAMを爆発させないようにスワップに15GBを割り当てています。

私の質問は、この操作をより効率的にする別の方法があります（高速）？

list_a縦ですが、list_bありません。
各アイテムのサイズは次のとおりです。 images/00000cd9fc6ae2fe9ec4bbdb2bf27318f2babc00.png
順序は関係ありません、私は余剰を知りたいです。

ジャン=フランソワ・ファーブル：

最初のファイルのコンテンツのセットを1つ作成してから、単に使用するdifferenceかsymmetric_difference、違いと呼ぶものに応じて

with open("list_a.txt") as f:
    set_a = set(f)

with open("list_b.txt") as f:
    diffs = set_a.difference(f)

場合は、list_b.txtより多くの項目が含まれlist_a.txtますが、それらを交換または使用したいset_a.symmetric_difference(f)何が必要に応じて、代わりに。

difference(f)機能しますが、set内部で新しいものを構築する必要があります。パフォーマンスはそれほど向上しませんが（引数の型に応じたset issubsetのパフォーマンスの違いを参照）、それよりも短くなります。

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集2020-06-3

コメントを追加

サインイン

TOP 一覧

記事

2つのファイルの行の違いを計算する最も効率的な方法は何ですか？

2つのファイルの行の違いを計算する最も効率的な方法は何ですか？

グラフからテーブルに条件付き書式を適用するにはどうすればよいですか？

ソートされた検索、ターゲット値未満の数をカウント

Unity：未知のスクリプトをGameObject（カスタムエディター）に動的にアタッチする方法

セレンのモデルダイアログからテキストを抽出するにはどうすればよいですか？

Ansibleで複数行のシェルスクリプトを実行する方法

Reactでclsxを使用する方法

tkinterウィンドウを閉じてもPythonプログラムが終了しない

Windows 10 Pro 1709を1803、1809、または1903に更新しますか？

Pythonを使用して同じ列の同じ値の間の時差を取得する方法

PowerShellの分割ファイルへのヘッダーの追加

Chromeウェブアプリのウェブビューの高さの問題

BLOBストレージからデータを読み取り、Azure関数アプリを使用してデータにアクセスする方法

Crashlytics：コンパイラー生成とはどういう意味ですか？

GoDaddyでのCKEditorとKCfinderの画像プレビュー

Windows 10の起動時間：以前は20秒でしたが、現在は6〜8倍になっています

MLでのデータ前処理の背後にある直感

モーダルダイアログを自動的に閉じる-サーバーコードが完了したら、Googleスプレッドシートのダイアログを閉じます

reCAPTCHA-エラーコード：ユーザーの応答を検証するときの「missing-input-response」、「missing-input-secret」（POSTの詳細がない）

STSでループプロセス「クラスパス通知の送信」のループを停止する方法

ファイル内の2つのマーカー間のテキストを、別のファイルのテキストのセクションに置き換えるにはどうすればよいですか？

ネットワークグラフで、ネットワークコンポーネントにカーソルを合わせたときに、それらを強調表示するにはどうすればよいですか？