データサイズよりも多くの反復のために小さなデータセットをサンプリングする方法は?

リーファン

私は1つの小さなデータセットと1つの大きなデータセットを持っており、それらは2つの別々のクラスを意味します。私がトレーニングしているネットワークはスタイル転送であるため、トレーニングを継続するには、クラスごとに1つの画像が必要です。ただし、小さいデータセットがなくなるとすぐにトレーニングは停止します。小さなデータセットからそのサイズを超えてランダムにサンプリングを続けるにはどうすればよいですか?

試しましたRandomSampler()が、うまくいきませんでした。小さなデータセットのコードは次のとおりです。

sampler = RandomSampler(self)
dataloader = DataLoader(self, batch_size=26, shuffle=False, sampler=sampler)
while True:
    for data in dataloader:
        yield data

私も試しましたiterator.cycleが、それ役に立ちませんでした。

loader = iter(cycle(self.dataset.gen(attribute_id, True)))
A, y_A = next(loader)
B, y_B = next(self.dataset.gen(attribute_id, False))
マクローレンス

でのあなたのアイデアRandomSamplerはそう遠くはありませんでした。と呼ばれるサンプラーがありSubsetRandomSamplerます。通常、サブセットはセット全体よりも小さいですが、そうである必要はありません。

小さいデータセットにAエントリがあり、2番目のデータセットにがあるとしますBインデックスを定義できます。

indices = np.random.randint(0, A, B)   
sampler = torch.utils.data.sampler.SubsetRandomSampler(indices)

これによりB、小さいデータセットに有効な範囲のインデックスが生成されます。

テスト:

loader = torch.utils.data.DataLoader(set_A, batch_size=1, sampler=sampler)
print(len(loader)) # B

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集
0

コメントを追加

0

関連記事

チャートのパフォーマンスを向上させるために、サンプリング/補間によって大きなデータセットのサイズを縮小します

データフレームをループするときに、パンダのインデクサーが多すぎます。私の修正を書くためのよりクリーンな方法はありますか?

より多くのエントリを持つSQLiteデータベースをより小さなファイルサイズに圧縮するにはどうすればよいですか?

MySQLテーブルのサイズがその中のデータのサイズよりもはるかに大きいため、インデックススキャンクエリが遅くなります

異なるデータセット間で値を比較するための反復よりも優れたソリューション

さまざまなサイズのディスプレイをターゲットとするパターンで多くのUIViewを配置する方法

画面サイズを小さくするためのブートストラップボタンの全幅

データセットをより小さなサイズに縮小し、データセット内の情報の要点を維持します

Rの複数のグループ化変数を使用して整頓されたデータセット内の変数の長さを正規化するためにデータを変換/リサンプリング/補間する方法は?

別の小さなデータセットに類似したデータセットからインスタンスを分類するアルゴリズム。この小さなデータセットは単一のクラスを表します。

データのサブセットを取得するためのプロパティによるGeoJsonデータのフィルタリング

Web ページのサイズが小さくなったときにパディングを削除する方法

指定されたデータセット内の値のパーセンテージウィンドウでデータの行をグループ化し、データセットを反復処理する方法はありますか?

ラズベリーパイでPythonを用いたセンサからのデータを保存するために最も効率的な方法

ウィンドウのサイズが変更されたり、セカンダリディスプレイ(モニター)に移動(ドラッグ)されたりすると、カスタムNSViewが再描画されるのはなぜですか?

カスタムアップロードされたアセットファイルで多くのリリース(およびタグ)を追加すると、gitファイルのサイズが大きくなりますか?

データセットの値を減らすためにデータセットをランダムにサンプリングする

Testdiskは、データが存在するパーティションのサイズよりも多くのデータをどのように回復できますか?

python:小さなデータセットにサンプリングされた後、データが追加の列に追加されました

クライアントが見たいより多くのデータを取得しないように、meteorパブリッシュ/サブスクライブでデータを適切にフィルタリングするにはどうすればよいですか?

randomForestモデルのサイズはトレーニングセットのサイズによって異なります:回避する方法は?

参照(より大きな)データセットに最も近いデータセットを見つけるための効率的なプログラミング方法は何ですか?

CGContextで小さいサイズにスケーリングすると、CGImageのピクセルデータが不完全になります

より多くのコンテンツをページにロードするためのより多くのボタンをロードしている場合、Webサイトをスクレイピングする方法は?

ワンホットエンコーディングではなく、小さなデータセットを単語埋め込みに変換する方法は?

printfを追加すると、データセグメントのサイズが大きくなります

サーバーがクライアントからシードしたよりも多くのデータを受信するのは奇妙です

複数のデータセットのデータをマッピングするためのより良い方法、複雑なデータマッピング

セットに存在しなくなるまで乱数をサンプリングするためのよりエレガントな方法は何ですか?

TOP 一覧

  1. 1

    グラフからテーブルに条件付き書式を適用するにはどうすればよいですか?

  2. 2

    ソートされた検索、ターゲット値未満の数をカウント

  3. 3

    Unity:未知のスクリプトをGameObject(カスタムエディター)に動的にアタッチする方法

  4. 4

    セレンのモデルダイアログからテキストを抽出するにはどうすればよいですか?

  5. 5

    Ansibleで複数行のシェルスクリプトを実行する方法

  6. 6

    Reactでclsxを使用する方法

  7. 7

    tkinterウィンドウを閉じてもPythonプログラムが終了しない

  8. 8

    Windows 10 Pro 1709を1803、1809、または1903に更新しますか?

  9. 9

    Pythonを使用して同じ列の同じ値の間の時差を取得する方法

  10. 10

    PowerShellの分割ファイルへのヘッダーの追加

  11. 11

    Chromeウェブアプリのウェブビューの高さの問題

  12. 12

    BLOBストレージからデータを読み取り、Azure関数アプリを使用してデータにアクセスする方法

  13. 13

    Crashlytics:コンパイラー生成とはどういう意味ですか?

  14. 14

    GoDaddyでのCKEditorとKCfinderの画像プレビュー

  15. 15

    Windows 10の起動時間:以前は20秒でしたが、現在は6〜8倍になっています

  16. 16

    MLでのデータ前処理の背後にある直感

  17. 17

    モーダルダイアログを自動的に閉じる-サーバーコードが完了したら、Googleスプレッドシートのダイアログを閉じます

  18. 18

    reCAPTCHA-エラーコード:ユーザーの応答を検証するときの「missing-input-response」、「missing-input-secret」(POSTの詳細がない)

  19. 19

    STSでループプロセス「クラスパス通知の送信」のループを停止する方法

  20. 20

    ファイル内の2つのマーカー間のテキストを、別のファイルのテキストのセクションに置き換えるにはどうすればよいですか?

  21. 21

    ネットワークグラフで、ネットワークコンポーネントにカーソルを合わせたときに、それらを強調表示するにはどうすればよいですか?

ホットタグ

アーカイブ