別の小さなデータセットに類似したデータセットからインスタンスを分類するアルゴリズム。この小さなデータセットは単一のクラスを表します。

DPM

バイナリクラスのインスタンスを表すデータセットがあります。ここでのひねりは、ポジティブクラスのインスタンスのみがあり、ネガティブクラスのインスタンスはないということです。というか、ポジティブに近いネガから抽出したい。

具体的には、当店で購入し、自分の意志でポイントカード要求した人のデータがあるとしますプライバシーの懸念はさておき(これは単なる例です)、年齢、郵便番号などのさまざまな属性があります。

この例に続く他のクライアントのセットは、カードを申請しなかったクライアントです。

私たちが欲しいのは、最初のグループでポイントカードを申請したものに最も類似しているもののサブセットを見つけて、ポイントプログラムに申請するためのオファーを送信できるようにすることです。

「ネガティブ」のグループ内からインスタンスを取得しようとしているため、これは正確には分類の問題ではありません。

クラスター(ポイントカードクライアント)は既にわかっているため、これは正確にはクラスタリングではなく、通常は監視されません。

kNNの使用を考えました。しかし、私はここで私の選択肢が何であるかを本当に知りません。

また、可能であれば、wekaまたは別のJavaライブラリを使用してこれを実現する方法と、すべての属性を正規化する必要があるかどうかも知りたいです。

嫌い

異常検出アルゴリズムを使用できます。これらのアルゴリズムは、新しいクライアントがポイントカードを取得したクライアントのグループに属しているかどうかを示します(この場合、それらは異常になります)。

2つの基本的なアイデアがあります(以下にリンクした記事から):

  1. ポジティブラベル付けされたデータ(カードを使用するクライアントの特徴ベクトルを、(たとえばPCAを使用して)低次元のベクトル空間に変換します次に、結果の変換されたデータの確率分布を計算し、新しいクライアントが同じ統計分布に属しているかどうかを確認できます。また、変換されたデータの重心までの新しいクライアントの距離を計算し、分布の標準偏差を使用して、それがまだ十分に近いかどうかを判断することもできます。

  2. 機械学習アプローチ:カードデータを使用して、クライアントで自動エンコーダネットワークをトレーニングします。オートエンコーダは、そのアーキテクチャにボトルネックがあります。入力データを低次元の新しい特徴ベクトルに圧縮し、その後、その圧縮されたベクトルから入力データを再構築しようとします。トレーニングが正しく行われている場合、カードデータセットを持つクライアントに類似した入力データの再構成エラーは、それに類似していない入力データよりも小さいはずです(これらはカードを必要としないクライアントであることが望ましい)。

開始するには、このチュートリアルをご覧くださいhttps//towardsdatascience.com/how-to-use-machine-learning-for-anomaly-detection-and-condition-monitoring-6742f82900d7

どちらの方法でも、最初に属性を標準化する必要があります。

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集
0

コメントを追加

0

関連記事

TOP 一覧

  1. 1

    グラフからテーブルに条件付き書式を適用するにはどうすればよいですか?

  2. 2

    ソートされた検索、ターゲット値未満の数をカウント

  3. 3

    Unity:未知のスクリプトをGameObject(カスタムエディター)に動的にアタッチする方法

  4. 4

    セレンのモデルダイアログからテキストを抽出するにはどうすればよいですか?

  5. 5

    Ansibleで複数行のシェルスクリプトを実行する方法

  6. 6

    Reactでclsxを使用する方法

  7. 7

    tkinterウィンドウを閉じてもPythonプログラムが終了しない

  8. 8

    Windows 10 Pro 1709を1803、1809、または1903に更新しますか?

  9. 9

    Pythonを使用して同じ列の同じ値の間の時差を取得する方法

  10. 10

    PowerShellの分割ファイルへのヘッダーの追加

  11. 11

    Chromeウェブアプリのウェブビューの高さの問題

  12. 12

    BLOBストレージからデータを読み取り、Azure関数アプリを使用してデータにアクセスする方法

  13. 13

    Crashlytics:コンパイラー生成とはどういう意味ですか?

  14. 14

    GoDaddyでのCKEditorとKCfinderの画像プレビュー

  15. 15

    Windows 10の起動時間:以前は20秒でしたが、現在は6〜8倍になっています

  16. 16

    MLでのデータ前処理の背後にある直感

  17. 17

    モーダルダイアログを自動的に閉じる-サーバーコードが完了したら、Googleスプレッドシートのダイアログを閉じます

  18. 18

    reCAPTCHA-エラーコード:ユーザーの応答を検証するときの「missing-input-response」、「missing-input-secret」(POSTの詳細がない)

  19. 19

    STSでループプロセス「クラスパス通知の送信」のループを停止する方法

  20. 20

    ファイル内の2つのマーカー間のテキストを、別のファイルのテキストのセクションに置き換えるにはどうすればよいですか?

  21. 21

    ネットワークグラフで、ネットワークコンポーネントにカーソルを合わせたときに、それらを強調表示するにはどうすればよいですか?

ホットタグ

アーカイブ