SparkはHDFS集中キャッシュを利用していますか？

JRhino

SparkがHDFSCentralized Cachingを利用しているかどうか疑問に思っているだけで、これが求められている場所を見つけることができないようです。

例えば

 hiveContext.sql("SELECT * FROM A_TABLE")

これはキャッシュされたブロックを利用しますか？

ガガンタネジャ

HDFSキャッシュブロックを使用しますが、現在は最適化されていません。たとえば、ブロックはnodeAにキャッシュされているが、タスクはnodeBでスケジュールされている場合があります。ブロックがnodeBに対してローカルである場合、ディスクから読み取られます。ブロックがローカルでない場合、HDFSはキャッシュされたnodeAからブロックを読み取るようにします。まだマージされていないのに、最適化するためにjiraタスクを開いていますhttps://issues.apache.org/jira/browse/ SPARK-19705

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集2021-04-20

コメントを追加

サインイン

前の投稿：Eclipseのソースフォルダー間のアクセスを制限する

TOP 一覧

記事

SparkはHDFS集中キャッシュを利用していますか？

SparkはHDFS集中キャッシュを利用していますか？

グラフからテーブルに条件付き書式を適用するにはどうすればよいですか？

ソートされた検索、ターゲット値未満の数をカウント

Unity：未知のスクリプトをGameObject（カスタムエディター）に動的にアタッチする方法

セレンのモデルダイアログからテキストを抽出するにはどうすればよいですか？

Ansibleで複数行のシェルスクリプトを実行する方法

Reactでclsxを使用する方法

tkinterウィンドウを閉じてもPythonプログラムが終了しない

Windows 10 Pro 1709を1803、1809、または1903に更新しますか？

Pythonを使用して同じ列の同じ値の間の時差を取得する方法

PowerShellの分割ファイルへのヘッダーの追加

Chromeウェブアプリのウェブビューの高さの問題

BLOBストレージからデータを読み取り、Azure関数アプリを使用してデータにアクセスする方法

Crashlytics：コンパイラー生成とはどういう意味ですか？

GoDaddyでのCKEditorとKCfinderの画像プレビュー

Windows 10の起動時間：以前は20秒でしたが、現在は6〜8倍になっています

MLでのデータ前処理の背後にある直感

モーダルダイアログを自動的に閉じる-サーバーコードが完了したら、Googleスプレッドシートのダイアログを閉じます

reCAPTCHA-エラーコード：ユーザーの応答を検証するときの「missing-input-response」、「missing-input-secret」（POSTの詳細がない）

STSでループプロセス「クラスパス通知の送信」のループを停止する方法

ファイル内の2つのマーカー間のテキストを、別のファイルのテキストのセクションに置き換えるにはどうすればよいですか？

ネットワークグラフで、ネットワークコンポーネントにカーソルを合わせたときに、それらを強調表示するにはどうすればよいですか？