SparkがHDFSCentralized Cachingを利用しているかどうか疑問に思っているだけで、これが求められている場所を見つけることができないようです。
例えば
hiveContext.sql("SELECT * FROM A_TABLE")
これはキャッシュされたブロックを利用しますか?
HDFSキャッシュブロックを使用しますが、現在は最適化されていません。たとえば、ブロックはnodeAにキャッシュされているが、タスクはnodeBでスケジュールされている場合があります。ブロックがnodeBに対してローカルである場合、ディスクから読み取られます。ブロックがローカルでない場合、HDFSはキャッシュされたnodeAからブロックを読み取るようにします。まだマージされていないのに、最適化するためにjiraタスクを開いていますhttps://issues.apache.org/jira/browse/ SPARK-19705
この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。
侵害の場合は、連絡してください[email protected]
コメントを追加