É possível instalar pacotes python em um cluster do Google Dataproc após a criação e execução do cluster?
Tentei usar " pip install xxxxxxx
" na linha de comando principal, mas parece não funcionar.
A documentação do Google Dataproc não menciona essa situação.
Isso geralmente não é possível após a criação do cluster. Eu recomendo usar uma ação de inicialização para fazer isso.
Como você notou, pip
também não está disponível por padrão. Então você vai querer correr easy_install pip
seguido pelo pip install
comando.
Por fim, se sua intenção é usar esse cluster em qualquer automação e / ou você desejar hermeticidade, recomendo criar um wheel
que você armazene no GCS e faça o download na ação init. Você instalaria sua roda. As rodas adicionaram o benefício de serem mais rápidas do que instalar muitos pacotes diretamente do pip.
Atualização de 2019
Consulte este tutorial sobre como configurar o ambiente Python no Dataproc: https://cloud.google.com/dataproc/docs/tutorials/python-configuration
Este artigo é coletado da Internet.
Se houver alguma infração, entre em [email protected] Delete.
deixe-me dizer algumas palavras