Noob de Hadoop aquí.
He buscado algunos tutoriales sobre cómo comenzar con hadoop y python sin mucho éxito. Todavía no necesito trabajar con mapeadores y reductores, pero es más un problema de acceso.
Como parte del clúster de Hadoop, hay un montón de archivos .dat en HDFS.
Para acceder a esos archivos en mi cliente (computadora local) usando Python,
¿Qué necesito tener en mi computadora?
¿Cómo consulto nombres de archivos en HDFS?
Cualquier enlace también sería útil.
Debería tener acceso de inicio de sesión a un nodo del clúster. Deje que el administrador del clúster elija el nodo, configure la cuenta y le informe cómo acceder al nodo de forma segura. Si usted es el administrador, avíseme si el clúster es local o remoto y si es remoto, entonces está alojado en su computadora, dentro de una corporación o en una nube de terceros y, si es así, de quién y luego puedo brindar información más relevante.
Para consultar nombres de archivos en HDFS, inicie sesión en un nodo de clúster y ejecútelo hadoop fs -ls [path]
. La ruta es opcional y, si no se proporciona, se enumeran los archivos de su directorio personal. Si -R
se proporciona como una opción, entonces enumera todos los archivos en la ruta de forma recursiva. Hay opciones adicionales para este comando. Para obtener más información sobre este y otros comandos de shell del sistema de archivos de Hadoop, consulte http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/FileSystemShell.html .
Una forma fácil de consultar los nombres de los archivos HDFS en Python es usar esutil.hdfs.ls(hdfs_url='', recurse=False, full=False)
, que se ejecuta hadoop fs -ls hdfs_url
en un subproceso, además de que tiene funciones para varios otros comandos de shell del sistema de archivos Hadoop (consulte la fuente en http://code.google.com/p /esutil/source/browse/trunk/esutil/hdfs.py ). esutil se puede instalar con pip install esutil
. Está en PyPI en https://pypi.python.org/pypi/esutil , la documentación correspondiente está en http://code.google.com/p/esutil/ y su sitio de GitHub es https://github.com / esheldon / esutil .
Este artículo se recopila de Internet, indique la fuente cuando se vuelva a imprimir.
En caso de infracción, por favor [email protected] Eliminar
Déjame decir algunas palabras