Obtenga una lista de nombres de archivos de HDFS usando python

Raaj

Noob de Hadoop aquí.

He buscado algunos tutoriales sobre cómo comenzar con hadoop y python sin mucho éxito. Todavía no necesito trabajar con mapeadores y reductores, pero es más un problema de acceso.

Como parte del clúster de Hadoop, hay un montón de archivos .dat en HDFS.

Para acceder a esos archivos en mi cliente (computadora local) usando Python,

¿Qué necesito tener en mi computadora?

¿Cómo consulto nombres de archivos en HDFS?

Cualquier enlace también sería útil.

user4322779

Debería tener acceso de inicio de sesión a un nodo del clúster. Deje que el administrador del clúster elija el nodo, configure la cuenta y le informe cómo acceder al nodo de forma segura. Si usted es el administrador, avíseme si el clúster es local o remoto y si es remoto, entonces está alojado en su computadora, dentro de una corporación o en una nube de terceros y, si es así, de quién y luego puedo brindar información más relevante.

Para consultar nombres de archivos en HDFS, inicie sesión en un nodo de clúster y ejecútelo hadoop fs -ls [path]. La ruta es opcional y, si no se proporciona, se enumeran los archivos de su directorio personal. Si -Rse proporciona como una opción, entonces enumera todos los archivos en la ruta de forma recursiva. Hay opciones adicionales para este comando. Para obtener más información sobre este y otros comandos de shell del sistema de archivos de Hadoop, consulte http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/FileSystemShell.html .

Una forma fácil de consultar los nombres de los archivos HDFS en Python es usar esutil.hdfs.ls(hdfs_url='', recurse=False, full=False), que se ejecuta hadoop fs -ls hdfs_urlen un subproceso, además de que tiene funciones para varios otros comandos de shell del sistema de archivos Hadoop (consulte la fuente en http://code.google.com/p /esutil/source/browse/trunk/esutil/hdfs.py ). esutil se puede instalar con pip install esutil. Está en PyPI en https://pypi.python.org/pypi/esutil , la documentación correspondiente está en http://code.google.com/p/esutil/ y su sitio de GitHub es https://github.com / esheldon / esutil .

Este artículo se recopila de Internet, indique la fuente cuando se vuelva a imprimir.

En caso de infracción, por favor [email protected] Eliminar

Editado en
0

Déjame decir algunas palabras

0Comentarios
Iniciar sesiónRevisión de participación posterior

Artículos relacionados

Obtenga una lista de archivos con excepciones usando patrón

Pyspark: obtenga una lista de archivos / directorios en la ruta HDFS

Obtenga una lista de tuplas que contienen archivos con los mismos nombres pero diferentes terminaciones

quiere que los nombres dentro de la lista sean como nombres de archivos usando for loop python

Obtenga una lista de subobjetos usando gson

Obtenga un nombre único de una lista de nombres

Cambiar el nombre de varios archivos usando una lista de nombres en Excel

Obtenga una lista de archivos usando grep y el comando AWK en Linux

Obtenga una lista de carpetas que contienen archivos vb usando powershell

Obtenga una lista de nombres de columna, todos los valores son NaN en Python

Obtenga una lista de todos los sistemas de archivos montados en Linux con python

Python: busque XPath usando una lista de archivos

¿Cómo creo una lista de nombres de archivos?

¿Cómo generar una lista de nombres de archivos?

Obtenga una lista filtrada de archivos en un directorio

Quiero imprimir los nombres de los archivos presentes en un directorio como una lista usando ansible

Python obtenga una lista de años

Creando una matriz de nombres de archivos usando grep

Extraiga de manera eficiente una lista de archivos de List <Files> con una lista de nombres

Extraiga de manera eficiente una lista de archivos de List <Files> con una lista de nombres

Obtenga los nombres de columna de un marco de datos basado en valores de una lista en pandas python

Busque archivos basados en una lista de nombres parciales y cópielos en una carpeta de destino usando Windows Shell

Python: Cómo importar una lista de archivos en un directorio desde HDFS

Python, obtenga los nombres de los archivos después de que el usuario seleccione varios archivos

Python libtorrent, obtener nombres de lista de archivos

Obtenga una lista de nombres de funciones en PHP en una cadena de texto

Obtenga una lista de nombres de tragamonedas o tragamonedas de una plantilla deftemplate por nombre

Modificar nombres de archivos en una lista de archivos y agregarlos como una nueva columna

cómo crear una lista numpy de nombres a partir de nombres de archivos numpy