¿Cómo dividir cadenas según una lista de glosarios?

alvas Publicado en Dev

dormir

Dada una lista de glosarios:

glossaries = ['USA', '34']

El objetivo es usar los elementos dentro de los glosarios y dividir una cadena usando los glosarios como delimitadores. Por ejemplo, dada la cadena y los glosarios, una _isolate_glossaries()función:

glossaries = ['USA', '34']
word = '1934USABUSA'
_isolate_glossaries(word, glossaries)

debería generar:

['19', '34', 'USA', 'B', 'USA']

He intentado:

def isolate_glossary(word, glossary):
    print(word, glossary)
    # Check that word == glossary and glossary not in word
    if re.match('^{}$'.format(glossary), word) or not re.search(glossary, word):
        return [word]
    else:
        segments = re.split(r'({})'.format(glossary), word)
        segments, ending = segments[:-1], segments[-1] # Remove the last catch with null string.
        return segments

def _isolate_glossaries(word, glossaries):
    word_segments = [word]
    for gloss in glossaries:
        word_segments = [out_segment
                         for segment in word_segments 
                         for out_segment in isolate_glossary(segment, gloss)] 
    return word_segments

Funciona, pero parece un poco complicado para tener tantos niveles de divisiones de bucle y expresiones regulares. ¿Existe una mejor manera de dividir la cadena según los glosarios?

revo

Para dividir la cadena por los elementos de la lista, cree una expresión regular sobre la marcha que incluya los elementos separados por una tubería, |todos encerrados en un grupo de captura (un grupo que no captura no incluye elementos en sí mismos en la salida):

list = re.split('({})'.format('|'.join(glossaries)), word);
print ([x for x in list if x]) # filter non-word items

Vea la demostración en vivo aquí

Este artículo se recopila de Internet, indique la fuente cuando se vuelva a imprimir.

En caso de infracción, por favor [email protected] Eliminar

Editado en2021-01-26

Déjame decir algunas palabras

0Comentarios

Iniciar sesiónRevisión de participación posterior

Anterior:¿Cómo deshabilitar el pegado con el clic central del mouse en el editor Atom?

TOP Lista

Artículos

¿Cómo dividir cadenas según una lista de glosarios?

¿Cómo dividir cadenas según una lista de glosarios?

¿Cómo ocultar la aplicación web de los robots de búsqueda? (ASP.NET)

Cómo utilizar HttpClient con cualquier certificado SSL, no importa lo "malo" que es

Modbus Python Schneider PM5300

Ver todos los comentarios en un video de YouTube

Visualización KNN: cómo dibujar un círculo alrededor de un punto de datos que se conecta a N puntos más cercanos usando R

Obtenga todos los comentarios y responda a los comentarios en un solo SQL

Search Dropdown Javascript - How to hide list?

¿Es una pila LAMJ un entorno posible?

Wie löse ich eine Hot-Codierung auf, wenn in meinen Testdaten Werte in einer Spalte fehlen?

Firebase Database recupera la suma de varios niños

Autocompletar con Java, Redis, elástico de la búsqueda, Mongo

Le snack-bar ne bouge pas FAB placé à l'intérieur du fragment

Estructura de la carpeta del proyecto Spring Boot para el cliente de descanso

Pregunta de fórmula de desplazamiento y transposición de Excel / Google Sheets

Événement OnSuspending non déclenché avec UWP Windows 10

jmeter + Selenium iDE

Cerrar el menú de material angular desde el controlador

WPF pleine largeur DataGridColumn sur la largeur de DataGrid

ElasticSearch: error al obtener bloqueos de nodo

¿Cómo volver a aplicar los cambios desde una rama remota con git pull?

¿Cómo puedo obtener mi próximo puntero de mi clase LinkedList sin usar la función incorporada?