Comment supprimer efficacement les caractères et les nombres non-ASCII, tout en conservant les caractères ASCII accentués

Nacho Publié le Dev

Nacho

J'ai plusieurs chaînes comme celle-ci:

s = u'awëerwq\u0645\u0631\u062d\u0628\u0627\u043c\u0438\u0440bròn 1990 23x4 + &23 \'we\' we\'s mexicqué'
s
"awëerwq مرحباмир bròn 1990 23x4 + &23 'we' we's mexicqué"

Je n'ai pas trouvé de moyen de supprimer les éléments non imprimables comme «مرحبا ми», mais en gardant les caractères latins comme «óé, ...». Les nombres (comme «1990») ne sont pas non plus souhaitables dans mon cas. J'ai utilisé le ASCIIdrapeau de remais je ne sais pas ce qui ne va pas parce qu'il supprime «óëé, ...». C'est le même problème avec l'utilisation string.printable. Je ne sais pas pourquoi

ord('ë')
235

Étant donné que la table ASCII est affectée à 137. Le résultat auquel je m'attends est quelque chose comme ceci:

x = some_method(s)
"awëerwq bròn 23x4 we we s mexicqué"

Ensuite, je voudrais coder sans dépendre d'une codification non fixée.

Seth

Voici un moyen qui pourrait aider (Python 3.4):

import unicodedata
def remove_nonlatin(s): 
    s = (ch for ch in s
         if unicodedata.name(ch).startswith(('LATIN', 'DIGIT', 'SPACE')))
    return ''.join(s)

>>> s = 'awëerwq\u0645\u0631\u062d\u0628\u0627\u043c\u0438\u0440bròn 1990 23x4 + &23 \'we\' we\'s mexicqué'
>>> remove_nonlatin(s)
'awëerwqbròn 1990 23x4  23 we wes mexicqué'

Cela saisit les noms Unicode des caractères de la chaîne et correspond aux caractères dont les noms commencent par LATIN, DIGIT ou SPACE.

Par exemple, cela correspondrait:

>>> unicodedata.name('S')
'LATIN CAPITAL LETTER S'

Et ce ne serait pas:

>>> unicodedata.name('م')
'ARABIC LETTER MEEM'

Je suis raisonnablement sûr que les caractères latins ont tous des noms unicode commençant par «LATIN», donc cela devrait filtrer les autres scripts d'écriture, tout en conservant les chiffres et les espaces. Il n'y a pas de ligne unique pratique pour la ponctuation, donc dans cet exemple, les points d'exclamation et autres sont également filtrés.

Vous pouvez probablement filtrer par point de code en utilisant quelque chose comme ord(c) < 0x250, bien que vous puissiez obtenir des choses auxquelles vous ne vous attendez pas. Ou, vous pouvez essayer de filtrer par unicodedata.category. Cependant, la catégorie «lettre» comprend des lettres provenant de nombreux scripts, vous vous retrouverez donc toujours avec certains d'entre eux: «م».

Cet article est collecté sur Internet, veuillez indiquer la source lors de la réimpression.

En cas d'infraction, veuillez [email protected] Supprimer.

modifier le2020-10-31

laisse moi dire quelques mots

0commentaires

connexionAprès avoir participé à la revue

Article précédent:SpriteKit obtient une erreur concernant les UIElements lors de la transition vers une nouvelle scène

TOP liste

article