J'ai plusieurs chaînes comme celle-ci:
s = u'awëerwq\u0645\u0631\u062d\u0628\u0627\u043c\u0438\u0440bròn 1990 23x4 + &23 \'we\' we\'s mexicqué'
s
"awëerwq مرحباмир bròn 1990 23x4 + &23 'we' we's mexicqué"
Je n'ai pas trouvé de moyen de supprimer les éléments non imprimables comme «مرحبا ми», mais en gardant les caractères latins comme «óé, ...». Les nombres (comme «1990») ne sont pas non plus souhaitables dans mon cas. J'ai utilisé le ASCII
drapeau de re
mais je ne sais pas ce qui ne va pas parce qu'il supprime «óëé, ...». C'est le même problème avec l'utilisation string.printable
. Je ne sais pas pourquoi
ord('ë')
235
Étant donné que la table ASCII est affectée à 137. Le résultat auquel je m'attends est quelque chose comme ceci:
x = some_method(s)
"awëerwq bròn 23x4 we we s mexicqué"
Ensuite, je voudrais coder sans dépendre d'une codification non fixée.
Voici un moyen qui pourrait aider (Python 3.4):
import unicodedata
def remove_nonlatin(s):
s = (ch for ch in s
if unicodedata.name(ch).startswith(('LATIN', 'DIGIT', 'SPACE')))
return ''.join(s)
>>> s = 'awëerwq\u0645\u0631\u062d\u0628\u0627\u043c\u0438\u0440bròn 1990 23x4 + &23 \'we\' we\'s mexicqué'
>>> remove_nonlatin(s)
'awëerwqbròn 1990 23x4 23 we wes mexicqué'
Cela saisit les noms Unicode des caractères de la chaîne et correspond aux caractères dont les noms commencent par LATIN, DIGIT ou SPACE.
Par exemple, cela correspondrait:
>>> unicodedata.name('S')
'LATIN CAPITAL LETTER S'
Et ce ne serait pas:
>>> unicodedata.name('م')
'ARABIC LETTER MEEM'
Je suis raisonnablement sûr que les caractères latins ont tous des noms unicode commençant par «LATIN», donc cela devrait filtrer les autres scripts d'écriture, tout en conservant les chiffres et les espaces. Il n'y a pas de ligne unique pratique pour la ponctuation, donc dans cet exemple, les points d'exclamation et autres sont également filtrés.
Vous pouvez probablement filtrer par point de code en utilisant quelque chose comme ord(c) < 0x250
, bien que vous puissiez obtenir des choses auxquelles vous ne vous attendez pas. Ou, vous pouvez essayer de filtrer par unicodedata.category
. Cependant, la catégorie «lettre» comprend des lettres provenant de nombreux scripts, vous vous retrouverez donc toujours avec certains d'entre eux: «م».
Cet article est collecté sur Internet, veuillez indiquer la source lors de la réimpression.
En cas d'infraction, veuillez [email protected] Supprimer.
laisse moi dire quelques mots