我正在日语文本上工作,我有2个要求。
例如:东京都中央区晴海1-8-11
预期的输出:东京都中央区晴海<1> Chome <8> <11>。所有<>应包含双字节字符
例如:ADORES,Inc。
预期输出: ADORES,INC。
我正在从包含近300列的csv文件中读取此数据,只有3列需要这些操作,其余应保持不变。
我从网上获得了以下代码,但会引发错误。raw_comp_name
包含来自csv的数据。raw_comp_name.encode(encoding='utf-8').decode('ascii')
日语字符具有以下标准。双字节字符的宽度是普通字母字符的两倍。
您可以从此链接获取更多详细信息。
您可以使用此jaconv | 点模块。它具有单字节到双字节以及双字节到单字节功能。从模块文档链接中查看更多详细信息
随附以下示例代码:
import jaconv
hankaku_text = '東京都中央区晴海1丁目8番11号'
converted_zenkaku = jaconv.hankaku2zenkaku(hankaku_text)
print(converted_zenkaku)
zenkaku_text = "ADORES,Inc."
converted_hankaku = jaconv.zenkaku2hankaku(zenkaku_text)
print(converted_hankaku)
output:
東京都中央区晴海1丁目8番11号
ADORES, Inc.
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句