我们有一个 HTML 源代码,它将使用 informatica 工作流进行处理。在这两者之间,我们有一个 Unix 脚本来转换文件。
我们在过去一周在 informatica 中收到一个错误,说格式无效,因为该文件有未使用的 html 引用(0-8,14-31 等)
例子:
� -  Unused
 -  Unused
 -  Unused
 - Ÿ Unused
来源。
我们需要在 Unix 中处理它并在处理之前从 HTML 文件中删除上述字符。
我试过使用 sed 命令
sed -e 's/\&\([^\amp;|^\apos;|^\quot;|^\lt;|^\gt;]\)/\&\1/g'
但它没有达到目的。此外,由于我们有太多未使用的引用,因此也不能对其进行硬编码。
你能告诉我如何继续吗?
这是通过将编码字符视为字符串的工作(bash)解决方案。不清楚您的来源是否已编码,但是否有效:
sed 's/'`for n in {00..08} {11..12} {14..31} {127..159}; do echo -n "&#"$n";\|"; done`'//g'
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句