作为cron作业运行时，lynx -dump的输出不同

吉勒

几年来，我一直在“抓取”使用lynx -dump包含非拉丁字符的网页中的内容。我将页面内容保存到文件中，然后通过sed代理进行修改，然后将其发送到电子邮件正文中，所有这些都在我创建的脚本中进行。但是我发现，在将发行版（Ubuntu切换为Void）后，我的脚本无法按预期工作。我已经确定了故障点，如下所示。

当我从命令行运行脚本的第一部分（包含lynx -dump URL内容的部分和文件名）时，所有部分均按预期工作。该文件显示并包含我期望的非拉丁字符。但是，当我尝试通过指定与cron作业相同的命令来使过程自动化时，结果会有所不同。确实出现了预期的文件，但是我没有包含预期的非拉丁字符，而是得到的是使用拉丁字符音译的相同文本，而不是我想要的。我的脚本中执行的操作失败了，因为它取决于非拉丁字符的存在。

那么，为什么这些奇怪的结果取决于我是否从命令行而不是在cron作业中发出lynx命令呢？也许该网站正在进行某种检测，并且在一种情况下提供音译页面，而在另一种情况下则不提供音译页面？还是天猫座本身会将非拉丁字符音译成拉丁字符？输入将不胜感激。

佐藤桂（SatōKatsura）

lynx使用当前语言环境来确定可用于显示页面的字符集。cron但是，可能无法提供此信息，因此您需要执行以下操作：

lynx -display_charset=UTF-8 -dump http://example.com/some/page.html

（当然，如果与UTF-8不同，请使用系统上的字符集）。

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-04-2

我来说两句

0 条评论

登录后参与评论

上一篇：更改“ PATH”环境变量的正确方法是什么？

TOP 榜单

文章

作为cron作业运行时，lynx -dump的输出不同

作为cron作业运行时，lynx -dump的输出不同

计算数据帧R中的字符串频率

Android Studio Kotlin：提取为常量

Excel 2016图表将增长与4个参数进行比较

获取并汇总所有关联的数据

如何使用Redux-Toolkit重置Redux Store

http：// localhost：3000 /＃！/为什么我在localhost链接中得到“＃！/”。

将加号/减号添加到jQuery菜单

算术中的c ++常量类型转换

TYPO3：将 Formhandler 添加到新闻扩展

TreeMap中的自定义排序

如何开始为Ubuntu开发

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

无法使用 envoy 访问 .ssh/config

在Ubuntu和Windows中，触摸板有时会滞后。硬件问题？

遍历元素数组以每X秒在浏览器上显示

在Jenkins服务器中使用Selenium和Ruby进行的黄瓜测试失败，但在本地计算机中通过

警告消息：在matrix（unlist（drop.item），ncol = 10，byrow = TRUE）中：数据长度[16]不是列数的倍数[10]>？

未捕获的SyntaxError：带有Ajax帖子的意外令牌u

如何使用tweepy流式传输来自指定用户的推文（仅在该用户发布推文时流式传输）

尝试在Dell XPS13 9360上安装Windows 7时出错

如果从DB接收到的值为空，则JMeter JDBC调用将返回该值作为参数名称