如何从python抓取的数据中删除“ \ n”？

soulsister 发表于 Dev

47

灵魂姐姐

此链接中有一个有关抓取数据的文本文件：https : //drive.google.com/file/d/1iu_rJUb-3EROWbctugdlUp9w0JNeiTvY/view?usp=sharing

我想使用Scrapy从抓取的数据中删除\n和\t字符。

def parse_item(self, response):
    item = TutorialItem()
    sel = Selector(response)
    item['url'] = response.url[0].strip()
    item['title'] = response.meta['link_text']

    # extracting basic body

    item['body'] = w3lib.html.remove_tags(w3lib.html.remove_tags_with_content(sel.xpath('//body').extract()[0].replace("\r\n", " "),which_ones=('script',)))


    with open('abc.txt', 'a') as f:
      f.write('body: {0}\n'.format(item['body']))

    return item

在上面的代码中，我删除了一些\r\n字符，但不是全部。

item['body'] = w3lib.html.remove_tags(w3lib.html.remove_tags_with_content(sel.xpath('//body').extract()[0].replace("\r\n", " "), which_ones=('script',)))

拉克什

尝试单独更换它们：

例如：

item['body'] = w3lib.html.remove_tags(w3lib.html.remove_tags_with_content(sel.xpath('//body').extract()[0].replace("\n", " ").replace("\r", ""),which_ones=('script',)))

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2020-11-28

我来说两句

0 条评论

登录后参与评论

上一篇：在RecyclerAdapter中的对象上获取getItem遇到麻烦

相关文章

如何从抓取的数据中删除字符为 '\n' 和 'xa0' 但保留空格？

如何从数据中删除 \r 或 \n

如何从数据帧列表中删除nrow <n的数据帧？

如何在python中删除那些\ n？

抓取网络数据时无法删除\ r \ n \ t？

如何从python中的stdout中删除\ n和\ r \ n？

Python：如何从列表中删除/删除第n个元素？

如何删除R中数据集中的前N行？

在Python中从网络抓取时获取\ r \ n \ r \ n

如何从python列表中删除u'\ n \ n \ n \ n \ n \ n \ n \ n \ n'和u'\ xa0'

如何从 Python 中的列表中删除 \n\t\r？

如何从 Python 中的文件中删除“\n”行？

如何从 Python 抓取的 URL 列表中的 URL 抓取数据？

如何使用python删除目录中的n个文件

如何从python文本列表中的文本中间删除\ n

如何使用Python从txt文件中删除最后N行？

如何删除用Python创建的列表中的悬空\ n？

使用Python进行网络抓取时如何删除熊猫数据框中的字符？

如何从 Selenium Python 中的按钮抓取数据

如何从行中删除\ n

从字典python中删除\ n

如何从网址中抓取前n个段落

如何从数据框中删除\ n并将数据移到新行

如何从抓取的数据中删除html标签和javascript函数？

如何在“ n”天后删除Firebase数据

如何删除前和后n％的数据

Python 中的数据抓取

AngularJS-从数据中删除\ n

从熊猫数据框中删除\ n的问题

TOP 榜单

文章

热门标签

归档