如何在Spark中替换转义的换行符

Geethanadh

我有一个csv，未引用，在下面添加了一个示例

如第二行所示，新行用\进行转义，有一种方法可以使用apache spark将其替换为其他字符。

输入CSV

Banana,23,Male,5,11,2017
Cat,32,Fe\
male,2,11,2017
Dragon,28,Male,1,11,2017

预期产量

Banana,23,Male,5,11,2017
Cat,32,Fe-male,2,11,2017
Dragon,28,Male,1,11,2017

注意：原始文件很大（大约40GB）

编辑1我刚刚找到一个答案，而不是“ sc.textFile”使用“ sc。WholeTextFiles”，但是鉴于我的大小太大，我不确定它是否可以提高内存效率，请告知

Geethanadh

经过一番研究和解决，这就是我来到的地方

正如@ vikrant-rana在答案中建议的那样，使用sc.textFile（）进行读取并在分区上进行映射是一种尝试的方法，但是由于我们需要合并的行可能会转到不同的分区，因此这不是一个可靠的解决方案..有时当它们位于同一分区上时可能会起作用，但并不总是起作用

我们也可以使用sc.wholeTextFiles（）将文件读入单个分区并在其上进行映射，但是那样会立即将整个文件读入内存，不适用于大文件

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2020-12-14

我来说两句

0 条评论

登录后参与评论

上一篇：如何缩小TFS 2017快速增长的tbl_content表

如何在xargs中呈现换行符转义序列？

如何在 bash 中仅替换单个换行符？

如何在Atom中替换换行符？

如何在spark scala中删除换行符

php 如何在 POST 变量中转义换行符

如何在Google Doc应用程序脚本中替换换行符或换行符（Ctrl + Enter）？

如何在spark scala中用换行符替换双引号

如何转义json的换行符？

如何在Python中替换字符串中的连字符和换行符

如何在C＃中的大文本文件中替换换行符

如何在角中用逗号替换换行符

如何在Emacs中用换行符替换字符？

如何在Python中用\ n替换通用换行符？

如何在Vim中用换行符替换字符

如何在 Ruby on Rails 中用换行符替换空格？

如何在换行输入中添加换行符

p如何在 XML 中的特定标记之间替换 \n 换行符

如何在Jinja2中用换行符替换字符串

如何在ORACLE SQL Developer中查找或替换换行符

如何在Visual Studio Code中替换文档中的每一个换行符，而不是每两个（或更多）换行符？

使用sed将换行符转义符'\ n'替换为换行符转义符'\\ n'

JavaScript用换行符替换换行符转义序列

如何在XML文件中添加换行符（换行符）？

如何在Excel中搜索换行符或换行符？

symfony2：如何在翻译中包含换行符/换行符？

如何在命令提示符中转义换行符

如何在换行符 (\) 后创建换行符

如何替换以*（星号）结尾的换行符

如何用换行符替换逗号

TOP 榜单

文章

如何在Spark中替换转义的换行符

如何在Spark中替换转义的换行符

隐藏发件人没有短信PHP

材质UI垂直滑块。如何改变在垂直材料UI滑块导轨的厚度（反应）

在Windows 7中无法删除文件（2）

HttpClient中的角度变化检测

Azure VM启动/停止日志

如何在 Vb.net 中使用函数返回多个值

Powerpoint-条形长度错误的堆积条形图

最新歌剧断断续续的快速拨号和渲染错误

Mac OS X更新后的GRUB 2问题

需要公式以vlookup逗号分隔单个单元格中的值

Hashchange事件侦听器在将事件处理程序附加到事件之前进行侦听

ggplot：对齐多个分面图-所有大小不同的分面

OS X-为什么我需要打开WiFi才能确定最近的位置

用日期数据透视表和日期顺序查询

Java Eclipse中的错误13，如何解决？

如何在Django中使用UUID

加载Microsoft Visual菜单时出现问题

具有if条件的SQL UPDATE

从JSON到JSONL的Python转换

如何在Kod中更改字体？

共享图像将路径放入地址