我在tsv文件中有300,000列，我只需要10,000列。

evan 发表于 Dev

20

埃文

它们都以“ rsid_set（variable）”开头。我几乎没有编码经验，但是一直在尝试使用R和python。有什么快速的方法来获取我想要的那些列？

跟进：有没有一种方法可以利用每一列的平均值并将其转换为具有10,000个值的正态分布？

布兰登·贝特尔森（Brandon Bertelsen）

# read in
df <- read.tsv("path/to/your/file")

# select only colnames beginning with rsid_set
df <- df[grep("^rsid_set",colnames(df)),] 

Your follow-up, I don't understand. You'll have to clarify what you want.

# Take the means of each column:
means <- colMeans(df)

# normal distribution with 10k values
norms <- rnorm(10e3)

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-04-1

我来说两句

0 条评论

登录后参与评论

上一篇：更改“ PATH”环境变量的正确方法是什么？

相关文章

Robocopy拥有300,000多个文件

表有多个记录，其中 mobileNumber 列只有几条记录。我只需要得到那些记录

如果我的 'patients' firestore 集合中有 10,000 個文檔，firesbasefiretore.collection'patients'.snapshots 會向我收取 10,000 次閱讀的費用嗎？

只需要处理我的Spark DataFrame中的特定列

我只需要基于其他列属性名称合并两行

DataTable单个列搜索，我只需要一个选择输入

我想在小于 10,000 米的 postgis 文件中显示它们的计算距离

如果我只需要对一个列应用不同的功能，是否可以应用agg函数而不列出所有列

具有 55000 行 * 1800 列的巨大文件 - 只需要删除具有部分模式的特定列

假设我的数据库中有一个+1,000,000,000,000,000的条目

递归删除idx> 10,000的文件

我只需要显示我插入的多个图像

我是否只需要包括.netrc文件即可让UNIX接管它？

如何移动代码以从我的文件中设置 ut DB 和集合并只需要它？

我只需要更改字符串中文件的颜色

我只需要运行一次此脚本文件吗？

我只需要在pyspark dataframe中追加那些具有非空值的对象

只需要一点帮助调试我的代码

我是否只需要考虑性能指标？

我只需要在 kotlin android 中打印 if 条件

我只需要处理特定选定表的列名

我的输出中只需要两位小数

我想按“ Concept_CKI”列对表进行分组，但最终输出中只需要“ Description”列，总和为“ Total Column”

除了我要排除的字符外，我只需要选择前10个字符

我应该给CNN些什么？大输入矩阵还是10,000个小输入矩阵？

如何限制与我的角度用户界面选择链接的10,000个对象的数组？

cesium 我有 10,000 個實體，我怎麼能不嘗試使用循環方法來更改它們的材料呢？

换句话说，从 Pandas Dataframe Column 中删除重复的逗号我只需要列中的文本用逗号分隔它们

在文本文件中，我只需要打印最后一个字符

TOP 榜单

文章

热门标签

归档