我在tsv文件中有300,000列,我只需要10,000列。

埃文

它们都以“ rsid_set(variable)”开头。我几乎没有编码经验,但是一直在尝试使用R和python。有什么快速的方法来获取我想要的那些列?

跟进:有没有一种方法可以利用每一列的平均值并将其转换为具有10,000个值的正态分布?

布兰登·贝特尔森(Brandon Bertelsen)
# read in
df <- read.tsv("path/to/your/file")

# select only colnames beginning with rsid_set
df <- df[grep("^rsid_set",colnames(df)),] 

Your follow-up, I don't understand. You'll have to clarify what you want.

# Take the means of each column:
means <- colMeans(df)

# normal distribution with 10k values
norms <- rnorm(10e3)

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章

Robocopy拥有300,000多个文件

表有多个记录,其中 mobileNumber 列只有几条记录。我只需要得到那些记录

如果我的 'patients' firestore 集合中有 10,000 個文檔,firesbasefiretore.collection'patients'.snapshots 會向我收取 10,000 次閱讀的費用嗎?

只需要处理我的Spark DataFrame中的特定列

我只需要基于其他列属性名称合并两行

DataTable单个列搜索,我只需要一个选择输入

我想在小于 10,000 米的 postgis 文件中显示它们的计算距离

如果我只需要对一个列应用不同的功能,是否可以应用agg函数而不列出所有列

具有 55000 行 * 1800 列的巨大文件 - 只需要删除具有部分模式的特定列

假设我的数据库中有一个+1,000,000,000,000,000的条目

递归删除idx> 10,000的文件

我只需要显示我插入的多个图像

我是否只需要包括.netrc文件即可让UNIX接管它?

如何移动代码以从我的文件中设置 ut DB 和集合并只需要它?

我只需要更改字符串中文件的颜色

我只需要运行一次此脚本文件吗?

我只需要在pyspark dataframe中追加那些具有非空值的对象

只需要一点帮助调试我的代码

我是否只需要考虑性能指标?

我只需要在 kotlin android 中打印 if 条件

我只需要处理特定选定表的列名

我的输出中只需要两位小数

我想按“ Concept_CKI”列对表进行分组,但最终输出中只需要“ Description”列,总和为“ Total Column”

除了我要排除的字符外,我只需要选择前10个字符

我应该给CNN些什么?大输入矩阵还是10,000个小输入矩阵?

如何限制与我的角度用户界面选择链接的10,000个对象的数组?

cesium 我有 10,000 個實體,我怎麼能不嘗試使用循環方法來更改它們的材料呢?

换句话说,从 Pandas Dataframe Column 中删除重复的逗号我只需要列中的文本用逗号分隔它们

在文本文件中,我只需要打印最后一个字符