如何随机抽样所有类别的数据？

YeongHwa Jin

我有一些数据和相应的标签标签，如下所示：

data = [img1, img2, img3, ...]    # each category has 1000 samples, total data is 10000
labels = [1, 1, 2, 2, 3, 3, 4, 4, ...]    # total num of labels is 10

我要创建一个子类别有1000个样本的新子数据集，而其他类别分别有100个样本。因此，子数据集中的总数据量将为1900。（1000对900）

（我打算将子数据集用于二进制分类）

因此，我需要以相同数量随机抽取所有每个类别的数据。

我认为这与分层抽样相似，因此我尝试在scikit-learn中找到方法，但我做不到。

我怎样才能做到这一点？

尼古拉斯·格维斯（Nicolas Gervais）

我也找不到函数，所以我做了一个。

让我们创建一个伪数据集：

import numpy as np

x = np.random.choice(np.arange(10), 10_000)

现在，让我们找到索引（如果取自），它们将返回分层的样本x。

d = dict()

for val in np.unique(x):
    d[str(val)] = np.where(x == val)
    d[str(val)] = np.random.choice(d[str(val)][0], 100, replace=False)

ix = np.concatenate([values for values in d.values()])

让我们测试一下：

print(np.unique(x[ix], return_counts=True))

Out[64]: 
(array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]),
 array([100, 100, 100, 100, 100, 100, 100, 100, 100, 100], dtype=int64))

您还可以将其ix与y或任何其他数组一起使用。

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-01-22

我来说两句

0 条评论

登录后参与评论

上一篇：如何迅速将核心数据管理对象数组转换为“可识别”列表？（Xcode 11，Beta 5）

如何随机抽样所有类别的数据？

如何随机抽样所有类别的数据？

Linux的官方Adobe Flash存储库是否已过时？

用日期数据透视表和日期顺序查询

应用发明者仅从列表中选择一个随机项一次

Java Eclipse中的错误13，如何解决？

在Windows 7中无法删除文件（2）

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

套接字无法检测到断开连接

带有错误“ where”条件的查询如何返回结果？

有什么解决方案可以将android设备用作Cast Receiver？

Mac OS X更新后的GRUB 2问题

ggplot：对齐多个分面图-所有大小不同的分面

验证REST API参数

如何从视图一次更新多行（ASP.NET - Core）

尝试反复更改屏幕上按钮的位置 - kotlin android studio

计算数据帧中每行的NA

检索角度选择div的当前值

离子动态工具栏背景色

UITableView的项目向下滚动后更改颜色，然后快速备份

VB.net将2条特定行导出到DataGridView

蓝屏死机没有修复解决方案

通过 Git 在运行 Jenkins 作业时获取 ClassNotFoundException