Ich versuche, eine zufällige Teilstichprobe von 5000 Zeilen aus einer CSV-Datei zu generieren, die Zehntausende von Zeilen enthält. Der df enthält zwei Spalten: 'JPG' und 'NAME'.
Ich habe eine zufällige Teilstichprobe mit dem folgenden Code generiert:
import pandas as pd
file = pd.read_csv(r'C:\filepath\data.csv', usecols = [7, 8])
sample = file.sample(n=5000)
print(sample)
Jetzt möchte ich jedoch dasselbe tun, aber eine for-Schleife einfügen, die dies kann, während alle Zeilen mit der Zeichenfolge 't3' in der Spalte 'NAME' übersprungen werden .
Hier bin ich, aber ich kämpfe darum, dass es funktioniert:
import pandas as pd
file = pd.read_csv(r'C:\filepath\data.csv', usecols = [7, 8])
sample = file.sample(n=5000)
for num in sample:
if sample.loc[sample['NAME'] == 't3']:
continue
print(sample)
Jede Hilfe hierzu wäre sehr dankbar.
Danke, R.
Warum filtern Sie nicht NAME
vorher alle Zeilen mit dem t3 heraus? Mögen:
import pandas as pd
file = pd.read_csv(r'C:\filepath\data.csv', usecols = [7, 8])
file_without_t3 = file[file['NAME'] != 't3']
sample = file_without_t3.sample(n=5000)
print(sample)
Dieser Artikel stammt aus dem Internet. Bitte geben Sie beim Nachdruck die Quelle an.
Bei Verstößen wenden Sie sich bitte [email protected] Löschen.
Lass mich ein paar Worte sagen