我来自R(和SAS),在读取大量.txt文件(都存储在同一目录中)并在熊猫中创建一个大数据框时遇到问题。到目前为止,我已经尝试过合并代码-所有这些都不幸失败了。我认为这是一个简单的任务,但缺乏python的经验...
如果有帮助,我将使用以下数据创建一个大型数据框:http ://www.ssa.gov/oact/babynames/limits.html-特定于状态的集合(总共50个,以其状态缩写命名)。文本)
请帮忙!
import pandas as pd
import glob
filelist = glob.glob("C:\Users\Dell\Downloads\Names\*.txt")
names = ['state', 'gender', 'year', 'name', 'count']
然后,我正在考虑使用pd.concat,但不确定-本质上我想读取每个数据集,然后将它们绑定在一起(假设它们都具有相同的列)。
concat很不错,因为默认情况下“ join”被设置为“ outer”(即索引的并集)。您可以轻松地使用df.join(),但必须将“如何”指定为“外部”。无论哪种方式,您都可以非常简单地构建数据框:
import pandas as pd
from glob import glob as gg
data = pd.DataFrame()
names = ['state', 'gender', 'year', 'name', 'count']
for f in gg('*.txt'):
tmp = pd.read_csv(f,columns=names)
data = pd.concat([data,tmp],axis=0,ignore_index=True)
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句