如何将Beautifulsoup的输出附加到熊猫数据框

wjie08

我比较陌生python我打算

a)从以下URL(https://aviation-safety.net/database/)获取URL列表,以及从1919年开始的数据(https://aviation-safety.net/database/dblist.php?Year = 1919)。

b)获取从1919年到当年的数据(日期,类型,注册,操作者,肥胖,位置,猫)

但是,我遇到了一些问题,仍然陷于a)

感谢您提供任何形式的帮助,非常感谢!

#import packages
import numpy as np
import pandas as pd
from bs4 import BeautifulSoup

#start of code
mainurl = "https://aviation-safety.net/database/"
def getAndParseURL(mainurl):
   result = requests.get(mainurl)
   soup = BeautifulSoup(result.content, 'html.parser')
   datatable = soup.find('a', href = True)


#try clause to go through the content and grab the URLs
try:
   for row in datatable:
      cols = row.find_all("|")
      if len(cols) > 1:
         links.append(x, cols = cols)
         except: pass


#place links into numpy array
links_array = np.asarray(links)
len(links_array)


#check if links are in dataframe
df = pd.DataFrame(links_array)

df.columns = ['url']
df.head(10)


我似乎无法获得网址

如果我能得到以下将会很棒

S / N URL 1 https://aviation-safety.net/database/dblist.php?Year=1919 2 https://aviation-safety.net/database/dblist.php?Year=1920 3 https://航空-safety.net/database/dblist.php?Year=1921

chitown88

您不是href要提取的标签中提取属性。您想要做的是找到所有<a>带有链接的标签(您这样做了,但是您需要使用find_allas,find它只会返回找到的第一个标签。)然后遍历这些标签。我选择只是让它寻找子字符串'Year',如果需要,将其放入列表中。

#import packages
import numpy as np
import pandas as pd
from bs4 import BeautifulSoup
import requests

#start of code
mainurl = "https://aviation-safety.net/database/"
def getAndParseURL(mainurl):
   result = requests.get(mainurl)
   soup = BeautifulSoup(result.content, 'html.parser')
   datatable = soup.find_all('a', href = True)
   return datatable

datatable = getAndParseURL(mainurl)

#go through the content and grab the URLs
links = []
for link in datatable:
    if 'Year' in link['href']:
        url = link['href']
        links.append(mainurl + url)


#check if links are in dataframe
df = pd.DataFrame(links, columns=['url'])

df.head(10)

输出:

df.head(10)
Out[24]: 
                                                 url
0  https://aviation-safety.net/database/dblist.ph...
1  https://aviation-safety.net/database/dblist.ph...
2  https://aviation-safety.net/database/dblist.ph...
3  https://aviation-safety.net/database/dblist.ph...
4  https://aviation-safety.net/database/dblist.ph...
5  https://aviation-safety.net/database/dblist.ph...
6  https://aviation-safety.net/database/dblist.ph...
7  https://aviation-safety.net/database/dblist.ph...
8  https://aviation-safety.net/database/dblist.ph...
9  https://aviation-safety.net/database/dblist.ph...

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章

如何将for循环中的.pkl文件附加到在for循环中创建的熊猫数据框?

如何将输出附加到文件?

如何将数据附加到熊猫多索引数据框

python-如何将numpy数组附加到熊猫数据框

如何使用迭代附加到多级熊猫数据框?

熊猫:如何将bin值附加回原始数据框

熊猫-使用for循环将多个列附加到数据框

Python,Pandas:如何将一系列附加到数据框

如何将唯一计数器列附加到数据框

熊猫:将数据附加到熊猫数据框的问题

如何将Modin Pandas数据框附加到其他数据框?

熊猫将数据框附加到聚合数据框

如何将元素列表附加到数据框的单个功能中?

如何将数据框的每一列附加到熊猫系列中?

如何将系列加入数据框:无法将非类别项目附加到CategoricalIndex

如何将json数据附加到数据框中并在R中更新其值?

如何使用MultiIndex将“总计”行附加到熊猫数据框

如何将python列表附加到每个包含数组的pandas数据框单元格?

如何将数据附加到元素

如何将两行附加到单个数据框中

将Numpy ndarray附加到熊猫数据框

将数据附加到熊猫数据框中

如何将标题附加到由 python 数据框创建的 csv 文件中的数据

如何将空行(用于循环输出)附加到 pyspark 中的数据帧

如何将新行附加到数据框(以前是字典)?

将数据附加到熊猫数据框

如何将数据框附加到excel

如何将新索引附加到数据框?

如何将预测概率输出附加到熊猫数据框