名前のリストを入力として使用してGoogle検索でウェブスクレイピングを実行し、DataFameでデータセットを取得しようとしています。以前はWebスクレイピングにセレンを使用していましたが、ループを使用して名前のリストを入力として実行し、結果を取得して各ページをスクレイピングする構文を構築するのに苦労しています。これが私のPythonコードです:
baseUrl = 'https://www.google.com/search?q='
pluseUrl = input('CEO: ')
url = baseUrl + quote_plus(pluseUrl)
browser = webdriver.Chrome(r"C:\Users\...\chromedriver.exe")
browser.get(url)
table = browser.find_elements_by_css_selector('div.ifM9O')
df = pd.DataFrame(columns = ['ceo', 'value'])
values =[]
for row in table:
ceo = str(([c.text for c in row.find_elements_by_css_selector('div.kno-ecr-pt.PZPZlf.gsmt.i8lZMc')])).strip('[]').strip("''")
value = str(([c.text for c in row.find_elements_by_css_selector('div.Z1hOCe')])).strip('[]').strip("''")
ceo = pd.Series(ceo)
value = pd.Series(value)
df = df.assign(**{'ceo': ceo, 'value': value})
print(df)
そして、これがビル・ゲイツを入力として入れた後の結果です:
CEO: Bill gates
ceo value
0 Bill Gates Born: October 28, 1955 (age 64 years), Seattle...
任意の提案や推奨事項をいただければ幸いです。
これを試して:
baseUrl = 'https://www.google.com/search?q='
browser = webdriver.Chrome(r"C:\Users\...\chromedriver.exe")
input_list = ["Bill Gates", "Elon Musk", "Warren Buffet"]
output = {}
def scrape_ceo_list(list_of_ceo):
for ceo in list_of_ceo:
browser.get(baseUrl + ceo)
// query selectors, dataframes etc as per original code
// ...
output[ceo] = df
output
は、CEO名を辞書キーとして使用したデータフレームの辞書になりました。
この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。
侵害の場合は、連絡してください[email protected]
コメントを追加