我正在为学术研究抓取公开可用的数据。不过,我从中提取信息的网站有一个非常烦人的日期选择器。我不确定他们是否实施此措施以阻止私营公司抓取犯罪数据,但这似乎很愚蠢。
这是网址。
我可以用我的机构凭证绕过验证码,仅供参考。
您可以在下面看到代码 - 减去登录信息:
#Miami Scraper
rm(list=ls())
remDr$close()
rm(rD)
gc()
rm(list=ls())
setwd("~/Desktop/Miami Scrape")
library(httr)
library(rvest)
library(zoo)
library(anytime)
library(lubridate)
library(dplyr)
library(RSelenium)
browser <- remoteDriver(port = 5556, browserName = "firefox")
remDr<-browser[["client"]]
url <- "https://www2.miami-dadeclerk.com/PremierServices/login.aspx"
rD <- rsDriver(verbose=FALSE,port=4444L,browser="firefox")
remDr <- rD$client
remDr$navigate(url)
#Click the Logging In Option
#Log-in stuff happens here
url2 <- "https://www2.miami-dadeclerk.com/cjis/casesearch.aspx"
remDr <- rD$client
remDr$navigate(url2)
#Here, you will read in the sheets. Let's start with a handful
date <- c("02", "01", "01")
sequence <- c("030686","027910","014707")
seqbar <- remDr$findElement("id","txtCaseNo3")
seqbar$sendKeysToElement(list(sequence[1]))
type <- remDr$findElement("id","ddCaseType")
type$clickElement()
type$sendKeysToElement(list("F","\n"))
yearbar <- remDr$findElement("id","txtCaseNo2")
yearbar$clearElement()
prev <- remDr$setTimeout("2000")
yearbar$sendKeysToElement(list(date[1]))
总是,日期选择器默认为 19 但这不是系统的。我才刚刚开始开发代码,但我注意到如果连续两次搜索使用相同的案例信息,它会定期从“02”切换到“19”。如果我切换到另一个案例,它可能也不起作用。我不确定如何处理这个日期选择器。任何帮助将不胜感激。
我已经尝试了几件事。如您所见,我也尝试清除默认值并减慢我的代码。那似乎行不通。
还有最后一个注意事项,如果您逐行运行代码,它可以工作,但一次执行将无法正常运行。
我无法使用 R 进行测试,因为似乎无法设置 RSelenium,但是更改年份输入框的 value 属性似乎有效。在 R 中,似乎有两种方法可以做到这一点。
无法测试,但类似于:
year <- '02'
#method 1 using inbuilt method which executes js under hood
remDr$findElement('id','txtCaseNo2')$setElementAttribute('value',year)
#method 2 js direct
js <- paste0("document.querySelector('#txtCaseNo2').value='", year,"';")
remDr$executeScript(js)
无论如何,可能足以让您走上解决方案的轨道。
我成功地用 Python 测试了类似的版本
from selenium import webdriver
d = webdriver.Chrome()
d.get('https://www2.miami-dadeclerk.com/cjis/casesearch.aspx?AspxAutoDetectCookieSupport=1')
case_nums = ["030686"]
year = '02'
d.execute_script("document.querySelector('#txtCaseNo2').value='" + year + "';")
# d.execute_script("arguments[0].value = '02';", d.find_element_by_id('txtCaseNo2'))
d.find_element_by_id('txtCaseNo3').send_keys(case_nums[0])
d.find_element_by_css_selector('[value=F]').click()
captcha = input()
d.find_element_by_id('CaptchaCodeTextBox').send_keys(captcha)
d.find_element_by_id('btnCaseSearch').click()
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句