Quero extrair todo o texto de uma página da web específica.
Em JavaScript, o código se parece com este:
var webPage = require('webpage');
var page = webPage.create();
page.open('http://phantomjs.org', function (status) {
console.log('Stripped down page text:\n' + page.plainText);
phantom.exit();
});
Como posso executar page.plainText em Python?
Obrigado.
Se você quiser fazer isso com o Selenium, você deve selecionar o elemento "superior" e depois chamar para getText()
.
Por exemplo, em Python:
driver = webdriver.PhantomJS(executable_path='pathTo/phantomjs')
driver.get('https://en.wikipedia.org/wiki/Selenium_(software)')
el = driver.find_element_by_tag_name('body')
print(el.text)
driver.close()
Este artigo é coletado da Internet.
Se houver alguma infração, entre em [email protected] Delete.
deixe-me dizer algumas palavras