PYTHON-BEAUTIFULSOUP如何将空TD（表数据）刮取为空值而不是跳过它

Code_Journey_4_Fun

我想将网页抓取到4列csv文件中，并且某些表数据不包含任何数据，并且我想将其写为空单元格值，而不是使用跳过.text。我还试图用.string ，但它给我TypeError: can only concatenate str (not "NoneType") to str我也想设定一个动态的发现得到，如果<td>有<a href>则追加<a>如果标签数据没有，追加是什么<td>，但写出来为空（或文本“无”）值，如果<td>有没有数据。您可以在下面看到HTML示例。

from urllib.request import urlopen as uReq
from bs4 import BeautifulSoup as soup

my_url = 'https://www.example.com'

# opening up connection, grabbing the page
uClient = uReq(my_url)

page_soup = soup(uClient.read(), "lxml")
uClient.close()

# containers = page_soup.find("table", {"class": "typetable"}).find_all("tr",{"class":"typetable"})
# container = containers[0]

containers = page_soup.find_all("tr", {"class": "typetable"})

# print(containers.td)

tds = []

out_filename = "output.csv"

headers = "Parameter,Type_Value,Cardinality,Description \n"

f = open(out_filename, "w")
f.write(headers)

parameter = []
type_value = []
cardinality = []
description = []

for container in containers:

    parameter = container.findAll('td')[0].text
 
    type_value = container.find_all('td')[1].text

    cardinality = container.find_all('td')[2].text

    description = container.find_all('td')[3].text


    print("parameter: " + parameter + "\n")
    print("type_value: " + type_value + "\n")
    print("cardinality: " + cardinality + "\n")
    print("description: " + description + "\n")

    #f.write(parameter + ', ' + type_value + ', ' + cardinality + ', "' + description + ' "\n')
    f.write(f'{parameter},{str(type_value)},{cardinality},"{description}"\n')

f.close()

这是一个示例html：

<tr class="typetable">
  <td>Data 1&nbsp;</td>
  <td>Data 2&nbsp;</td>
  <td>&nbsp;</td>
  <td>Data 4&nbsp;</td>
</tr>
<tr class="typetable">
  <td>Data 10&nbsp;</td>
  <td>
     <a href="#2ndPage">2ndPage</a>"&nbsp;"
  </td>
  <td>Data 3&nbsp;</td>
  <td>&nbsp;</td>
</tr>

我希望输出显示

Parameter,Type_Value,Cardinality,Description
Data 1,Data 2,,"Data 4"
Data 1,2ndPage,Data 3,

我已经在stackoverflow上测试和查找示例了几个星期了:(，请帮助。在此先感谢！

安德烈·凯斯利（Andrej Kesely）

您可以使用此脚本从表中提取数据：

import csv
from bs4 import BeautifulSoup


txt = '''<tr class="typetable">
  <td>Data 1&nbsp;</td>
  <td>Data 2&nbsp;</td>
  <td>&nbsp;</td>
  <td>Data 4&nbsp;</td>
</tr>
<tr class="typetable">
  <td>Data 10&nbsp;</td>
  <td>
     <a href="#2ndPage">2ndPage</a>"&nbsp;"
  </td>
  <td>Data 3&nbsp;</td>
  <td>&nbsp;</td>
</tr>'''

soup = BeautifulSoup(txt, 'html.parser')

all_data = []
for row in soup.select('tr.typetable'):
    tds = [td.a.get_text(strip=True) if td.a else td.get_text(strip=True) for td in row.select('td')]
    all_data.append(tds)


with open('data.csv', 'w', newline='') as csvfile:
    writer = csv.writer(csvfile, delimiter=',', quotechar='"', quoting=csv.QUOTE_MINIMAL)
    writer.writerow(['Parameter','Type_Value','Cardinality','Description'])
    for row in all_data:
        writer.writerow(row)

写道data.csv：

Parameter,Type_Value,Cardinality,Description
Data 1,Data 2,,Data 4
Data 10,2ndPage,Data 3,

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-01-25

我来说两句

0 条评论

登录后参与评论

TOP 榜单

文章

PYTHON-BEAUTIFULSOUP如何将空TD（表数据）刮取为空值而不是跳过它

PYTHON-BEAUTIFULSOUP如何将空TD（表数据）刮取为空值而不是跳过它

Android Studio Kotlin：提取为常量

IE 11中的FormData未定义

计算数据帧R中的字符串频率

如何在R中转置数据

如何使用Redux-Toolkit重置Redux Store

Excel 2016图表将增长与4个参数进行比较

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

未捕获的SyntaxError：带有Ajax帖子的意外令牌u

OpenCv：改变 putText() 的位置

ActiveModelSerializer仅显示关联的ID

算术中的c ++常量类型转换

如何开始为Ubuntu开发

将加号/减号添加到jQuery菜单

去噪自动编码器和常规自动编码器有什么区别？

获取并汇总所有关联的数据

OpenGL纹理格式的颜色错误

在 React Native Expo 中使用 react-redux 更改另一个键的值

http：// localhost：3000 /＃！/为什么我在localhost链接中得到“＃！/”。

TreeMap中的自定义排序

Redux动作正常，但减速器无效

如何对treeView的子节点进行排序