我正在将Google表格用作网络抓取工具。
我一直在使用这个IMPORTXML
=importxml(A1, "//div[@class='review-content']//text()")
这就是结果
Row1: {"publishedDate":"2019-01-05T22:19:28Z","updatedDate":"null","reportedDate":"null}
Row2: {"publishedDate":"2018-12-10T22:19:28Z","updatedDate":"null","reportedDate":"null}
Row3: {"publishedDate":"2018-12-09T22:19:28Z","updatedDate":"null","reportedDate":"null}
但在弄清楚如何仅获取“ publishedDate”值时遇到了麻烦。例:
Row1: 2019-01-05T22:19:28Z
Row2: 2018-12-10T22:19:28Z
Row3: 2018-12-09T22:19:28Z
关于我可能缺少的任何想法
这三个样本怎么样?我从您问题的样本中想到了它们。我认为您的情况有几个答案。因此,请考虑其中的3个样本。
假定URL放在单元格“ A1”中。
=ARRAYFORMULA(MID(IMPORTXML(A1, "//div[@class='review-content']//text()"),19,20))
MID()
。=ARRAYFORMULA(INDEX(SPLIT(IMPORTXML(A1, "//div[@class='review-content']//text()"),"""",TRUE,TRUE),,4))
SPLIT()
和检索INDEX()
。=ARRAYFORMULA(REGEXEXTRACT(IMPORTXML(A1, "//div[@class='review-content']//text()"),"publishedDate"":""(\w.+?)"""))
REGEXEXTRACT()
。如果这些不是您想要的结果,我深表歉意。那时,为了正确地复制您的情况,您能否按照@Rubén的说明提供所使用的URL ?
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句