我正在处理法律引用。我想将引文分成四个部分。引文的一般格式如下:ABC v. DEF [Year] 引文数据(权威) 所以,我想把它分成四个部分 - ABC v. DEF、年份、引文数据和权威。问题是第一部分(即 ABC v. DEF)可能有额外的圆括号,而第三部分(即引文数据)可能有额外的方括号和/或圆括号。例如,在以下这种情况下
"Lubrizol Corporation, USA v. Asstt. DIT (International Taxation) [2013] 33 taxmann.com 424/60 SOT 118 (URO) (Mum. Trib.)"
第一部分是"Lubrizol Corporation, USA v. Asstt. DIT (International Taxation)"
,第二部分是"2013"
,第三部分是"33 taxmann.com 424/60 SOT 118 (URO)"
,最后一部分是"Mum. Trib."
我无法想出正确的正则表达式来做到这一点。谁能帮我解决这个问题?
使用extract
:
library(tidyr)
data.frame(txt) %>%
extract(txt,
into = c("First", "Sec", "Thrd", "Frth"),
regex = "(.+)\\[(\\d+)\\](.*)\\((.*)\\)")
First Sec Thrd Frth
1 Lubrizol Corporation, USA v. Asstt. DIT (International Taxation) 2013 33 taxmann.com 424/60 SOT 118 (URO) Mum. Trib.
该regex
部分看起来比实际更可怕:您只需完整地描述字符串,将您希望提取的部分包装到括号中(用于捕获组的语法)
数据:
txt <- "Lubrizol Corporation, USA v. Asstt. DIT (International Taxation) [2013] 33 taxmann.com 424/60 SOT 118 (URO) (Mum. Trib.)"
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句