在R中,对于给定的字符串-例如:
this_str <- "1. blah blah. 2. blah blah, 50 blah. 3. Blah; blah blah June 21, 2016."
我需要计算出现一位后跟一个句点的次数。我几乎可以使用完成此操作
> library(stringr)
> str_count(this_str, "[0-9]\\.")
[1] 4
但是,此代码还在2016.
最后一句的末尾计算年份。我如何修改str_count(this_str, "[0-9]\\.")
以排除此类情况。
在我的特定问题中,我知道我要计数的数字为1-9。因此,一种方法可能是修改以排除包含多个数字的数字。但不确定如何编写代码。如果有人能想到一个更通用的解决方案(要计数的数字可以有一个以上的数字),那也很好。
我们可以指定一个单词边界(\\b
),以匹配一个数字,后跟.
单词边界中的a。2016年有4位数字,并非如此
library(stringr)
str_count(this_str, "\\b[0-9]\\.")
#[1] 3
正如OP所述I know the digits I want to count will be 1-9.
,因此它应该可以工作
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句