断句规则示例
以下规则用作定义由句点(句号)分隔的句段的断句规则例外情况。
由于它是例外情况,因此 TM 会将匹配该格式的文本视为与不包含断句符的文本部分相匹配,即使文本同时与定义断句符的更通用格式相匹配也是如此。
以下规则匹配任何包含句点(可能后面跟其他结尾标点符号)、后跟空格和小写字母的文本。
分隔符前
\.+[\p{Pe}\p{Pf}\p{Po}"]*
结束、最后和其他标点符号是指由以下代码定义的 Unicode 类别:
\p{Pe} 指定结束标点符号。
\p{Pf} 指定最后的引号。
\p{Po} 指定其他标点符号。
分隔符后
\s\p{Ll}
该正则表达式适用于空格后面跟一个小写字母的情况。
有关 Unicode 类别的更多信息,请参阅 http://msdn.microsoft.com/en-us/library/system.globalization.unicodecategory.aspx。