文本解析过程中常出现异常字符,如:
\xe42b61d592.PDF,\n\xbc\xb0情定折现率R:RRd1
保留常用标点符号、中文、英文、数字的方式
str1 = '体评\xe42b61d592.PDF,\n\xbc\xb0情定折-现率R:RRd1TWdReWe式中 :‘'
gsub('[^\u4E00-\u9FA5A-Za-z0-9_,.;:‘’“”,。;:《》—\\-]', '', str1)
## [1] "体评2b61d592.PDF,情定折-现率R:RRd1TWdReWe式中:‘"
# [1] "体评2b61d592.PDF,情定折-现率R:RRd1TWdReWe式中:‘"