【转】Python处理HTML转义字符】的更多相关文章

Python处理HTML转义字符 转 [http://www.cnblogs.com/xuxn/archive/2011/08/12/parse-html-escape-characters-in-python.html] 抓网页数据经常遇到例如>或者 这种HTML转义符,抓到字符串里很是烦人. 比方说一个从网页中抓到的字符串 html = '<abc>' 用Python可以这样处理: import HTMLParser html_parser = HTMLParser.HTMLPars…
Python语法的转义字符 转义字符 说 明 \ 续行符 \n 换行符 \0 空  \t 水平制表符,用于横向跳到下一制表位 \'' 双引号 \' 单引号 \\ 一个反斜杠 \f 换页 \0dd 八进制数,dd 代表字符,如\012 代表换行 \xhh 十六进制数,hh 代表字符,如\x0a 代表换行…
Python转义字符同C语言的转义字符…
在Pycharm里使用转义字符\r和在IDLE里使用\r产生的结果是不一样的. 例子如下: print("你好!\r我是Python!") 输出结果为: 我是Python! 前面的“你好!"不见了. 而在IDLE里输入同样的语句,输出的结果则为: 你好!我是Python! 这个问题让我一度纠结很久,在查阅资料之后得到如下解释: \n  和  \r 都是特殊控制符,这些都是来自于老式电传打字机的功能. \n 是newline开个新行. \r 是Carriage return, …
当我们需要在字符中添加特殊符号时,我们需要用\(即反斜杠来转义字符) 常用的转义字符: 注:如果不想转义添加的特殊字符,需要显示字符串原来的意思的时候,需要用r或R来定义 结果是这样的…
抓网页数据经常遇到例如>或者 这种HTML转义符,抓到字符串里很是烦人. 比方说一个从网页中抓到的字符串: html = '<abc>' 用Python可以这样处理: import HTMLParser html_parser = HTMLParser.HTMLParser() txt = html_parser.unescape(html) #这样就得到了txt = '<abc>' 如果还想转回去,可以这样: import cgi html = cgi.escape(txt…
r"hi" 这里字符串前面加了r,是raw的意思,它表示对字符串不进行转义.为什么要加这个?你可以试试print "\bhi"和r"\bhi"的区别. >>> print "\bhi" hi >>> print r"\bhi" \bhi 可以看到,不加r的话,\b就没有了.因为python的字符串碰到""就会转义它后面的字符.如果你想在字符串里打&qu…
转义字符 描述 \(在行尾时) 续行符 \\ 反斜杠符号 \’ 单引号 \” 双引号 \a 响铃 \b 退格(Backspace) \e 转义 \000 空 \n 换行 \v 纵向制表符 \t 横向制表符 \r 回车 \f 换页 \oyy 八进制数yy代表的字符,例如:\o12代表换行 \xyy 十进制数yy代表的字符,例如:\x0a代表换行 \other 其它的字符以普通格式输出…
"abc\n" 前面加 r,表示原生输出,不转义.实际上是用 \代替 \\,其实是已经转义过了,并不是不转义. 看这个例子: print(r"abc \n") => abc \n 相当于 print("abc \\n") => abc \n 也就是说这里 r"abc \n" <=> "abc \\n" 但是也有例外,print(r"\") 中的引号会被转义,表达式…
在前面的章节中,我们曾经简单学习过转义字符,所谓转义,可以理解为“采用某些方式暂时取消该字符本来的含义”,这里的“某种方式”指的就是在指定字符前添加反斜杠 \,以此来表示对该字符进行转义. 举个例子,在 Python 中单引号(或双引号)是有特殊作用的,它们常作为字符(或字符串)的标识(只要数据用引号括起来,就认定这是字符或字符串),而如果字符串中包含引号(例如 'I'm a coder'),为了避免解释器将字符串中的引号误认为是包围字符串的“结束”引号,就需要对字符串中的单引号进行转义,使其在…