URL处理----拼接和编码

ps：浪了好几周，我的锅。。。

前几天想爬取一个用户网站自动创建每个用户的资料方便注册一些账号，想写一个通用点的爬虫程序爬取只要配置一些爬取规则、爬取深度就ok，避免代码改动，由于时间关系只完成的个半成品，后面在考虑是用xml文件作为配置文件，还是简单的使用.ini文件，后者虽然简单但局限性太大，所以，，，偷几天懒顺便重新考虑下逻辑。

==================================================================================================================================================

既然想通用一些，那url的一些处理必不可少，如拼接、中文编码和空格编码等问题，从网上找了下比较琐碎，所以自己简单封装了一个，主要处理了下url拼接和中文编码的问题。

运行环境：python3 、pycharm编辑器

代码如下：

 # -*- coding: utf-8 -*-

 # au: cpy

 #

 # url拼接和编码问题

 import re

 from urllib.parse import urljoin,quote

 def check_zh(word):

     list_zh = re.findall('[\u4e00-\u9fa5]+',word)  # 正则匹配存在的中文

     if list_zh:

         for zh in list_zh:

             word = re.sub(zh,quote(zh),word)

             # print(word)

     return word

 def checkUrl(domain, url): # domain：域名

     if type(url) is not str and hasattr(url, "decode"):

         url = url.decode()

     if not url.startswith("http"):

         url = urljoin(domain, url)

     url = check_zh(url)

     return url

 if __name__ == '__main__':

     domain = "https://www.baidu.com/"

     # postfix_url  = "s?ie=UTF-8&wd=python3判断字符串中是否有中文"

     url  = "s?ie=UTF-8&wd=python3判断字符串中是否有中文"

     print(url)

     print(checkUrl(domain, url))

     '''

     结果：

     s?ie=UTF-8&wd=python3判断字符串中是否有中文

     https://www.baidu.com/s?ie=UTF-8&wd=python3%E5%88%A4%E6%96%AD%E5%AD%97%E7%AC%A6%E4%B8%B2%E4%B8%AD%E6%98%AF%E5%90%A6%E6%9C%89%E4%B8%AD%E6%96%87

     '''

ps: 代码在pycharm编辑器中正常运行，其它方式运行可能会提示存在编码问题

URL处理----拼接和编码的更多相关文章

url中拼接中文参数，后台接收为乱码的问题
遇到在URL中拼接中文的参数,后台拿到的数据为乱码的问题,这里来说一下问题出现的原因与解决方法. 大家比较关心的应该是解决的方法,因此先说解决方法. 解决方法解决的方法是在客户端对这个中文参数进行编 ...
URL安全的Base64编码
Base64编码可用于在HTTP环境下传递较长的标识信息.在其他应用程序中,也常常需要把二进制数据编码为适合放在URL(包括隐藏表单域)中的形式.此时,采用Base64编码不仅比较简短,同时也具有不可 ...
vue获得当前页面URL动态拼接URL复制邀请链接方法
vue获得当前页面URL动态拼接URL复制邀请链接方法当前页面完整url可以用 location.href路由路径可以用 this.$route.path路由路径参数 this.$route.par ...
iOS - 网址、链接、网页地址、下载链接等正则表达式匹配(解决url包含中文不能编码的问题)
DNS规定,域名中的标号都由英文字母和数字组成,每一个标号不超过63个字符,也不区分大小写字母.标号中除连字符(-)外不能使用其他的标点符号.级别最低的域名写在最左边,而级别最高的域名写在最右边.由多 ...
网址URL中特殊字符转义编码
网址URL中特殊字符转义编码字符 - URL编码值空格 - %20" - %22# - %23% - %25& - %26( - %28) - %29+ - %2B, - %2C/ ...
controller中的路径明明书写正确，浏览器中访问的url也拼接正确，但报404
Bug:controller中的路径明明书写正确,浏览器中访问的url也拼接正确,但报404 原因一:由于路由地址对应的处理方法存在同名而造成的,此时应该检查controller的方法们,看看有没有同 ...
scrapy爬取数据的基本流程及url地址拼接
说明:初学者,整理后方便能及时完善,冗余之处请多提建议,感谢! 了解内容: Scrapy :抓取数据的爬虫框架异步与非阻塞的区别异步:指的是整个过程,中间如果是非阻塞的,那就是异步 ...
JavaScript中URL的解码和编码
这些URI方法encodeURI.encodeURIComponent().decodeURI().decodeURIComponent()代替了BOM的escape()和unescape()方法. ...
iOS URL中汉字的编码和解码
发现NSString类中有内置的方法可以实现.他们分别是: - (NSString *)stringByAddingPercentEscapesUsingEncoding:(NSStringEncod ...

随机推荐

Python的运用基础3
1. 简述执行Python程序的两种方式以及他们的优缺点? 交互式(jupyter) 优点:运行一句执行一句缺点:关闭即消失 ==例如== win10系统cmd窗口命令行式(Pycharm) 优点 ...
window系统下的pycharm对虚拟机中的Ubuntu系统操作MySQL数据库
问题:程序员和数据库的爱情故事:程序为了追一个叫MySQL数据库的姑娘,先苦练功夫,自己模拟泡妹过程积累经验,于是想到一个解决方法:[解决虚拟机跑需要连接数据库的程序卡的问题,通过在物理机Window ...
各版本mysql修改root密码
今天在安装mysql5.7.8的时候遇到一些问题,首当其冲便的是初始root密码的变更,特分享解决方法如下: 1.mysql5.7会生成一个初始化密码,而在之前的版本首次登陆不需要登录. shell& ...
2019 SDN阅读作业（2）
1.过去20年中可编程网络的发展可以分为几个阶段?每个阶段的贡献是什么? 可编程网络的发展可以分为以下三个阶段: (1)主动网络(Active networking,20世纪90年代中期到21世纪初) ...
【正则】day01
正则表达式一.概述验证网络爬虫. 概念: 具有语法格式的字符串. 函数 PCRE 1.perl语言正则语法兼容.(java c) 2.速度快,效率高. P ...
Paper | Densely Connected Convolutional Networks
目录黄高老师190919在北航的报告听后感故事背景网络结构 Dense block DenseNet 过渡层成长率瓶颈层细节实验发表在2017 CVPR. 摘要 Recent work ...
在windows上搭建git服务器教程
1.首先,需要确保windows系统上安装并配置了Java运行环境,JDK>=1.7. 2.下载Gitblit,下载地址:http://www.gitblit.com/ 3.解压缩下载的压缩包即 ...
记一次Lua语言中死循环查错
前言如果在Lua语言中某一处死循环了!你特么的怎么去查出这特么的该死的循环到底在特么的哪里!!! 重现步骤一打开技能界面,整个游戏就卡死不动了开始排查查看一下cpu占用率,unity占用60% ...
redis-5.0.5.tar.gz 安装
参考5.0安装,地址:https://my.oschina.net/u/3367404/blog/2979102 前言安装Redis需要知道自己需要哪个版本,有针对性的安装. 比如如果需要redis ...
1+x证书Web前端开发CSS3详细教程
web 前端开发之 CSS3 新特性 http://blog.zh66.club/index.php/archives/189/ web 前端开发之 html5 新特性 http://blog.zh6 ...

URL处理----拼接和编码

URL处理----拼接和编码的更多相关文章

随机推荐

热门专题