已有的域名信息

详细实现过程如下

#!/usr/bin/env python

# -*- coding:utf-8 -*-

import requests

from bs4 import BeautifulSoup as Bs4

from urllib.parse import urlparse

headers= {

"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36"

}

#打开域名文件1.txt

def new_url():

    url_list  = []

    bo = open("1.txt","r")

    for i in bo:

        url_list.append(i.replace("\n",""))

    return(url_list)

#数据处理

def get_url():

    head_url = new_url()

    num = 0

    for i in head_url: #按行遍历数据

        num = num +1

        print("***********************************"+ i +"***********************************")

        # head_url = "https://www.tkcp.hk/"

        try:

            response = requests.get(url="http://"+i,headers=headers)

            response.encoding = 'gb2312'

            soup = Bs4(response.text,"lxml")

            # print(soup)

            htmls = soup.find_all("a") #获取页面中的所有a标签

            # print(htmls)

            urls = []

            new_urls = []

            for html in htmls:

                url = html.get("href") #获取页面中所有含"href"的字符串

                urls.append(url.replace('\n',''))

                qc_urls = set(urls)

            for url in qc_urls: #处理数据，得到域名地址

                if "http" in url:

                    res = urlparse(url)

                    # print("返回对象：", res)

                    # print("域名", res.netloc)

                    domain = res.netloc

                    new_urls.append(domain)

            qc_new_urls = set(set(new_urls))

            #print("***********************************"+num+"***********************************")

            print(set(qc_new_urls)) #去重

            for j in set(qc_new_urls):

                # print(j)

                with open("url_v1.txt","a+",encoding="utf-8") as f:

                    f.write(j+"\n")

        except Exception as e:

            print("链接无法访问")

    result_list = []

    result = open("./url_v1.txt","r")

    for r in result.readlines():

        result_list.append(r.replace("\n",""))

    for x in set(result_list): #二次数据处理，去掉重复数据

        with open("url_end_V.txt","a+",encoding="utf-8") as f:

            print(x)

            f.write(x+"\n")

if __name__=="__main__":

    get_url()

python3 获取博彩网站页面下所有域名（批量）的更多相关文章

获取博客积分排名，存入数据库，读取数据进行绘图(python,selenium,matplotlib)
该脚本的目的:获取博客的排名和积分,将抓取时间,排名,积分存入数据库,然后把最近的积分和排名信息进行绘图,查看积分或者排名的变化情况. 整个脚本的流程:是利用python3来编写,利用selnium获 ...
Python3.x：selenium获取iframe内嵌页面的源码
Python3.x:selenium获取iframe内嵌页面的源码前言在一些网页中经常会看到ifrmae/frame标签,iframe是嵌入式框架一般用来在已有的页面中嵌入另一个页面,当一个元素在 ...
Linux下-LNMP环境搭建博客网站（全过程）
通常我们所说的LNMP是指一个网站基本的组织框架,即Linux系统支持,Nginx静态服务,Mysql数据库支持以及PHP动态编程语言支持.目前Mysql数据库被Oracle数据库分析公司收购,其创始 ...
通过Iframe在A网站页面内嵌入空白页面的方式，跨域获取B网站的数据返回给A网站！
以下代码只是为演示该方法具体是如何操作的,实际的意义并不大. 其实这个方法还可以解决很多方面的跨域操作,以下两点为我工作中遇到的情况! 比如A系统中打开B系统页面的时候,获取B系统页面高度,A系统中可 ...
使用vue全家桶制作博客网站
前面的话笔者在做一个完整的博客上线项目,包括前台.后台.后端接口和服务器配置.本文将详细介绍使用vue全家桶制作的博客网站概述该项目是基于vue全家桶(vue.vue-router.vuex.v ...
转载：使用vue全家桶制作博客网站 HTML5 移动网站制作的好教程
使用vue全家桶制作博客网站前面的话笔者在做一个完整的博客上线项目,包括前台.后台.后端接口和服务器配置.本文将详细介绍使用vue全家桶制作的博客网站概述该项目是基于vue全家桶(vue. ...
[转载]关于CSDN, cnblog, iteye和51cto四个博客网站的比较与分析
CSDN:http://blog.csdn.net/ cnblog: http://www.cnblogs.com/ iteye: http://www.iteye.com/blogs/ 51cto: ...
关于CSDN, cnblog, iteye和51cto四个博客网站的比较与分析
http://blog.csdn.net/pkucl1/article/details/6629819 CSDN: http://blog.csdn.net/ cnblog: http://www ...
Django搭建博客网站(三)
Django搭建博客网站(三) 第三篇主要记录view层的逻辑和template. Django搭建博客网站(一) Django搭建博客网站(二) 结构网站结构决定我要实现什么view. 我主要要用 ...

随机推荐

行业动态 | 腾讯合作商Babylon使用Cassandra保护患者数据并提高医疗效果
医疗世界正在快速朝向个性化和低成本的方向发展,Babylon Health看到了这样的机会--通过开创性的云端应用来大幅扩张和改进他们所提供的服务. 通过使用基于Apache Cassandra的 ...
PowerShell启用多跳远程控制
有些场景下,我们使用远程连接了某个Server,在远程Server中再想进行远程操作,就会提示错误.因为默认的认证信息只会传递一跳. 对此,微软官方文档给出的解决方案是:https://docs.mi ...
MySQL 字符集及校验规则
字符集 Mysql 的字符集有4个级别的默认设置:服务器级,数据库级,表级和字段级,客户端交互时,也可以指定字符集 # 字符集:是一个系统支持的所有抽象字符的集合.字符是各种文字和符号的总称,包括各国 ...
Chapter Zero 0.1.4 计算机上常用的计算单位
0.1 计算机硬件计算机上常用的计算单位容量单位: 计算机对于数据的判断依据有没有通电来记录信息,对于每个记录而言, 他只认识0或1,而0/1这个二进制单位我们成为bit. 因为bit太小,所以存 ...
spring再学习之配置详解
applicationContext.xml文件配置: bean元素: <?xml version="1.0" encoding="UTF-8"?> ...
codeforces 1013B 【思维+并查集建边】
题目链接:戳这里转自:参考博客题意:给一个n*m的矩阵,放入q个点,这q个点之间的关系是,若已知这样三个点(x1,y1),(x2,y1),(x1,y2),可以在(x2,y2)处生成一个新的点,对于 ...
阿里巴巴java开发手册（2020版）
阿里巴巴java开发手册(2020版) 2020版链接: pan.baidu.com/s/1Zls_FUBK- 密码: titz 2019版链接: pan.baidu.com/s/1cvCVQvj ...
MDN All In One
MDN All In One https://github.com/mdn/ https://wiki.mozilla.org/MDN MDN 要凉了 https://developer.mozill ...
手把手教你使用 js 实现一个 Canvas 编辑器
手把手教你使用 js 实现一个 Canvas 编辑器拖拽缩放,等比缩放导出 image 模版撤销,重做 OOP,封装,继承,多态发布库 CI/CD (gitlab/github) ... h ...
ES6 Class vs ES5 constructor function All In One
ES6 Class vs ES5 constructor function All In One ES6 类 vs ES5 构造函数 https://developer.mozilla.org/en- ...

python3 获取博彩网站页面下所有域名（批量）

已有的域名信息

详细实现过程如下

python3 获取博彩网站页面下所有域名（批量）的更多相关文章

随机推荐

热门专题