Python tldextract模块

最新发布的 PyPI：

pip install tldextract

或者最新的开发版本：

pip install -e 'git://github.com/john-kurkowski/tldextract.git#egg=tldextract'

命令行用法，按空格分开网址：

tldextract http://forums.bbc.co.uk

# forums bbc co.uk

当第一次运行该模块时，它会用实时HTTP请求更新其后缀列表。这个更新的后缀集在无限期缓存/path/to/tldextract/.tld_set 。（可以说运行时引导类似这样不应该是默认行为，就像生产系统，但我想要你有最新的后缀，特别是当我没有保持这个代码的最新）。要避免此提取或控制缓存的位置，请通过设置后缀EXTRACT_CACHE环境变量或通过在后缀Extract初始化中设置cache_file路径来使用您自己的提取调用。

# extract callable that falls back to the included TLD snapshot, no live HTTP fetching

no_fetch_extract = tldextract.TLDExtract(suffix_list_urls=None)

no_fetch_extract('http://www.google.com')

# extract callable that reads/writes the updated TLD set to a different path

custom_cache_extract = tldextract.TLDExtract(cache_file='/path/to/your/cache/file')

custom_cache_extract('http://www.google.com')

# extract callable that doesn't use caching

no_cache_extract = tldextract.TLDExtract(cache_file=False)

no_cache_extract('http://www.google.com')

如果你想保持最新后缀定义 - 虽然他们不经常更改 - 偶尔删除缓存文件，运行更新命令

tldextract --update

或：

env TLDEXTRACT_CACHE="~/tldextract.cache" tldextract --update

也建议在升级此lib之后删除文件。

高级用法

为后缀列表数据指定自己的URL或文件

您可以指定自己的输入数据代替默认的Mozilla公共后缀列表：

extract = tldextract.TLDExtract(

 suffix_list_urls=["http://foo.bar.baz"],

 # Recommended: Specify your own cache file, to minimize ambiguities about where

 # tldextract is getting its data, or cached data, from.

 cache_file='/path/to/your/cache/file')

以上片段将与您指定的网址提取，在首先需要下载后缀列表（即如果cache_file不存在）。如果你想从你的本地文件系统使用的输入数据，只需要使用file://协议：

extract = tldextract.TLDExtract(

 suffix_list_urls=["file://absolute/path/to/your/local/suffix/list/file"],

 cache_file='/path/to/your/cache/file')

请使用绝对路径suffix_list_urls关键字参数。 os.path是友好路径。

Python tldextract模块的更多相关文章

Python tldextract模块准确获取域名和后缀
Python tldextract 模块 - 功能说明 tldextract准确地从URL的域名和子域名分离通用顶级域名或国家顶级域名. 例如,http://www.google.com,你只想取出连 ...
Python标准模块--threading
1 模块简介 threading模块在Python1.5.2中首次引入,是低级thread模块的一个增强版.threading模块让线程使用起来更加容易,允许程序同一时间运行多个操作. 不过请注意,P ...
Python的模块引用和查找路径
模块间相互独立相互引用是任何一种编程语言的基础能力.对于“模块”这个词在各种编程语言中或许是不同的,但我们可以简单认为一个程序文件是一个模块,文件里包含了类或者方法的定义.对于编译型的语言,比如C#中 ...
Python Logging模块的简单使用
前言日志是非常重要的,最近有接触到这个,所以系统的看一下Python这个模块的用法.本文即为Logging模块的用法简介,主要参考文章为Python官方文档,链接见参考列表. 另外,Python的H ...
Python标准模块--logging
1 logging模块简介 logging模块是Python内置的标准模块,主要用于输出运行日志,可以设置输出日志的等级.日志保存路径.日志文件回滚等:相比print,具备如下优点: 可以通过设置不同 ...
python基础-模块
一.模块介绍 ...
python 安装模块
python安装模块的方法很多,在此仅介绍一种,不需要安装其他附带的pip等,python安装完之后,配置环境变量,我由于中英文分号原因,环境变量始终没能配置成功汗. 1:下载模块的压缩文件解压到任意 ...
python Queue模块
先看一个很简单的例子 #coding:utf8 import Queue #queue是队列的意思 q=Queue.Queue(maxsize=10) #创建一个queue对象 for i in ra ...
python logging模块可能会令人困惑的地方
python logging模块主要是python提供的通用日志系统,使用的方法其实挺简单的,这块就不多介绍.下面主要会讲到在使用python logging模块的时候,涉及到多个python文件的调 ...

随机推荐

【HDU 1520】 Anniversary Party
[题目链接] 点击打开链接 [算法] 树形DP 令f[i][0]表示 : 以i为根的子树中,若i不参加宴会,所能获得的最大愉悦值 f[i][1]表示 : 以i为根的子树中,若i参加宴会,所能获得的最大 ...
在 SharePoint 2013 中针对地理位置字段创建地图视图
在 SharePoint 2013 中针对地理位置字段创建地图视图了解如何通过在 SharePoint 2013 列表中使用地图视图来显示位置信息.您可以通过 SharePoint 用户界面 (UI ...
【193】◀▶ PowerShell 官方资料索引
Microsoft.PowerShell.Core 模块 Windows PowerShell 核心 Cmdlet Windows PowerShell 核心函数 Windows PowerShell ...
哈理工OJ P2320：OX
题目链接:OX 题意 :给出一个3X3的黑白棋棋盘,棋盘上有若干黑白子,再给出下一个下的人,问下一个下的人能否赢分析:考虑到只有39种状态,故用一个数保存目前棋盘的状态,记为value,再枚举空位D ...
【正睿多校联盟Day4 T4 简单的数论题】
题目名有毒由于并没有系统地开始学习数论,所以数论题基本靠暴力. 然鹅本题的题解相当简单: emmm....我当你没说一个简单易懂的方法是这样的: 1. 欧拉定理的推论若正整数a,n互质,则对于任 ...
Luogu P1197 [JSOI2008]星球大战 By cellur925
题目描述很久以前,在一个遥远的星系,一个黑暗的帝国靠着它的超级武器统治者整个星系. 某一天,凭着一个偶然的机遇,一支反抗军摧毁了帝国的超级武器,并攻下了星系中几乎所有的星球.这些星球通过特殊的以太隧 ...
shiro之jdbcRealm
Shiro认证过程创建SecurityManager--->主体提交认证--->SecurityManager认证--->Authenticsto认证--->Realm验证 ...
【洛谷3822】[NOI2017] 整数（线段树压位）
题目: 洛谷 3822 分析: 直接按题意模拟,完了. 将每次加 / 减拆成不超过 \(32\) 个对单独一位的加 / 减. 考虑给一个二进制位(下称「当前位」)加 \(1\) 时,如果这一位本来就是 ...
node入门（一）——安装
node可以让我们用js写服务器.此外还可以用来前端自动化开发,它找到特定服务要使用的包,然后下载.安装.管理. 首先安装node,进入官网下载需要的node版本,然后一键式傻瓜安装.(我的环境是wi ...
AJPFX解析关于编码ansi、GB2312、unicode与utf-8的区别
大家平时遇到乱码问题是否有自己的一套解决方案?这篇文章就是介绍一下常用的编码方式关于编码ansi.GB2312.unicode与utf-8的区别先做一个小小的试验: 在一个文件夹里,把一个txt文本 ...

Python tldextract模块

高级用法

为后缀列表数据指定自己的URL或文件

Python tldextract模块的更多相关文章

随机推荐

热门专题