Pullword 分词工具

    def get_response(self, txt):

        """ 热词工具 """

        datas = []

        request_lists = []

        # 筛选文本

        with open(txt,'r', encoding='utf8') as f:

            for line in f:

                data_one = line.strip()

                if data_one:

                    datas.append(data_one)

        url = 'http://www.pullword.com/process.php'

        headers = {

            "Connection": "keep-alive",

            "User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:64.0) Gecko/20100101 Firefox/64.0"

        }

        for data in datas:

            FromData = {

                'source': data,

                'param1': 1,

                'param2': 0

            }

            try:

                response = requests.post(url, headers=headers, data=FromData)

            except:

                print("热词 {} 请求有误...".format(data))

            else:

                content = response.text

                content = (content.split('SAMEORIGIN')[1]).strip()  # 去除空格

                contents = content.split('\r\n')  # 获取单词list

                request_lists.extend(contents)  # 将其合并

        return request_lists  # 返回list

Pullword 分词工具的更多相关文章

中文分词工具探析（二）：Jieba
1. 前言 Jieba是由fxsjy大神开源的一款中文分词工具,一款属于工业界的分词工具--模型易用简单.代码清晰可读,推荐有志学习NLP或Python的读一下源码.与采用分词模型Bigram + H ...
中文分词工具探析（一）：ICTCLAS (NLPIR)
1. 前言 ICTCLAS是张华平在2000年推出的中文分词系统,于2009年更名为NLPIR.ICTCLAS是中文分词界元老级工具了,作者开放出了free版本的源代码(1.0整理版本在此). 作者在 ...
☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆AnalyzerTool分词工具.非常实用!
AnalyzerTool分词工具.非常实用! 可以查看某串字符最终被分割成什么样子,这样便于查询时深刻明白为什么有的查不到有的却能查到. package com.isoftstone.www.tool ...
开源中文分词工具探析（三）：Ansj
Ansj是由孙健(ansjsun)开源的一个中文分词器,为ICTLAS的Java版本,也采用了Bigram + HMM分词模型(可参考我之前写的文章):在Bigram分词的基础上,识别未登录词,以提高 ...
开源中文分词工具探析（四）：THULAC
THULAC是一款相当不错的中文分词工具,准确率高.分词速度蛮快的:并且在工程上做了很多优化,比如:用DAT存储训练特征(压缩训练模型),加入了标点符号的特征(提高分词准确率)等. 1. 前言 THU ...
开源中文分词工具探析（五）：FNLP
FNLP是由Fudan NLP实验室的邱锡鹏老师开源的一套Java写就的中文NLP工具包,提供诸如分词.词性标注.文本分类.依存句法分析等功能. [开源中文分词工具探析]系列: 中文分词工具探析(一) ...
开源中文分词工具探析（五）：Stanford CoreNLP
CoreNLP是由斯坦福大学开源的一套Java NLP工具,提供诸如:词性标注(part-of-speech (POS) tagger).命名实体识别(named entity recognizer ...
Java实现敏感词过滤 - IKAnalyzer中文分词工具
IKAnalyzer 是一个开源的,基于java语言开发的轻量级的中文分词工具包. 官网: https://code.google.com/archive/p/ik-analyzer/ 本用例借助 I ...
php分词工具scws
分词工具 sphinx 支持php版本5.2.2~6.0因此选用scws 文档地址 http://www.xunsearch.com/scws/docs.php#instscws 简单的demo ...

随机推荐

elasticsearch.in.sh优化内存
elasticsearch.in.sh文件主要是内存优化 ES_MIN_MEM=24g(24g是物理内存的一半) ES_MAX_MEM=24g ES调优: 1.Java层面的调优,加大JVM的可用内存 ...
scrapy面试一
1.动态加载又对及时性要求很高怎么处理? Selenium+Phantomjs 尽量不使用 sleep 而使用 WebDriverWait 2.分布式爬虫主要解决什么问题? (1)ip (2)带宽 ( ...
Android内核sys_setresuid() Patch提权（CVE-2012-6422）
让我们的Android ROOT,多一点套路. 一.简单套路 CVE-2012-6422的漏洞利用代码,展示了另一种提权方法.(见附录) 这也是一个mmap驱动接口校验导致映射任意内核地址的洞.将内核 ...
创建文件夹c++
linux #include <sys/types.h> #include <sys/stat.h> string filepath; mkdir(filepath.c_str ...
【leetcode】53-MaximumSubarray
problem MaximumSubarray code class Solution { public: int maxSubArray(vector<int>& nums) { ...
MySQL中的存储过程和函数使用详解
一.对待存储过程和函数的态度在实际项目中应该尽量少用存储过程和函数,理由如下: 1.移植性差,在MySQL中的存储过程移植到sqlsever上就不一定可以用了. 2.调试麻烦,在db中报一个错误和在 ...
HDU5658：CA Loves Palindromic （回文树,求区间本质不同的回文串数）
CA loves strings, especially loves the palindrome strings. One day he gets a string, he wants to kno ...
20155219 2016-2017-2 《Java程序设计》第6周学习总结
20155219 2016-2017-2 <Java程序设计>第6周学习总结教材学习内容总结串流设计 1.串流:Java将输入/输出抽象化为串流,数据有来源及目的地,衔接两者的是串流对 ...
pc端复制方法
dom结构如下: <div id="btn">复制</div> <input id="content" type="te ...
第15次Scrum会议(10/27)【欢迎来怼】
一.小组信息队名:欢迎来怼小组成员队长:田继平成员:李圆圆,葛美义,王伟东,姜珊,邵朔,冉华小组照片二.开会信息时间:2017/10/27 17:20~17:45,总计25min. 地点 ...

Pullword 分词工具

Pullword 分词工具的更多相关文章

随机推荐

热门专题