百度词汇检索，计算PMI值

'''词汇检索百度返回值,并且计算PMI值的类'''

from bs4 import BeautifulSoup

import requests

import re

import pandas as pd

import time

import numpy as np

class PMI():

    def __init__(self):

        self.url = 'https://www.baidu.com/s?wd='

        #self.vocab = vocab

    def getHtml(self, url):  # 只输入URL的主体部分，后面的参数用下面的字典附加上

        '''注意这里必须加一个user-Agent,不然request发送请求是是以Python名义发送的，百度知道是Python发的就不给你返回需要的内容，伪装一下'''

        try:

            header = {

                "User-Agent": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.81 Safari/537.36",

            }

            r = requests.get(url, headers=header)

            r.raise_for_status()

            r.encoding = 'utf-8'

            return r.text

        except:

            print('爬取失败')

    def getNum(self, html):  # 返回搜索的数字

        soup = BeautifulSoup(html, 'html.parser')

        content = soup.find_all('span', {

            'class': 'nums_text'})  # 返回内容为   <span class="nums_text">百度为您找到相关结果约100,000,000个</span>

        num = re.findall(r'[\d+,*]+', content[0].string)[

            0]  # 返回我们需要的搜索次数，内容是字符串型的数字.形如'100,000,000'，数字内部包含逗号，下一步需要剔除掉逗号

        return int(re.sub(r',', '', num))  # 将逗号替换掉，并强制转换为整数

    def retrieveNum(self, vocab):  # url主体和爬取网页的数量

        url = self.url + vocab

        html = self.getHtml(url)

        num = self.getNum(html)

        return num

    def getPmi(self,vocab):

        n_p = 100000000

        n_f = self.retrieveNum(vocab)

        n_pf = self.retrieveNum(' '.join(['手机', vocab]))

        # print(' '.join(['手机',word]))

        # print(n_pf)

        pmi = np.log10(n_pf / (n_p * n_f))

        return pmi

    def getPmiList(self,words_list):#返回输入词列表的pmi值,以列表形式

        pmi_list=[]

        for i in words_list:

            pmi_list.append(self.getPmi(i))

        return pmi_list

if __name__ =='__main__':

    time_start = time.time()

    url = 'https://www.baidu.com/s?wd='

    #print(getHtml( url+'爸爸'))

    # file=pd.DataFrame(columns=name,data=comm)

    # file.to_csv('D:/machinelearning data/crawlerData/huaWei_P20_JD100-110.csv',index=False)

    # num = retrieveNum('办法')

    # print('搜索次数为:', num)

    d=PMI()

    a=['快递','傻子','总体','物流', '验机', '物流', '游戏']#['鸡楚', '留香王者', '系列', '性能', '电池', '电', '视频', '游戏','中华民族', '性价比', '王者', '卡', '天', '红米.', '老婆', '电池', '电', '王者', '时间', '游戏', '相机', '感触', '粉色', '妹妹']

    pmi=d.getPmiList(a)

    print('PMI:',list(pmi))

    time_end = time.time()

    print('耗时%s秒' % (time_end - time_start))

百度词汇检索，计算PMI值的更多相关文章

geotrellis使用（十七）使用缓冲区分析的方式解决单瓦片计算边缘值问题
Geotrellis系列文章链接地址http://www.cnblogs.com/shoufengwei/p/5619419.html 目录前言需求分析实现方案总结一.前言最 ...
百度地图API显示多个标注点并添加百度样式检索窗口
原作者博客地址:http://blog.csdn.net/a497785609/article/details/24009031 在此基础上进行了修改: 1.添加闭包,将i传入内部 2.添加地图和卫星 ...
treetable 前台累计计算树值提交后台
treetable 累计计算树值效果图 html 代码 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//E ...
ylbtech-Unitity-cs:计算阶乘值
ylbtech-Unitity-cs:计算阶乘值 1.A,效果图返回顶部 1.B,源代码返回顶部 1.B.1, using System; namespace Functions { public ...
C#计算时间差值
/// <summary> /// 计算时间差值 /// </summary> /// <param name="DateTime1">< ...
利用Python计算π的值，并显示进度条
利用Python计算π的值,并显示进度条第一步:下载tqdm 第二步;编写代码 from math import * from tqdm import tqdm from time import ...
excel计算时间差值
excel计算时间差值 2018/10/1 10:59:00 减去 2018/9/21 1:05:13 获取多少天. 如1.2天.这种. ==
使用不同的方法计算TF-IDF值
摘要这篇文章主要介绍了计算TF-IDF的不同方法实现,主要有三种方法: 用gensim库来计算tfidf值用sklearn库来计算tfidf值用python手动实现tfidf的计算总结之所以 ...
C#实现像Git那样计算Hash值
从Git Tip of the Week: Objects一文中得知,Git是这样计算提交内容的Hash值的: Hash算法用的是SHA1 计算前,会在内容前面添加"blob 内容长度\0& ...

随机推荐

0_Simple__simpleLayeredTexture
二维分层纹理 ▶ 源代码.用纹理方法把元素按原顺序从 CUDA3D 数组中取出来,求个相反数再加上层数放入全局内存,输出. #include <stdio.h> #include &quo ...
修改IP
查看系统版本 [root@host ~]# cat /etc/issueCentOS release 6.5 (Final)Kernel \r on an \m [root@host ~]# cat ...
oracle imp dmp
windows>cmd> imp userid=用户名/密码@orcl file=d:\nc60.dmp full=y imp userid=SYSTEM/password@orcl fi ...
DrawDib 使用例子<转>
#include<vfw.h>#pragma comment(lib,"Vfw32.lib") BITMAPINFOHEADER biHeader; memset(&a ...
Haskell语言学习笔记（36）Data.List.Zipper
ListZipper 模块 $ cabal install ListZipper Installed ListZipper-1.2.0.2 Prelude> :m +Data.List.Zipp ...
PHP - pcntl_fork() 执行过程详解
<?php $pid = pcntl_fork();if ($pid == -1){ die("could not fork");}elseif($pid == 0 ...
Python内置类型性能分析
Python内置类型性能分析 timeit模块 timeit模块可以用来测试一小段Python代码的执行速度. class timeit.Timer(stmt='pass', setup='pass' ...
疯狂JAVA——第六章面向对象（下）
6.1包装类 java为了照顾程序员的传统习惯,所以提供了八种基本数据类型.但也带来不方便,例如所有引用类型都继承自Object类,都可当做Object类型变量使用.但基本数据类型的变量就不可以.如果 ...
mysql允许远程登录
Mysql为了安全性,在默认情况下用户只允许在本地登录,可是在有此情况下,还是需要使用用户进行远程连接,因此为了使其可以远程需要进行如下操作: 一.允许root用户在任何地方进行远程登录,并具有所有库 ...
Hadoop 初始化系统
hadoop namenode -format 或者 hdfs namenode -format 2.执行hadoop sbin 目录下的 start-dfs.sh start-yarn.sh3.查看 ...

百度词汇检索，计算PMI值

百度词汇检索，计算PMI值的更多相关文章

随机推荐

热门专题