CVPR2018关键字分析生成词云图与查找

今日目标：爬取CVPR2018论文，进行分析总结出提到最多的关键字，生成wordCloud词云图展示，并且设置点击后出现对应的论文以及链接

对任务进行分解：

①爬取CVPR2018的标题，简介，关键字，论文链接

②将爬取的信息生成wordCloud词云图展示

③设置点击事件，展示对应关键字的论文以及链接

一、爬虫实现

由于文章中并没有找到关键字，于是将标题进行拆分成关键字，用逗号隔开

import re

import requests

from bs4 import BeautifulSoup

import demjson

import pymysql

import os

headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36'}#创建头部信息

url='http://openaccess.thecvf.com/CVPR2018.py'

r=requests.get(url,headers=headers)

content=r.content.decode('utf-8')

soup = BeautifulSoup(content, 'html.parser')

dts=soup.find_all('dt',class_='ptitle')

hts='http://openaccess.thecvf.com/'

#数据爬取

alllist=[]

for i in range(len(dts)):

    print('这是第'+str(i)+'个')

    title=dts[i].a.text.strip()

    href=hts+dts[i].a['href']

    r = requests.get(href, headers=headers)

    content = r.content.decode('utf-8')

    soup = BeautifulSoup(content, 'html.parser')

    #print(title,href)

    divabstract=soup.find(name='div',attrs={"id":"abstract"})

    abstract=divabstract.text.strip()

    #print('第'+str(i)+'个：',abstract)

    alllink=soup.select('a')

    link=hts+alllink[4]['href'][6:]

    keyword=str(title).split(' ')

    keywords=''

    for k in range(len(keyword)):

        if(k==0):

            keywords+=keyword[k]

        else:

            keywords+=','+keyword[k]

    value=(title,abstract,link,keywords)

    alllist.append(value)

print(alllist)

tuplist=tuple(alllist)

#数据保存

db = pymysql.connect("localhost", "root", "fengge666", "yiqing", charset='utf8')

cursor = db.cursor()

sql_cvpr = "INSERT INTO cvpr values (%s,%s,%s,%s)"

try:

    cursor.executemany(sql_cvpr,tuplist)

    db.commit()

except:

      print('执行失败，进入回调3')

      db.rollback()

db.close()

二、将数据进行wordCloud展示

首先找到对应的包，来展示词云图

<script src='https://cdn.bootcss.com/echarts/3.7.0/echarts.simple.js'></script>

<script src='js/echarts-wordcloud.js'></script>

<script src='js/echarts-wordcloud.min.js'></script>

然后通过异步加载，将后台的json数据进行展示。

由于第一步我们获得的数据并没有对其进行分析，因此我们在dao层会对其进行数据分析，找出所有的关键字的次数并对其进行降序排序（用Map存储是最好的方式）

public Map<String,Integer> getallmax()

    {

        String sql="select * from cvpr";

        Map<String, Integer>map=new HashMap<String, Integer>();

        Map<String, Integer>sorted=new HashMap<String, Integer>();

        Connection con=null;

        Statement state=null;

        ResultSet rs=null;

        con=DBUtil.getConn();

        try {

            state=con.createStatement();

            rs=state.executeQuery(sql);

            while(rs.next())

            {

                String keywords=rs.getString("keywords");

                String[] split = keywords.split(",");

                for(int i=0;i<split.length;i++)

                {

                    if(map.get(split[i])==null)

                    {

                        map.put(split[i],0);

                    }

                    else

                    {

                        map.replace(split[i], map.get(split[i])+1);

                    }

                }

            }

        } catch (SQLException e) {

            // TODO Auto-generated catch block

            e.printStackTrace();

        }

        DBUtil.close(rs, state, con);

        sorted = map

                .entrySet()

                .stream()

                .sorted(Collections.reverseOrder(comparingByValue()))

                .collect(

                        toMap(Map.Entry::getKey, Map.Entry::getValue, (e1, e2) -> e2,

                                LinkedHashMap::new));

        return sorted;

    }

到servlet层后，我们还需对数据进行一定的筛选（介词，a，等词语应该去除掉，要不然会干扰我们分析关键字），取前30名关键字，在前台进行展示

request.setCharacterEncoding("utf-8");

        Map<String, Integer>sortMap=dao.getallmax();

        JSONArray json =new JSONArray();

        int k=0;

        for (Map.Entry<String, Integer> entry : sortMap.entrySet())

        {

            JSONObject ob=new JSONObject();

            ob.put("name", entry.getKey());

            ob.put("value", entry.getValue());

            if(!(entry.getKey().equals("for")||entry.getKey().equals("and")||entry.getKey().equals("With")||entry.getKey().equals("of")||entry.getKey().equals("in")||entry.getKey().equals("From")||entry.getKey().equals("A")||entry.getKey().equals("to")||entry.getKey().equals("a")||entry.getKey().equals("the")||entry.getKey().equals("by")))

            {

                json.add(ob);

                k++;

            }

            if(k==30)

                break;

        }

        System.out.println(json.toString());

        response.getWriter().write(json.toString());

三、设置点击事件，展示对应关键字的论文以及链接

//设置点击效果

var ecConfig = echarts.config;

myChart.on('click', eConsole);

用函数来实现点击事件的内容：通过点击的关键字，后台进行模糊查询，找到对应的论文题目以及链接，返回到前端页面

 //点击事件

        function eConsole(param) {

            if (typeof param.seriesIndex == 'undefined') {

                return;

            }

            if (param.type == 'click') {

                var word=param.name;

                var htmltext="<table class='table table-striped' style='text-align:center'><caption style='text-align:center'>论文题目与链接</caption>";

                $.post(

                        'findkeytitle',

                        {'word':word},

                        function(result)

                        {

                            json=JSON.parse(result);

                            for(i=0;i<json.length;i++)

                            {

                                htmltext+="<tr><td><a target='_blank' href='"+json[i].Link+"'>"+json[i].Title+"</a></td></tr>";

                            }

                            htmltext+="</table>"

                            $("#show").html(htmltext);

                        }

                )

            }

       }

成果展示：

前台页面代码：

<html>

    <head>

        <meta charset="utf-8">

        <link href="css/bootstrap.min.css" rel="stylesheet">

        <!-- jQuery (Bootstrap 的所有 JavaScript 插件都依赖 jQuery，所以必须放在前边) -->

        <script src="js/jquery-1.11.3.min.js"></script>

        <!-- 加载 Bootstrap 的所有 JavaScript 插件。你也可以根据需要只加载单个插件。 -->

        <script src="js/bootstrap.js"></script>

        <script src='https://cdn.bootcss.com/echarts/3.7.0/echarts.simple.js'></script>

        <script src='js/echarts-wordcloud.js'></script>

        <script src='js/echarts-wordcloud.min.js'></script>

    </head>

    <body>

        <style>

            body{

                background-color: black;

            }

            #main {

                width: 70%;

                height: 100%;

                margin: 0;

                float:right;

                background: black;

            }

            #show{

                overflow-x: auto;

                 overflow-y: auto;

                width: 30%;

                height: 100%;

                float:left;

                margin-top:100dp;

                padding-top:100dp;

                background: pink;

            }

        </style>

        <div id='show'></div>

        <div id='main'></div>

    <script>

        $(function(){

            echartsCloud();

        });

        //点击事件

        function eConsole(param) {

            if (typeof param.seriesIndex == 'undefined') {

                return;

            }

            if (param.type == 'click') {

                var word=param.name;

                var htmltext="<table class='table table-striped' style='text-align:center'><caption style='text-align:center'>论文题目与链接</caption>";

                $.post(

                        'findkeytitle',

                        {'word':word},

                        function(result)

                        {

                            json=JSON.parse(result);

                            for(i=0;i<json.length;i++)

                            {

                                htmltext+="<tr><td><a target='_blank' href='"+json[i].Link+"'>"+json[i].Title+"</a></td></tr>";

                            }

                            htmltext+="</table>"

                            $("#show").html(htmltext);

                        }

                )

            }

       }

        function echartsCloud(){

            $.ajax({

                 url:"getmax",

                 type:"POST",

                 dataType:"JSON",

                 async:true,

                 success:function(data)

                 {

                     var mydata = new Array(0);

                     for(var i=0;i<data.length;i++)

                     {

                         var d = {

                         };

                         d["name"] = data[i].name;//.substring(0, 2);

                         d["value"] = data[i].value;

                         mydata.push(d);

                     }

                     var myChart = echarts.init(document.getElementById('main'));

                     //设置点击效果

                     var ecConfig = echarts.config;

                     myChart.on('click', eConsole);

                     myChart.setOption({

                         title: {

                             text: ''

                         },

                         tooltip: {},

                         series: [{

                             type : 'wordCloud',  //类型为字符云

                                 shape:'smooth',  //平滑

                                 gridSize : 8, //网格尺寸

                                 size : ['50%','50%'],

                                 //sizeRange : [ 50, 100 ],

                                 rotationRange : [-45, 0, 45, 90], //旋转范围

                                 textStyle : {

                                     normal : {

                                         fontFamily:'微软雅黑',

                                         color: function() {

                                             return 'rgb(' +

                                                 Math.round(Math.random() * 255) +

                                          ', ' + Math.round(Math.random() * 255) +

                                          ', ' + Math.round(Math.random() * 255) + ')'

                                                }

                                         },

                                     emphasis : {

                                         shadowBlur : 5,  //阴影距离

                                         shadowColor : '#333'  //阴影颜色

                                     }

                                 },

                                 left: 'center',

                                 top: 'center',

                                 right: null,

                                 bottom: null,

                                 width:'100%',

                                 height:'100%',

                                 data:mydata

                         }]

                     });

                 }

             });

    }

    </script>

    </body>

</html>

CVPR2018关键字分析生成词云图与查找的更多相关文章

Python模块---Wordcloud生成词云图
wordcloud是Python扩展库中一种将词语用图片表达出来的一种形式,通过词云生成的图片,我们可以更加直观的看出某篇文章的故事梗概. 首先贴出一张词云图(以哈利波特小说为例): 在生成词云图之前 ...
python根据文本生成词云图
python根据文本生成词云图效果代码 from wordcloud import WordCloud import codecs import jieba #import jieba.analy ...
python 爬取豆瓣电影短评并wordcloud生成词云图
最近学到数据可视化到了词云图,正好学到爬虫,各种爬网站 [实验名称] 爬取豆瓣电影<千与千寻>的评论并生成词云 1. 利用爬虫获得电影评论的文本数据 2. 处理文本数据生成词云图第一步, ...
Excel催化剂开源第27波-Excel离线生成词云图
在数据分析领域,词云图已经成为在文本分析中装逼的首选图表,大家热烈地讨论如何在Python上做数据分析.做词云图. 数据分析从来都是Excel的主战场,能够让普通用户使用上的技术才是最有价值的技术,一 ...
已知词频生成词云图（数据库到生成词云）--generate_from_frequencies（WordCloud）
词云图是根据词出现的频率生成词云,词的字体大小表现了其频率大小. 写在前面: 用wc.generate(text)直接生成词频的方法使用很多,所以不再赘述. 但是对于根据generate_from_f ...
小白学Python（12）——pyecharts ,生成词云图 WordCloud
WordCloud(词云图) from pyecharts import options as opts from pyecharts.charts import Page, WordCloud fr ...
Python爬虫b站视频弹幕并生成词云图分析
爬虫:requests,beautifulsoup 词云:wordcloud,jieba 代码加注释: # -*- coding: utf-8 -*- import xlrd#读取excel impo ...
微信聊天记录导出为csv，并生成词云图
微信聊天记录生成特定图片图云首先贴上github地址 https://github.com/ghdefe/WechatRecordToWordCloud 来个效果图提取聊天记录到csv参考教程 h ...
【爬虫+情感判定+Top10高频词+词云图】“谷爱凌”热门弹幕python舆情分析
一.背景介绍最近几天,谷爱凌在冬奥会赛场上夺得一枚宝贵的金牌,为中国队贡献了自己的荣誉! 针对此热门事件,我用Python的爬虫和情感分析技术,针对小破站的弹幕数据,分析了众网友弹幕的舆论导向,下面 ...

随机推荐

[红日安全]Web安全Day12 – 会话安全实战攻防
本文由红日安全成员: ruanruan 编写,如有不当,还望斧正. 大家好,我们是红日安全-Web安全攻防小组.此项目是关于Web安全的系列文章分享,还包含一个HTB靶场供大家练习,我们给这个项目起了 ...
（转）协议森林12 天下为公 (TCP堵塞控制)
协议森林12 天下为公 (TCP堵塞控制) 作者:Vamei 出处:http://www.cnblogs.com/vamei 欢迎转载,也请保留这段声明.谢谢! 在TCP协议中,我们使用连接记录TCP ...
.NET 开发工具盘点和现状
在这里我盘点一下.NET的开发工具:Visual Studio.Jetbrains Rider.Mono Develop.SharpDevelop.QuickSharp.Visual Studio C ...
MySQL第三章知识第一部分
SQL的特点:是一个综合的.功能极强并且简洁容易学的语言. SQL的功能:数据查询.数据操纵.数据定义.数据控制. 数据库系统的主要功能是通过数据库支持的数据语言来实现. 菲关系模型(层次模型.网状模 ...
【作业1.0】OO第一单元作业总结
OO第一单元作业已全部完成,为了使这一单元的作业能够收获更多一点,我回忆起我曾经在计算机组成课设中,经常我们会写一些实验报告,经常以此对实验内容反思总结.在我们开始下一单元的作业之前,我在此对OO第一 ...
BigDecimal介绍及BigDecimal实现四舍五入
BigDecimal介绍及BigDecimal实现四舍五入 BigDecimal是什么? 我们知道float最大精度是7-8位有效数字,而double的最大精度是16-17位有效数字,那么大于16位的 ...
[CVPR 2019]Normalized Object Coordinate Space for Category-Level 6D Object Pose and Size Estimation
论文地址:https://arxiv.org/abs/1901.02970 github链接:https://github.com/hughw19/NOCS_CVPR2019 类别级6D物体位姿 ...
Grid Illumination
2019-07-07 16:53:31 问题描述: 问题求解: 本题和n后问题很类似,所以最初的时候就直接套了n后的板子,MLE. public int[] gridIllumination(int ...
JUnit 5基础指南
A Guide to JUnit 5 准备添加maven依赖: <dependency> <groupId>org.junit.jupiter</groupId> ...
从ISTIO熔断说起-轻舟网关熔断
最近大家经常被熔断洗脑,股市的动荡,让熔断再次出现在大家眼前.微服务中的熔断即服务提供方在一定时间内,因为访问压力太大或依赖异常等原因,而出现异常返回或慢响应,熔断即停止该服务的访问,防止发生雪崩效应 ...

CVPR2018关键字分析生成词云图与查找

CVPR2018关键字分析生成词云图与查找的更多相关文章

随机推荐

热门专题