👋嗨，你有一份微信好友报告待查收～

全部代码都已上传至我的KLab—嗨，你有一份微信好友报告待查收～，Fork后可运行生成你自己的微信好友报告～

本次项目统计展示了如下信息：

好友地域分布
性别统计
备注比例
️首字母统计
使用最多的emoji
签名词云

其他可视化报告：

登录微信

因为在KLab里面没法调起其他应用来打开二维码图片，所以这边是通过多线程来处理：

线程1：itchat获取二维码图片，等待扫码完成；
线程2: 读取本地二维码图片然后通过matplotlib加载到KLab；

具体代码如下，不算复杂～

之前有小伙伴遇到不能扫码登录的，是因为微信那边做了限制，对于有些账号（特别是新注册的账号）不能在网页端登录；

code_path = os.path.join('/home/kesci/work', 'QR.png')

def show_qrcode():

    # 等待图片下载

    time.sleep(3)

    while True:

        if os.path.exists(code_path):

            img = Image.open(code_path)

            plt.figure(figsize=(15, 8))

            plt.imshow(img)

            plt.axis('off') # 关掉坐标轴为 off

            plt.show()

            break

t= threading.Thread(target=show_qrcode)#创建线程

t.setDaemon(True)#设置为后台线程，这里默认是False，设置为True之后则主线程不用等待子线程

t.start()#开启线程

t = threading.Thread(target=itchat.login(picDir=code_path))

t.start()

地域分布

微信返回的好友信息中包括了Province和City两个字段，不过有亮点要注意的：

对于北京等四个直辖市，Province中是存的城市名，City中是行政区；
另外地域信息是国外的我这边是都归到一类下面了，二级分类用的Province的信息；

数据处理

friends = itchat.get_friends(update=True)

df_friends = pd.DataFrame(list(friends))

f_loc = df_friends.groupby(

    ['Province', 'City'])['UserName'].count().reset_index()

# 筛选掉位置信息缺失的

f_loc = f_loc[f_loc.Province != '']

for idx, row in f_loc.iterrows():

    # 位置信息缺失的归到其他中

    if not row.Province:

        f_loc.loc[idx, 'Province'] = '其他'

        f_loc.loc[idx, 'City'] = '其他'

    # 国外的统一归到一类

    if re.match('[a-zA-Z]', row.Province):

        f_loc.loc[idx, 'Province'] = '国外'

        f_loc.loc[idx, 'City'] = row['Province']

# 四个直辖市City中是行政区

f_loc['City'].loc[f_loc.Province == '北京'] = '北京'

f_loc['City'].loc[f_loc.Province == '上海'] = '上海'

f_loc['City'].loc[f_loc.Province == '重庆'] = '重庆'

f_loc['City'].loc[f_loc.Province == '天津'] = '天津'

# 重新聚合求和

f_loc = f_loc.groupby(['Province', 'City'])['UserName'].sum().reset_index()

f_loc.columns = ['Province', 'City', 'num']

data_pair = []

parent_data = f_loc.Province.unique().tolist()

for province in parent_data:

    t_data = f_loc[f_loc.Province==province]

    t_dict = {"name": province,

              "label":{"show": False},

              "children": []}

    # 父层级--好友数量大于15的显示标签

    if t_data.num.sum() > 15:

        t_dict['label']['show'] = True

    t_data.sort_values(by="num",ascending=False,inplace=True)

    t_data = t_data.reset_index(drop=True)

    else_num = 0

    for idx, row in t_data.iterrows():

        """

        因为涉及到的城市过多，全部显示太乱了

        以下两种情况下显示，否则将归入「其他城市」

        1. 每个父目录下好友最多的城市；

        2. 该城市好友数量大于10；

        """

        if idx == 0:

            child_data = {"name": row.City, "value":row.num, "label":{"show": False}}

            # 子层级--好友数量大于10的显示标签

            if child_data['value'] > 10:

                child_data['label']['show'] = True

            t_dict['children'].append(child_data)

        elif row.num > 10:

            child_data = {"name": row.City, "value":row.num, "label":{"show": True}}

            t_dict['children'].append(child_data)

        else:

            else_num += row.num

    if else_num > 10:

        child_data = {"name": '其他城市', "value":else_num, "label":{"show": True}}

        t_dict['children'].append(child_data)

    elif else_num:

        child_data = {"name": '其他城市', "value":else_num, "label":{"show": False}}

        t_dict['children'].append(child_data)    

    data_pair.append(t_dict)

可视化

c = (Sunburst(

        init_opts=opts.InitOpts(

            theme='light',

            width="1000px",

            height="1000px"))

    .add(

        "",

        data_pair=data_pair,

        highlight_policy="ancestor",

        radius=[0, "100%"],

        sort_='null',

        levels=[

            {},

            {

                "r0": "20%",

                "r": "45%",

                "itemStyle": {"borderColor": 'rgb(220,220,220)', "borderWidth": 2}

            },

            {"r0": "45%", "r": "80%", "label": {"align": "right"},

                "itemStyle": {"borderColor": 'rgb(220,220,220)', "borderWidth": 1}}

        ],

    )

    .set_global_opts(title_opts=opts.TitleOpts(title="好 友\n\n地 域 分 布",

                                               pos_left="center",

                                               pos_top="center",

                                               title_textstyle_opts=opts.TextStyleOpts(font_style='oblique', color="black", font_size=30),))

    .set_series_opts(label_opts=opts.LabelOpts(font_size=18, formatter="{b}: {c}"))

)

c.render_notebook()

好友性别占比

f_sex = df_friends.groupby(['Sex'])['UserName'].count().reset_index()

f_sex['f_sex'] = f_sex['Sex'].astype(str).str.replace('1', '男').replace('2', '女').replace('0', '信息缺失')

background_color_js = """new echarts.graphic.RadialGradient(0.5, 0.5, 1, [{

                                        offset: 0,

                                        color: '#696969'

                                    }, {

                                        offset: 1,

                                        color: '#000000'

                                    }])"""

pie = (Pie(init_opts=opts.InitOpts(theme='light', width='1000px', height='800px'))

       .add('WeChat️', [(row['f_sex'], row['UserName']) for _, row in f_sex.iterrows()],

            radius=["50%", "75%"])

       .set_global_opts(title_opts=opts.TitleOpts(title="好友性别占比",

                                                  pos_left="center",

                                                  title_textstyle_opts=opts.TextStyleOpts(color="black", font_size=20),     ),

                        legend_opts=opts.LegendOpts(is_show=True, pos_top='5%'))

       .set_series_opts(label_opts=opts.LabelOpts(formatter="{b}: {d}%", font_size=18),

                        tooltip_opts=opts.TooltipOpts(trigger="item", formatter="{a} <br/>{b}: {c} ({d}%)"),)

      )

pie.render_notebook()

好友备注比例

你有给好友备注的习惯吗



remark_num_f = len(df_friends.RemarkName[(

    df_friends.RemarkName != '') & (df_friends.Sex == 2)])

total_num_f = len(df_friends.RemarkName[(df_friends.Sex == 2)])

remark_num_m = len(df_friends.RemarkName[(

    df_friends.RemarkName != '') & (df_friends.Sex == 1)])

total_num_m = len(df_friends.RemarkName[(df_friends.Sex == 1)])

l1 = Liquid(

    init_opts=opts.InitOpts(

        theme='light',

        width='1000px',

        height='800px'))

l1.add("", [remark_num_f/total_num_f],

       center=["70%", "50%"],

       label_opts=opts.LabelOpts(font_size=50,

                                 formatter=JsCode(

                                     """function (param) {

                            return (Math.floor(param.value * 10000) / 100) + '%';

                        }"""),

                                 position="inside",

                                 ))

l1.set_global_opts(

    title_opts=opts.TitleOpts(

        title="女性好友备注比例",

        pos_left='62%',

        pos_top='8%'))

l1.set_series_opts(tooltip_opts=opts.TooltipOpts(is_show=False))

l2 = Liquid(

    init_opts=opts.InitOpts(

        theme='light',

        width='1000px',

        height='800px'))

l2.add("",

       [remark_num_m/total_num_m],

       center=["25%", "50%"],

       label_opts=opts.LabelOpts(font_size=50,

                                 formatter=JsCode(

                                     """function (param) {

                        return (Math.floor(param.value * 10000) / 100) + '%';

                    }"""),

                                 position="inside",

                                 ),)

l2.set_global_opts(

    title_opts=opts.TitleOpts(

        title="男性好友备注比例",

        pos_left='16%',

        pos_top='8%'))

l2.set_series_opts(tooltip_opts=opts.TooltipOpts(is_show=False))

grid = Grid().add(

    l1, grid_opts=opts.GridOpts()).add(

        l2, grid_opts=opts.GridOpts())

grid.render_notebook()

首字母分布

这个统计与微信-联系人里面的归类有点不一样，微信-联系人里面是优先使用备注名的，这里只与好友的微信昵称有关；

first_letter = []

for item in df_friends.PYQuanPin:

    # 替换掉emoji表情和空格

    item = re.sub('spanclassemojiemoji[a-z0-9]{5}?|span', '' , item)

    try:

        if re.match('[A-Z]', item.upper()[0]):

            first_letter.append(item.upper()[0])

        else:

            first_letter.append('#')

    except IndexError:

        first_letter.append('#')

letters = [chr(i) for i in range(65,91)]

letters.append('#')

data_pair = [(w, first_letter.count(w)) for w in letters]

data_pair = sorted(data_pair, key=lambda x: x[1], reverse=True)

pie = (Pie(init_opts=opts.InitOpts(theme='light', width='1000px', height='800px'))

       .add("Wechat", data_pair,

            radius=["50%", "75%"])

       .set_global_opts(title_opts=opts.TitleOpts(title="微信名首字母",

                                                  pos_left="center",

                                                  title_textstyle_opts=opts.TextStyleOpts(color="black", font_size=20),),

                        legend_opts=opts.LegendOpts(is_show=False, pos_top='5%'))

       .set_series_opts(label_opts=opts.LabelOpts(formatter="{b}: {d}%", font_size=18),

                        tooltip_opts=opts.TooltipOpts(trigger="item", formatter="{a} <br/>{b}: {c} ({d}%)"),)

                        )

pie.render_notebook()

Emoji表情

包括了微信昵称和签名中的emoji表情～

emoji_list = []

for name in df_friends.NickName:

    emoji = re.findall(u'[\U00010000-\U0010ffff]', name)

    if emoji:

        emoji_list.extend(emoji)

with open('/home/kesci/input/emoji6441/emoji.json', 'r') as f:

    emoji_code = json.load(f)

def find_emoji(code):

    for item in emoji_code:

        if item['codes'] == code.upper():

            return item['char']

            break

for sig in df_friends.Signature:

    emoji = re.findall('emoji([a-z0-9]{5})', sig)

    if emoji:

        emoji = [find_emoji(code) for code in emoji]

        emoji_list.extend(emoji)

counter = Counter(emoji_list).most_common(18)

bar = (Bar(init_opts=opts.InitOpts(theme='light', width='1000px', height='800px'))

       .add_xaxis([x for x, y in counter[::-1]])

       .add_yaxis('使用次数', [y for x, y in counter[::-1]])

       .set_global_opts(title_opts=opts.TitleOpts(title="使用最多的emoji表情",

                                                  pos_left="center",

                                                  title_textstyle_opts=opts.TextStyleOpts(color="black",

                                                                                          font_size=20)),

                        legend_opts=opts.LegendOpts(is_show=False),

                        xaxis_opts=opts.AxisOpts(is_show=False,),

                        yaxis_opts=opts.AxisOpts(

           axistick_opts=opts.AxisTickOpts(is_show=False),

           axisline_opts=opts.AxisLineOpts(is_show=False)))

       .set_series_opts(label_opts=opts.LabelOpts(is_show=True,

                                                  position='right',

                                                  font_style='italic'),

                        itemstyle_opts={"normal": {

                            "color": JsCode(

                                """new echarts.graphic.LinearGradient(1, 1, 0, 0, [{

                                                offset: 0,

                                                color: 'rgba(0, 244, 255, 1)'

                                            }, {

                                                offset: 1,

                                                color: 'rgba(0, 77, 167, 1)'

                                            }], false)"""

                            ),

                            "barBorderRadius": [30, 30, 30, 30],

                            "shadowColor": "rgb(0, 160, 221)",

                        }

       }

).reversal_axis())

bar.render_notebook()

签名词云图

签名说的最多的词语是什么呢



back_color = imread('/home/kesci/work/font/wechat_logo.jpeg')  # 解析该图片

wc = WordCloud(background_color='white',  # 背景颜色

               max_words=1000,  # 最大词数

               mask=back_color,  # 以该参数值作图绘制词云，这个参数不为空时，width和height会被忽略

               max_font_size=100,  # 显示字体的最大值

               font_path="/home/kesci/work/font/simhei.ttf",  # 解决显示口字型乱码问题

               random_state=42,  # 为每个词返回一个PIL颜色

               )

text=''

pattern = u"[\u4e00-\u9fa5]" #保留汉字

for x in df_friends['Signature']:

    text_temp =  re.findall(pattern, x)

    text = text + ''.join(text_temp)

def word_cloud(texts):

    words_list = []

    word_generator = jieba.cut(texts, cut_all=False)  # 返回的是一个迭代器

    for word in word_generator:

        if len(word) > 1:  #去掉单字

            words_list.append(word)

    return ' '.join(words_list)  

text = word_cloud(text)

wc.generate(text)

# 基于彩色图像生成相应彩色

image_colors = ImageColorGenerator(back_color)

plt.figure(figsize = (15,15))

plt.axis('off')

# 绘制词云

plt.imshow(wc.recolor(color_func=image_colors))

plt.axis('off')

# 保存图片

plt.show()

整理不易，欢迎大家点赞支持～

👋嗨，你有一份微信好友报告待查收～的更多相关文章

UC浏览器分享到朋友圈和微信好友分类： JavaScript 2015-04-28 14:45 615人阅读评论(1) 收藏
用手机UC浏览器访问新浪微博,会注意到有这样的两个分享按钮: 在手机端浏览器里,点击分享按钮,就可以启动微信客户端并分享到微信.研究了下其源代码,存在这样的一个js:http://mjs.sinaim ...
UC浏览器分享到朋友圈和微信好友
用手机UC浏览器访问新浪微博,会注意到有这样的两个分享按钮: 在手机端浏览器里,点击分享按钮,就可以启动微信客户端并分享到微信.研究了下其源代码,存在这样的一个js:http://mjs.sinaim ...
Android 分享微信好友朋友圈
第三方应用,可以调用微信分享,把链接,文字,各种media,分享到微信好友或者微信朋友圈,步骤: package com.edaixi.utils; import android.content.Co ...
Swift - 发送消息（文本,图片,文件等）给微信好友或分享到朋友圈
通过调用微信提供的API接口,我们可以很方便的在应用中发送消息给微信好友,或者分享到朋友圈.在微信开发平台(https://open.weixin.qq.com)里,提供了详细的说明文档和样例.但由于 ...
【转】Python微信好友头像拼接图
转自:Python微信好友头像拼接图今天在朋友圈看到有人发了微信好友拼接图,心里满是新奇,看了下评论才知道用Python写的.心里痒痒,立马就安装了下Python. 安装好了之后,看了下大神的代码, ...
python爬取所有微信好友的信息
''' 爬取所有T信好友的信息 ''' import itchat from pandas import DataFrame itchat.login() friends=itchat.get_fri ...
Python-定时爬取指定城市天气(一)-发送给关心的微信好友
一.背景上班的日子总是3点一线,家里,公司和上班的路径,对于一个特别懒得我来说,经常遇到上班路上下雨了,而我却没带伞,多么痛的领悟.最近对python有一种狂热的学习热情,写了4年多的C++代码,对 ...
Python 实现获取微信好友信息
最近用闲余时间看了点python,在网上冲浪时发现有不少获取微信好友信息的博客,对此比较感兴趣,于是自己敲了敲顺便记录下来. 一.使用 wxpy 模块库获取好友男比例信息和城市分布. # -*- co ...
爬微信好友签名和QQ好友签名
先说如何爬微信好友签名,主要使用itchat,这个库提供直接的api来获取好友信息,只要用正则过滤出就行了.说一下步骤,就不贴代码了.# 登陆# 获取好友列表# 提取签名# jieba分词# word ...

随机推荐

重启mysql服务
重启mysql 启动mysql: 方式一:sudo /etc/init.d/mysql start 方式二:sudo service mysql start 停止mysql: 方式一:sudo /et ...
powershell提示无法将“”项识别
解决: 完成! 解释: 权限问题.Powershell脚本的4种执行权限介绍,Windows默认不允许任何脚本运行,我们可以使用"Set-ExecutionPolicy"cmdle ...
2019CISCN华南线下两道web复现
原帖地址 : https://xz.aliyun.com/t/5558 2019CISCN华南线下的两个简单 web 部分题目下载地址,有的不完整 : 点我点我 web 1 考点 : 无参函数的 RC ...
jmeter元件的执行顺序
元件的执行顺序在同一作用域范围内,test plan中的元件按照以下顺序执行:1) Config Elements--配置元件2) Pre-porcessors --前置处理器3) Timer-定时 ...
数据结构（C语言版）---查找
1.查找表:同一类型的数据元素构成的集合. 2.对查找表进行的操作:查询某特定元素.检索满足条件的元素的属性.插入元素.删除元素. 1)若对查找表进行的操作只涉及前两种,则为静态查找表:需要进行插入和 ...
只会Vue怎么开发小程序？vue和微信小程序的到底有哪些区别?
写了vue项目和小程序,发现二者有许多相同之处,在此想总结一下二者的共同点和区别. 一.生命周期先贴两张生命周期图对比下: vue生命周期小程序生命周期相比之下,小程序的钩子函数要简单得多. v ...
2019-2020-1 20199329《Linux内核原理与分析》第四周作业
<Linux内核原理与分析>第四周作业一.上周问题总结: 虚拟机环境缺少部分库文件书本知识使用不够熟练二.本周学习内容: 1.实验楼环境使用gdb跟踪调试内核 1.1 在该环境下输入 ...
Inno Setup [Run] Section 双引号嵌套
https://stackoverflow.com/questions/26257808/inno-setup-how-to-run-a-code-procedure-in-run-section-o ...
Github第三方登录
笔者第一次写网站只写了接收参数以及登录页面就兴奋了一整天,还特意地加上了第三方登录,想起当时的情景还历历在目.之前是照着被人的博客一步步完成第三方登录的功能,现在就要自己来理解完成了 1. OAuth ...
Node.js快速创建一个访问html文件的服务器
var http = require('http'), // 引入需要的模块 fs = require('fs'), //引入文件读取模块 cp = require('child_process'), ...

&#128075;嗨，你有一份微信好友报告待查收～