Python爬取新浪微博评论数据，写入csv文件中

因为新浪微博网页版爬虫比较困难，故采取用手机网页端爬取的方式

操作步骤如下：

1. 网页版登陆新浪微博

2.打开m.weibo.cn

3.查找自己感兴趣的话题，获取对应的数据接口链接

4.获取cookies和headers

# -*- coding: utf-8 -*-

import requests

import csv

import os

base_url = 'https://m.weibo.cn/api/comments/show?id=4131150395559419&page={page}'

cookies = {'Cookie':'xxx'}

headers = {'User-Agent':'xxx'}

path = os.getcwd()+"/weibo.csv"

csvfile = open(path, 'a+', encoding='utf-8',newline='')

writer = csv.writer(csvfile)

writer.writerow(('username','source','comment'))

for i in range(0,83):

    try:

        url = base_url.format(page=i)

        resp = requests.get(url, headers=headers, cookies=cookies)

        jsondata = resp.json()

        data = jsondata.get('data')

        for d in data:

            created_at = d.get("created_at")

            source = d.get("source")

            username = d.get("user").get("screen_name")

            comment = d.get("text")

            print((username,source,comment))

            writer.writerow((username, source, comment))

    except:

        print('*'*1000)

        pass

csvfile.close()

至于爬出来的数据有非中文的数据，要提取中文请参考：筛选出一段文字中的中文

未完待续。。。。

Python爬取新浪微博评论数据，写入csv文件中的更多相关文章

Python：将爬取的网页数据写入Excel文件中
Python:将爬取的网页数据写入Excel文件中通过网络爬虫爬取信息后,我们一般是将内容存入txt文件或者数据库中,也可以写入Excel文件中,这里介绍关于使用Excel文件保存爬取到的网页数据的 ...
Jmeter beanshell把数据写入csv文件中，最后清除csv数据
有时候我们需要使用jmeter去结合csv文件去做一些简单的数据驱动处理: 例如把数据库数据黏贴到csv文件中或者把网页上的数据填入到csv文件中: 直接我一般是用手自己黏贴复制过csv文件中,比较麻 ...
Python学习笔记之将数据写入到文件中
10-3 访客:编写一个程序,提示用户输入其名字:用户作出响应后,将其名字写入到文件guest.txt 中. 编写Python代码: username = input("Please ent ...
爬取百度页面代码写入到文件+web请求过程解析
一.爬取百度页面代码写入到文件代码示例: from urllib.request import urlopen #导入urlopen包 url="http://www.baidu.com& ...
利用Python爬取朋友圈数据，爬到你开始怀疑人生
人生最难的事是自我认知,用Python爬取朋友圈数据,让我们重新审视自己,审视我们周围的圈子. 文:朱元禄(@数据分析-jacky) 哲学的两大问题:1.我是谁?2.我们从哪里来? 本文 jacky试 ...
C# 将List中的数据导入csv文件中
//http://www.cnblogs.com/mingmingruyuedlut/archive/2013/01/20/2849906.html C# 将List中的数据导入csv文件中将数 ...
PHP将数据写入指定文件中
首先创建一个空的txt文件,这里我们创建了一个1.txt的空文件. 第一种方法:fwrite函数 <?php $file=fopen('1.txt','rb+'); var_dump(fwrit ...
flink---实时项目--day01--1. openrestry的安装 2. 使用nginx+lua将日志数据写入指定文件中 3. 使用flume将本地磁盘中的日志数据采集到的kafka中去
1. openrestry的安装 OpenResty = Nginx + Lua,是⼀一个增强的Nginx,可以编写lua脚本实现⾮非常灵活的逻辑 (1)安装开发库依赖 yum install -y ...
票房和口碑称霸国庆档，用 Python 爬取猫眼评论区看看电影《我和我的家乡》到底有多牛
今年的国庆档电影市场的表现还是比较强势的,两名主力<我和我的家乡>和<姜子牙>起到了很好的带头作用. <姜子牙>首日破 2 亿,一举刷新由<哪吒之魔童降世&g ...

随机推荐

远程首次连接mysql速度慢的解决方法:skip-name-resolve取消DNS的反向解析(转)
PHP远程连接MYSQL速度慢,有时远程连接到MYSQL用时4-20秒不等,本地连接MYSQL正常,出现这种问题的主要原因是,默认安装的 MYSQL开启了DNS的反向解析,在MY.INI(WINDOW ...
【Android】Android六种布局详解
这篇就对LinearLayout.RelativeLayout.自定义ViewGroup.FrameLayout.TableLayout.AbsoluteLayout六种布局进行详细的讲解. 1.Li ...
【Oracle】Oracle中dump函数的用法
一.函数标准格式: DUMP(expr[,return_fmt[,start_position][,length]]) 基本参数时4个,最少可以填的参数是0个.当完全没有参数时,直接返回null.另外 ...
java php 等，路径上级路径，上上级路径表示方法
如何表示上级目录 ../表示源文件所在目录的上一级目录,../../表示源文件所在目录的上上级目录,以此类推. ../表示源文件所在目录的上一级目录,../../表示源文件所在目录的上上级目录,以此类 ...
SQLServer获取每组前10%的数据
sqlserver2005有关键字ntile(x)和over(partition by.. order by..)子句配合. 比如获取每个表的前10%个字段. selectid,name,colid, ...
cassandra运行出现了Unable to gossip with any seeds，cqlsh链接不上,提示connection refused处理办法
cassandra运行出现了Unable to gossip with any seeds,cqlsh链接不上,提示connection refused处理办法问题描述当启动了cassandra之 ...
java对象内存占用
一.前言想知道java对象在内存中的占用情况吗?感谢这位大神的无私分享. http://yueyemaitian.iteye.com/blog/2033046 二.原文的扩充1. 增加了代理jar包的 ...
win10 docker 安装部署
Docker 安装教程: https://blog.csdn.net/hunan961/article/details/79484098 安装docker前需要首先开启虚拟服务:重启电脑-->F ...
python 多进程，实际上都没有运行，sleep
进程以及状态 1. 进程程序:例如xxx.py这是程序,是一个静态的进程:一个程序运行起来后,代码+用到的资源称之为进程,它是操作系统分配资源的基本单元. 不仅可以通过线程完成多任务,进程也是可以 ...
转 Kafka docker
Kafka 教程 http://haofly.net/kafka/ Posted on 2016-12-23 | In tools | | Views: 224 重要概念生产者(Produc ...

Python爬取新浪微博评论数据，写入csv文件中

Python爬取新浪微博评论数据，写入csv文件中的更多相关文章

随机推荐

热门专题