不多说,直接上干货!

   现有一份数据如下。

  

下载日志数据并分析

    到搜狗实验室下载用户查询日志

  1) 介绍

    搜索引擎查询日志库设计为包括约1个月(2008年6月)Sogou搜索引擎部分网页查询需求及用户点击情况的网页查询日志数据集合。为进行中文搜索引擎用户行为分析的研究者提供基准研究语料。

  2)   格式说明

    数据格式为:访问时间\t用户ID\t[查询词]\t该URL在返回结果中的排名\t用户点击的顺序号\t用户点击的URL

    其中,用户ID是根据用户使用浏览器访问搜索引擎时的Cookie信息自动赋值,即同一次使用浏览器输入的不同查询对应同一个用户ID。

[kfk@bigdata-pro01 datas]$ more weblogs.log
:: [360安全卫士] download.it.com.cn/softweb/software/firewall/antivirus//.html
:: [哄抢救灾物资] news.21cn.com/social/daqian////4777194_1.shtml
:: [75810部队] www.greatoo.com/greatoo_cn/list.asp?link_id=&title=%BE%DE%C2%D6%D0%C2%CE%C5
:: [绳艺] www.jd-cd.com/jd_opus/xx//.html
:: [汶川地震原因] www.big38.net/
:: [莫衷一是的意思] www.chinabaike.com/article/////.html
:: [星梦缘全集在线观看] www.6wei.net/dianshiju/????\xa1\xe9|????do=index
:: [闪字吧] www.shanziba.com/
:: [霍震霆与朱玲玲照片] bbs.gouzai.cn/thread-.html
:: [电脑创业] ks.cn.yahoo.com/question/.html
:: [111aa图片] www.fotolog.com.cn/tags/aa111
:: [豆腐的制成] ks.cn.yahoo.com/question/.html
:: [tudou.com+禁播电影] topic.bindou.com//
:: [最佳受孕时间] ks.cn.yahoo.com/question/.html
:: [捷克民歌土风舞++教案] shwamlys.blog.sohu.com/.html
:: [pdf] download.it168.com////13947_3.shtml
:: [喷嘭乐团lonely+day] www.songtaste.com/song//
:: [尼康相机报价] product.it168.com/list/b/03050171_1.shtml
:: [哄抢救灾物资] pic.news.mop.com/gs///.shtml
:: [] www.1000dy.cn/
:: [剑荡天下+++展鹏] 74.53.27.3/~xx4ucom/bbs/simple/index.php?t31744.html
:: [人妖] play.zol.com.cn/detail/1659_1.html
:: [印尼排华是怎么回事] zhidao.baidu.com/question/
:: [东莞市塘厦新泰塑胶五金厂] www.hi-b2b.com/product/17w47204/index.shtml
:: [胡其美] www.gotostreet.com/bbs/ShowPost.Asp?ID=

  将文件中的tab更换成逗号

cat weblog.log|tr "\t" "," > weblog2.log

[kfk@bigdata-pro01 datas]$ cat weblog.log|tr "\t" "," > weblog2.log
[kfk@bigdata-pro01 datas]$ more weblog2.log
?::,,[360安全卫士], ,download.it.com.cn/softweb/software/firewall/antivirus//.html
::,,[哄抢救灾物资], ,news.21cn.com/social/daqian////4777194_1.shtml
::,,[75810部队], ,www.greatoo.com/greatoo_cn/list.asp?link_id=&title=%BE%DE%C2%D6%D0%C2%CE%C5
::,,[绳艺], ,www.jd-cd.com/jd_opus/xx//.html
::,,[汶川地震原因], ,www.big38.net/
::,,[莫衷一是的意思], ,www.chinabaike.com/article/////.html
::,,[星梦缘全集在线观看], ,www.6wei.net/dianshiju/????\xa1\xe9|????do=index
::,,[闪字吧], ,www.shanziba.com/
::,,[霍震霆与朱玲玲照片], ,bbs.gouzai.cn/thread-.html
::,,[电脑创业], ,ks.cn.yahoo.com/question/.html
::,,[111aa图片], ,www.fotolog.com.cn/tags/aa111
::,,[豆腐的制成], ,ks.cn.yahoo.com/question/.html
::,,[tudou.com+禁播电影], ,topic.bindou.com//
::,,[最佳受孕时间], ,ks.cn.yahoo.com/question/.html
::,,[捷克民歌土风舞++教案], ,shwamlys.blog.sohu.com/.html
::,,[pdf], ,download.it168.com////13947_3.shtml
::,,[喷嘭乐团lonely+day], ,www.songtaste.com/song//
::,,[尼康相机报价], ,product.it168.com/list/b/03050171_1.shtml
::,,[哄抢救灾物资], ,pic.news.mop.com/gs///.shtml
::,,[], ,www.1000dy.cn/
::,,[剑荡天下+++展鹏], ,74.53.27.3/~xx4ucom/bbs/simple/index.php?t31744.html
::,,[人妖], ,play.zol.com.cn/detail/1659_1.html
::,,[印尼排华是怎么回事], ,zhidao.baidu.com/question/
::,,[东莞市塘厦新泰塑胶五金厂], ,www.hi-b2b.com/product/17w47204/index.shtml
::,,[胡其美], ,www.gotostreet.com/bbs/ShowPost.Asp?ID=
欢迎大家,加入我的微信公众号:大数据躺过的坑     免费给分享
 
 
 

同时,大家可以关注我的个人博客

   http://www.cnblogs.com/zlslch/   和     http://www.cnblogs.com/lchzls/ 

   详情请见:http://www.cnblogs.com/zlslch/p/7473861.html

  人生苦短,我愿分享。本公众号将秉持活到老学到老学习无休止的交流分享开源精神,汇聚于互联网和个人学习工作的精华干货知识,一切来于互联网,反馈回互联网。
  目前研究领域:大数据、机器学习、深度学习、人工智能、数据挖掘、数据分析。 语言涉及:Java、Scala、Python、Shell、Linux等 。同时还涉及平常所使用的手机、电脑和互联网上的使用技巧、问题和实用软件。 只要你一直关注和呆在群里,每天必须有收获

以及对应本平台的QQ群:161156071(大数据躺过的坑)

如何快速将文本中的tab更换成逗号(图文详解)的更多相关文章

  1. windows系统里Cygwin中如何正确安装wget(图文详解)

    具体步骤,见如下: https://ftp.gnu.org/gnu/wget/ 解压到Cygwin的主目录中,一般是   你的Cygwin目录/home/当前用户名/ . 我这是如下     先./c ...

  2. windows系统下在忘记安装make的Cygwin中如何正确安装make(图文详解)

    由于我在安装cygwin时忘了包含make包,所以安装后发现我在bash中无法使用make命令.但是一般在cygwin下面的软件都是要用make来实现编译和安装的.没有make,又如何编译生成make ...

  3. spring中quatz的多定时任务配置图文详解

    近来公司让用quatz框架做定时功能,而且还是执行多定时任务,真是苦恼. 虽然从网上搜了很多资料,但是写法上不太尽如人意,最后还是请教了螃蟹大神,给的配置建议就是简单啊,现在拿来分享下: 这里我们需要 ...

  4. Spark Mllib里如何删除每一条数据中所有的双引号“”(图文详解)

    不多说,直接上干货! 具体,见 Hadoop+Spark大数据巨量分析与机器学习整合开发实战的第13章 使用决策树二元分类算法来预测分类StumbleUpon数据集

  5. ios怎样实现快速将显卡中数据读出压缩成视频在cocos2dx扩展开发中

    如果解决ios怎样实现快速将显卡中数据读出压缩成视频在cocos2dx扩展开发中 手机平台性能是个关键问题. 压缩视频分成3个步骤: 读取显卡数据, 使用编码器压缩,保存文件. 使用libav 压缩的 ...

  6. 图文详解Unity3D中Material的Tiling和Offset是怎么回事

    图文详解Unity3D中Material的Tiling和Offset是怎么回事 Tiling和Offset概述 Tiling表示UV坐标的缩放倍数,Offset表示UV坐标的起始位置. 这样说当然是隔 ...

  7. opencv中 int main(int argc,char* argv[])详解

    opencv中  int main(int argc,char* argv[])详解 argc是命令行总的参数个数     argv[]是argc个参数,其中第0个参数是程序的全名,以后的参数     ...

  8. SpringBoot中使用UEditor基本配置(图文详解)

    SpringBoot中使用UEditor基本配置(图文详解) 2018年03月12日 10:52:32 BigPotR 阅读数:4497   最近因工作需要,在自己研究百度的富文本编辑器UEditor ...

  9. javascript中的Base64.UTF8编码与解码详解

    javascript中的Base64.UTF8编码与解码详解 本文给大家介绍的是javascript中的Base64.UTF8编码与解码的函数源码分享以及使用范例,十分实用,推荐给小伙伴们,希望大家能 ...

随机推荐

  1. Appium之打开应用时提示框处理

    当打开一个应用时,会有一个无关紧要的提示框,如果要继续操作,需要先关闭提示框,如下图(如新用户福利提示): 此时,如果你直接用Appium inspector或者Android uiautomator ...

  2. android AlertDialog.Builder(Context context)换行

    今天无意中发现AlertDialog的 setMessage(String)的换行问题,很多人都说\n可以,不过的却原来就在java里面写好的是可以换行 ,但是如果这个string是在网页或者是其地方 ...

  3. 不写代码也能爬虫Web Scraper

    https://www.jianshu.com/p/d0a730464e0c web scraper中文网 http://www.iwebscraper.com/category/%E6%95%99% ...

  4. jenkins pipeline中执行nohup java -jar ***.jar & 的时候会忽略执行jar之后的命令

    搜索关键词:pipeline中执行nohup时忽略执行& 问题: 在做自动化部署的时候,脚本如下: sh "ssh root@'$target_ip' nohup '$java_ho ...

  5. C++ windows下共享内存

    转载:https://blog.csdn.net/tojohnonly/article/details/70246965 共享内存 (也叫内存映射文件) 主要是通过映射机制实现的 , Windows ...

  6. c#进阶之lambda表达式

    阅读之前,先确保对委托有基本的了解,传送门 c#进阶之浅析委托和事件. lambda表达式雏形第一步 在委托那篇文章,绑定的的方法都是具名函数,为了简化书写,可以换成匿名函数 public deleg ...

  7. ASP.NET MVC学习目录

    一.ASP.NET MVC原理详解 1.了解MVC架构模式 3.学习ASP.NET MVC的必备语言知识 4.MVC中的razor语法详解 5.ASP.NET MVC路由系统机制详细讲解 6.ASP. ...

  8. Android Dialog 的一些特性

    1. Dialog 与 AlertDialog 的区别. AlertDialog 是一种特殊形式的 Dialog.这个类中,我们可以添加一个,两个或者三个按钮,可以设置标题.所以,当我们想使用 Ale ...

  9. 【OCP 12c】最新CUUG OCP-071考试题库(61题)

    61.(18-6) choose the best answer: View the Exhibit and examine the structure of the CUSTOMERS table. ...

  10. 配置DNS服务器转发器

    1.(windows server 2008 r2)控制面板->管理工具->服务器管理器->DNS->服务器图标->属性 2.转发器->编辑 3.填写DNS并点击确 ...