每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 笔者寄语:与前面的RsowballC分词不同的地方在于这是一个中文的分词包,简单易懂,分词是一个非常重要的步骤,可以通过一些字典,进行特定分词.大致分析步骤如下: 数据导入--选择分词字典--分词 但是下载步骤比较繁琐,可参考之前的博客: R语言·文本挖掘︱Rwordseg/rJava两包的安装(安到吐血) ------------------…
利用2018年政府工作报告的例子向大家展示一下R语言如何进行文本挖掘的~用到的包有jiebaR和wordcloud2. 1.安装并加载jiebaR install.packages("jiebaR") library(jiebaR) 2.以2018年政府工作报告为文本,进行分词 (1)首先要将2018年政府工作报告以txt的形式下载到R语言的工作路径中 读取文本: text<-readLines("E:/R-3.4.4/bin/workdirection/report.…
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- <数据挖掘之道>摘录话语:虽然我比较执着于Rwordseg,并不代表各位看管执着于我的执着,推荐结巴分词包,小巧玲珑,没有那么多幺蛾子,而且R版本和python版本都有,除了词性标注等分词包必备功能以外,jiebaR还加入了一些基础的文本分析算法,比如提取关键字(TFIDF).分析文本相似性等等,真是老少咸宜. 同时官网也有一个在线jieba…
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- R语言·文本挖掘︱Rwordseg/rJava两包的安装 笔者:文本挖掘中这两个包可谓是"老顽固",做文本挖掘必须要过的关卡,今天倒腾了一天,桌面下了一堆东西,终于弄出来了.故此,赶紧记录下来,以后可用: 关于这两个包的安装问题,有很多很多教程,很多方法,我就不一一介绍,如果我介绍的方法你安装不了,那你就得去下面的参考链接找找其他的方…
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- R语言︱文本挖掘套餐包之--XML+tm+SnowballC包 笔者寄语:文本挖掘.情感分析是目前非结构数据非常好用.有效的分析方式. 先针对文本挖掘这个套餐包做个简单了解.一般来说一个完整的文本挖掘解决流程是: 网页爬取数据--数据格式转化(分隔)--建立语料库--词频去噪--提取词干--创建文档-词频矩阵--后续分析(聚类.词云等) XML…
前言 中文分词是中文文本处理的一个基础步骤,也是中文人机自然语言交互的基础模块.不同于英文的是,中文句子中没有词的界限,因此在进行中文自然语言处理时,通常需要先进行分词,分词效果将直接影响词性.句法树等模块的效果.当然分词只是一个工具,场景不同,要求也不同.在人机自然语言交互中,成熟的中文分词算法能够达到更好的自然语言处理效果,帮助计算机理解复杂的中文语言.根据中文分词实现的原理和特点,可以分为: 基于词典分词算法 基于理解的分词方法 基于统计的机器学习算法 基于词典分词算法 基于词典分词算法,…
Linux字符集和系统语言设置-LANG,locale,LC_ALL,POSIX等命令及参数详解 1清风揽月10人评论5006人阅读2017-06-21 15:48:43   博文说明[前言]: 本文将通过个人口吻介绍Linux字符集和系统语言设置,包括LANG,locale,LC_ALL,POSIX等命令及参数详解的相关知识,在目前时间点[2017年6月21号]下,所掌握的技术水平有限,可能会存在不少知识理解不够深入或全面,望大家指出问题共同交流,在后续工作及学习中如发现本文内容与实际情况有所…
  本篇文章,小编为大家介绍,基于Java的打包jar.war.ear包的作用与区别详解.需要的朋友参考下   以最终客户的角度来看,JAR文件就是一种封装,他们不需要知道jar文件中有多少个.class文件,每个文件中的功能与作用,同样可以得到他们希望的结果.除jar以外对于J2EE来说还有war和ear.区别见下表:   JAR WAR EAR 英文 Java Archive file Web Archive file Enterprise Archive file 包含内容 class.p…
Fiddler抓取https请求 & Fiddler抓包工具常用功能详解   先来看一个小故事: 小T在测试APP时,打开某个页面展示异常,于是就跑到客户端开发小A那里说:“你这个页面做的有问题,页面展示异常”:小A说:“这哪是我的问题,你去找后台吧,后台接口返回数据有问题”:小T就屁颠屁颠的跑到后台接口开发小M那里说:“你接口返回数据有问题,改下吧”:小M看了看服务器日志说:“没找到报错啊,我这里服务正常,你抓个包看下吧”:小T郁闷了,屁颠屁颠的回去了想:“抓包?抓啥包?”: 以上故事,在实在…
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 笔者看到微信公众号探数寻理中提到郎大为Chiffon老师的wordcloud2,于是尝鲜准备用一下.但是在下载的时候,遇见很多问题,安装问题困扰着... 包中函数本身很好用,很简单,而且图形众多. -------------------------------------------- 一.wordcloud2包的安装 官方郎大为老师githu…
#清除内存空间 rm(list=ls()) #导入tm包 library(tm) library(SnowballC) #查看tm包的文档 #vignette("tm") ##1.Data Import 导入自带的路透社的20篇xml文档 #找到/texts/crude的目录,作为DirSource的输入,读取20篇xml文档 reut21578 <- system.file("texts", "crude", package = &quo…
---恢复内容开始--- 案例1:对主席的新年致辞进行分词,绘制出词云 掌握jieba分词的用法 1.加载包 library(devtools) library(tm) library(jiebaR) library(jiebaRD) library(tmcn) library(NLP)library(wordcloud2) 2.导入数据 news <- readLines('E:\\Udacity\\Data Analysis High\\R\\R_Study\\高级课程代码\\数据集\\第一…
本文作者:任坤,厦门大学王亚南经济研究院金融硕士生,研究兴趣为计算统计和金融量化交易,pipeR,learnR,rlist等项目的作者. 近年来,非关系型数据逐渐获得了更广泛的关注和使用.下面分别列举了一个典型的关系型数据表和一个典型的非关系型数据集. 关系型数据:一组学生的基本数据,包括姓名(Name).性别(Gender).年龄(Age)以及专业(Major). NAME GENDER AGE MAJOR Ken Male 24 Finance Ashley Female 25 Statis…
Netty 中文教程 (二) Hello World !详解 上一篇文章,笔者提供了一个Hello World 的Netty示例. 时间过去了这么久,准备解释一下示例代码. 1.HelloServer 详解 HelloServer首先定义了一个静态终态的变量---服务端绑定端口7878.至于为什么是这个7878端口,纯粹是笔者个人喜好.大家可以按照自己的习惯选择端口.当然了.常用的几个端口(例如:80,8080,843(Flash及Silverlight策略文件请求端口等等),3306(Mysq…
不多说,直接上干货! 很多地方都需用到这个知识点,比如Tableau里.   通常可以采取如python 和 r来作为数据处理的前期. Tableau学习系列之Tableau如何通过数据透视表方式读取数据文件(图文详解) 如何用Python来处理数据表的长宽转换(图文详解) 数据长宽转换是很常用的需求,特别是当是从Excel中导入的汇总表时,常常需要转换成一维表(长数据)才能提供给图表函数或者模型使用. 在R语言中,提供数据长宽转换的包主要有两个: reshape2::melt/dcast ti…
前言 上一篇介绍了Composer的功能,可以模拟get和post请求,get请求有些是不带参数的,这种比较容易,直接放到url地址栏就行.有些get请求会带有参数,本篇详细介绍url地址格式. 一.url详解 1.url就是我们平常打开百度在地址栏输入的:https:www.baidu.com,如下图,这个是最简单的url地址,打开的是百度的主页 2.再看一个稍微复杂一点的url,在百度输入框输入:上海悠悠博客园 3.查看url地址栏,对比之前的百度首页url地址,后面多了很多参数.当然最主要…
本篇转自博客:上海-悠悠 原文地址:http://www.cnblogs.com/yoyoketang/tag/fiddler/ 前言 上一篇介绍了Composer的功能,可以模拟get和post请求,get请求有些是不带参数的,这种比较容易,直接放到url地址栏就行.有些get请求会带有参数,本篇详细介绍url地址格式. 一.url详解 1.url就是我们平常打开百度在地址栏输入的:https:www.baidu.com,如下图,这个是最简单的url地址,打开的是百度的主页 2.再看一个稍微复…
并发(并行),一直以来都是一个编程语言里的核心主题之一,也是被开发者关注最多的话题:Go语言作为一个出道以来就自带 『高并发』光环的富二代编程语言,它的并发(并行)编程肯定是值得开发者去探究的,而Go语言中的并发(并行)编程是经由goroutine实现的,goroutine是golang最重要的特性之一,具有使用成本低.消耗资源低.能效高等特点,官方宣称原生goroutine并发成千上万不成问题,于是它也成为Gopher们经常使用的特性. 一.goroutine简介 Golang被极度赞扬的是它…
配置原因第三方包的体积过大,不方便团队成员之间共享项目源代码共享时剔除node_modules 快速创建 package.json(只能在英文的目录下成功运行) npm init -y npm i 一次性安装所有的依赖包   { name: 包名称, version: 版本号(大版本号.功能版本号.bug版本号), main: 入口文件(外部在导入的时候,直接写包名,那么系统就会去找这个main的属性,然后找到对应的入口文件去执行,默认是 index.js), description: 描述信息…
1.使用基础包.使用函数pdf()输出 在使用pdf()函数时,要输出中文,仅仅有一种字体可选. 样例: pdf("chinese.pdf",family="GB1") plot(m2,xlab="高度",ylab="体重",main="统计") dev.off() 这里字体參数family仅仅能设置成"GB1"(不知是否还有其它字体可选),默认宋体. 2.使用Cairo包.使用Cair…
先安装JRE,在电脑中添加环境变量: 电脑-右键-属性-高级系统设置-环境变量-用户变量下新建:变量名:JAVA-HOME,变量值:JRE安装路径(到jre1.8***这个文件夹就行了) 系统变量下找到变量名为Path的编辑,在值后面添加:    ;%JAVA_HOME%\bin; 完成后进入R,运行     Sys.setenv(JAVA_HOME='你JRE的安装路径,和添加的环境变量路径相同//jre') 完成后再从新载入包,我之前用的R是64位的,又报错了,换成32位即可…
岭回归技术的原理和应用 作者马文敏 岭回归分析是一种专用于共线性分析的有偏估计回归方法,实质上是一种改良的最小二乘估计法,通过放弃最小二乘法的无偏性,以损失部分信息,降低精度为代价获得回归系数更为符合实际,更可靠的回归方法,对病态数据的耐受性远远强于最小二乘法. 回归分析:他是确立两种或两种以上变量间相互依赖的定量关系的一种统计分析法.运用十分广泛,回归分析按照设计量的多少,分为一元回归和多元回归分析,按照因变量的多少,可分为简单回归分析和多重回归分析,按照自变量和因变量的多少类型可分为线性回归…
jta.jar 标准JTA API必要commons-collections.jar 集合类 必要antlr.jar  ANother Tool for Language Recognition 必要asm.jar  ASM字节码库  如果使用“cglib” 则必要asm-attrs.jar  ASM字节码库 如果使用“cglib” 则必要ehcache.jar  EHCache缓存  如果没有其他的缓存,则是必要的cglib.jar  CGLIB字节码解释器  如果使用“cglib” 则必要c…
http://machael.blog.51cto.com/829462/213477 上一篇日志写到,为什么要制作rpm包,以及如何使用.src.rpm文件生成rpm包.最后部分还看到.src.rpm的内容,实际上 就是由.tar.gz源码.补丁软件和.spec脚本组成的.由此知道,使用.spec生成rpm包是比较简单的,因为.src.rpm通常都是由软件开 发者或者第三方的专业制作人根据源码调试好的,所以,只要处理好平台兼容性和相关的版本,不会遇到太大的问题.   但我觉得单纯明白用.spe…
不多说,直接上干货! 问题详情 在这里面如何英文改中文的吗? 莫非要把linux的语言环境给改了?? 我找找网页的语言字体怎么更改下 找到对应页面,修改成中文 解决办法 刷新下,即可 欢迎大家,加入我的微信公众号:大数据躺过的坑        人工智能躺过的坑       同时,大家可以关注我的个人博客:    http://www.cnblogs.com/zlslch/   和     http://www.cnblogs.com/lchzls/      http://www.cnblogs…
很多小伙伴包括我自己,在使用spring的时候导入了一堆jar包,但是并不明白每个jar的用途,使用spring的不同功能时也不知该导入哪个jar包,今天记录一下spring各个jar包的含义,供大家参考: Spring常用jar包功能介绍: org.springframework.aop ——Spring的面向切面编程,提供AOP(面向切面编程)的实现 org.springframework.asm——spring 2.5.6的时候需要asm jar包,spring3.0开始提供它自己独立的a…
很多小伙伴包括我自己,在使用spring的时候导入了一堆jar包,但是并不明白每个jar的用途,使用spring的不同功能时也不知该导入哪个jar包,今天记录一下spring各个jar包的含义,供大家参考: Spring常用jar包功能介绍: org.springframework.aop ——Spring的面向切面编程,提供AOP(面向切面编程)的实现 org.springframework.asm——spring 2.5.6的时候需要asm jar包,spring3.0开始提供它自己独立的a…
C语言可执行代码结构  名称 内容 代码段  可执行代码.字符串常量 数据段  已初始化全局变量.已初始化全局静态变量.局部静态变量.常量数据 BSS段  未初始化全局变量,未初始化全局静态变量 栈  局部变量.函数参数 堆  动态内存分配         一般情况下,一个可执行二进制程序(更确切的说,在Linux操作系统下为一个进程单元,在UC/OSII中被称为任务)在存储(没有调入到内存运行)时拥有3个部分,分别是代码段(text).数据段(data)和BSS段.这3个部分一起组成了该可执行…
相关jar包分享:struts2+hibernate3+spring3 以及aop ,mysql,以及整合必须包. 链接:https://pan.baidu.com/s/1nCHmSsKU0hiV8DTj_V03sQ 密码:29nf 在学习spring和hibernate的基础后,试着将三大框架整合,下面以登陆为例,作为学习笔记供初学者参考. 总结一下思路: 第一步:从客户端获取用户输入数据,即用户名和密码,然后交给action处理. 第二步:action需要使用service接口提供的功能,如…
一.基础部分: 1.设置代理ip及端口,tools --> telerik fiddler options --> connections -->勾选 “ Allow romote computers to connect”,端口修改成自己想要的端口号. 2.设置手机代理或浏览器代理,手机进入与fiddler相同局域网络WIFI --> 修改网络 --> 代理选择“手动” --> 输入ip.端口(浏览器设置代理不作描述). 二.fiddler4常用功能: 1.篡改用户请…