使用word2vec训练词向量 使用word2vec无监督学习训练词向量,输入的是训练数据和测试数据,输出的是每个词的词向量,总共三百个词左右. 求和:然后再将每行数据中的每个词的词向量加和,得到每行的词向量表示. 其他还可以通过求平均,求众数或者最大值等等方法得到每行的词向量表示. 代码如下: import time import csv import pickle import numpy as np import xgboost as xgb from sklearn.model_sele…
主要工作 本周主要是跑了下n-gram模型,并调了下参数.大概看了几篇论文,有几个处理方法不错,准备下周代码实现一下. xgboost参数设置为: param = {'max_depth': 6, 'eta': 0.1, 'eval_metric': 'mlogloss', 'silent': 1, 'objective': 'multi:softprob', 'num_class': 8, 'subsample': 0.5, 'colsample_bytree': 0.85} n-gram模型…
XGBoost学习: 集成学习将多个弱学习器结合起来,优势互补,可以达到强学习器的效果.要想得到最好的集成效果,这些弱学习器应当"好而不同". 根据个体学习器的生成方法,集成学习方法可以分为两大类,序列化方法,并行化方法.序列化方法的代表就是Boosting方法,其中XGBoost和lightGBN都属于此类. Boosting的方法是先从初始训练集训练出一个基学习器.然后再对训练样本的分布做一些调整,使得前一个学习器分类错误的样本得到更多的关注,再以此训练下一个基学习器. 依次类推,…
TF-IDF模型调参 1. 调TfidfVectorizer的参数 ngram_range, min_df, max_df: 上一篇博客调了ngram_range这个参数,得出了ngram_range=(1, 4)时效果最好这个结论,并在线上验证了下. 本篇博客继续调其他的参数.考虑到训练的速度,先将ngram_range设置为(1, 1),调min_df: min_df train-mlogloss val-mlogloss 1 0.103793 0.406085 2 0.1091895 0.…
1. 比赛介绍 比赛地址:阿里云恶意程序检测新人赛 这个比赛和已结束的第三届阿里云安全算法挑战赛赛题类似,是一个开放的长期赛. 2. 前期准备 因为训练数据量比较大,本地CPU跑不起来,所以决定用Google的Colaboratory来跑,期间也遇到了几个坑. 首先是文件上传比较慢,几个G的文件直接上传比较耗时,上传压缩包后解压又出现了问题,最后还是得等着上传完,期间换了好几个VPN节点. 解压缩的问题:用unzip命令解压,速度很慢,经常解压到一半就不动了或者与colab的连接断掉了(可能是网…
Colab连接与数据预处理 Colab连接方法见上一篇博客 数据预处理: import pandas as pd import pickle import numpy as np # 训练数据和测试数据路径 train_path = './security_train.csv' test_path = './security_test.csv' # 将csv格式的训练数据处理为txt文本,只包含文件标签和api序列 def read_train_file(path): labels = [] #…
阿里云清明节前刚刚推出了小程序云应用扶持计划一期活动 (活动链接见文章底部).假期研究了下以后,发觉不太给力.基本上就是给了2个月的免费测试环境,和平均2个月的基础版生产环境.而如果选用标准版生产环境,则免费天数只有15天,等于没有.2个月时间对一个项目的初始试验往往不太够.对比小程序云的套餐思路, 我们自主搭建小程序部署环境, 可以有半年(6个月)的免费期, 这就足以支撑一个项目的初始试验了.   首先,仔细研究了下测试环境和生产环境的配置,发现阿里其实就是把云服务器(ECS),云数据库RDS…
转载请注明出处,谢谢. Android系统开放,各大论坛活跃,应用程序分发渠道广泛,这也就为恶意软件的传播提供了良好的环境.好在手机上安装了安全软件,是否能有效的检测出恶意软件呢?下边针对LBE安全大师.腾讯安全管家和360手机卫士做出一系列实验. 1. Android恶意样本实验. Android Malware Genome Project(http://www.malgenomeproject.org/)收集了2010年8月到2011年10月的涵盖主要恶意软件类型的超过1200个恶意程序样…
近日在阿里云ECS服务器(centos系统)中安装docker,参考官方指南 https://docs.docker.com/engine/installation/linux/centos/  大概流程都能跑通,但是中途发生了一些意外情况,特记录备案以免后来再次踩坑.   一.需要有登录ECS的工具(推荐Xshell)和拥有root权限的用户.   二.确保linux内核版本是3.10以上并且是64位的centos版本.如果不能满足这个前提,建议看官绕道走吧.        检查linux版本…
配置前端协议是443,后端是80 问题1记录: 例如访问https://www.xxx.com,在后端服务器上面获取是http还是https请求协议实际上是http: 因为我们先请求负载均衡,负载均衡在转发通过http:80请求真实的后端服务器,所以后端获取的就是http 解决方案: 1.在后端用X-Forwarded-Proto获取真正的监听协议,以下是阿里云附加请求头的扩展字段: 2.第二种解决方案不推荐,就是在后端配置443端口,在加一个8080端口,然后负载均衡监听后端8080端口,80…
Postgresql简介 官方网站:https://www.postgresql.org/ 简介参考zhihu文章 https://www.zhihu.com/question/20010554 关于框架+DB的一些性能参考性能测试(仅供参考) http://www.techempower.com/benchmarks/#section=data-r15&hw=ph&test=fortune 一.更新rpm源 1.打开官网https://yum.postgresql.org/repopac…
最近负责的系统安全要求接入CDN,避免DDOS之类攻击,然后华丽丽踩了两个大坑.回顾问题原因后,发现还是相关人员都对CDN原理不够熟悉.了解导致. 坑一:默认支持的文件上传最大是300M 问题现象: 接入CDN后,连续两个用户反馈视频上传失败.系统对视频最大长度有限制,一开始引导用户确认时长,后来给力的用户居然定位到精超过300M就上传失败. 问题原因: 1.除了接入CDN,系统未进行任何变更,因此很快定位到是接入CDN导致. 2.跟阿里云咨询,确认如下:默认支持的最大文件为300M:可以申请放…
Redis下载地址:https://redis.io/download(这个连接可能得翻墙查看,但是在centos7服务器上安装过程不需要翻墙,我查看了最新的是redis-4.0.9.tar.gz ) 1.在centOS里通过wget下载redis wget http://download.redis.io/releases/redis-4.0.9.tar.gz 2.在/usr/local里面创建redis目录(这个是安装目录,自己随意放) cd /usr/local mkdir redis 3…
http://cloud.it168.com/a2018/0801/3216/000003216642.shtml#articlecomment https://mbd.baidu.com/newspage/data/landingsuper?context=%7B%22nid%22%3A%22news_15438927214573690528%22%7D&n_type=0&p_from=1…
# sudo apt-get install pptpd   http://blog.kunyu.li/digitalocean-ubuntu-vps-vpn.html     iptables管理 http://abublog.com/ubuntu_iptables.html   MySql安装 http://blog.fens.me/linux-mysql-install/ …
1. 需要使用yum源自动安装的软件: yum -y install autoconf bzip2 bzip2-devel curl curl-devel e2fsprogs e2fsprogs-devel zlib* zlib-devel openssl openssl-devel pcre-devel gd gd-devel kernel keyutils patch perl perl-devel perl-ExtUtils-Embed kernel-headers mpfr cpp gl…
Malware detection 目录 可执行文件简介 检测方法概述 资源及参考文献 可执行文件简介 ELF(Executable Linkable Format) linux下的可执行文件格式,按照ELF格式编写的文件包括:.so..a等 PE(Portable Executable) windows下的可执行文件格式,按照PE格式编写的文件包括: .dll..lib..exe等 参考文献[3]中对ELF的各个字段作了详细介绍 Linux和Windows可执行文件分类: ELF文件类型 说明…
提示:阅读本文需提前了解的相关知识 1.阿里云(https://www.aliyun.com) 2.阿里云CDN(https://www.aliyun.com/product/cdn) 3.阿里云OSS(https://www.aliyun.com/product/oss) 4.HTTPS(http://baike.baidu.com/view/14121.htm) 阅读目录结构 引: 一.准备工作 二.整体功能结构 三.具体实现步骤 四.关键点和问题处理 五.延伸与扩展 六.总结与思考 引:…
阿里云用户:morenocjm 实践是检验真理的唯一标准,学习技术需要通过实践过程中的不断尝试,才能够快速掌握要领.OTS是构建在阿里云飞天分布式系统之上的NoSQL数据库服务,提供海量结构化数据的存储和实时访问.刚好想用手上的一台ECS做点什么,既然如此,那就通过搭建简单线上产品(alijot.com 快速记)的过程,学习下NoSQL数据库OTS吧. ------------------------------------------------------------------------…
作为首次“全面上云”的双11,阿里云征服了每秒订单峰值54.4万笔的世界新记录.正是在阿里云的保驾护航下,即使访问量是平时的5到6倍,小程序也鲜少出现卡顿或者宕机的现象,“依靠阿里云,我们整个天猫双11活动平稳落地.”一位小程序商家说到. 要问支付宝小程序商家本次“天猫双11”最大的感触是什么,许多人回答了两个字:“涨”和“稳”. 用户数在涨.订单量在涨.收藏量在涨…尽管双11的主战场在天猫,但支付宝端内的小程序商家们也乘着“双11”的东风,通过中心化与去中心化相结合的自运营模式,收获一条陡峭的…
2019 年 6 月 24 日至 26 日, 由 Cloud Native Computing Foundation (CNCF) 主办的云原生技术大会 KubeCon + CloudNativeCon + Open Source Summit(上海 )即将在中国上海盛装启幕. 继 2018 年 KubeCon 首次成功登陆中国,本届 KubeCon 将吸引来自全世界数千名技术人员将会参加此次盛会,参与CNCF 全部项目和话题的深度探讨和案例分析,聆听 CNCF 项目的运维者和最终用户的分享.本…
背景:           一客户将线下电商网站迁移到阿里云上,公网出口使用阿里云SLB,SLB后端实例为ECS(webserver)web服务使用nginx.后端APP服务器使用了tomcat:tomcat根目录为xxx,应用程序放在其根目录下的一个二级目录AAA,要求公网用户通过域名访问时能直接重定向到二级目录AAA,而不需要手动输入AAA路径来访问网站. 网络示意图如下: 问题出现: 首先按照正常的配置流程完成后,在浏览器中通过域名加路径的方式能够正常访问,当在nginx上做过url重定向…
date:2019-07-04  17:59:19 author: headsen chen 配置WAF防护策略 本页目录 操作步骤 网站接入Web应用防火墙(WAF)后,WAF以默认防护策略为其过滤常见Web攻击(如SQL注入.XSS等)和CC攻击.您可以根据实际业务需求启用更多的WAF防护功能和调整WAF防护策略. 操作步骤 登录云盾Web应用防火墙控制台. 在页面上方选择地域:中国大陆.海外地区. 前往管理 > 网站配置页面,选择要操作的域名,单击其操作列下的防护配置. 开启需要的防护功能…
1.前言 转眼又要过了一年了 好久没写博客了,人不学就要落后,今天有时间把以前弄的发送阿里云短信验证码登录记录一下. 2.准备条件 1)去阿里云官网注册一个账号.有账号直接登录就行,以前新人好像有免费的短信可以学习 ,现在我们只能购买了 先开通短信服务然后去购买 购买链接 2)跳转到控制台的短信服务点击国内消息签名模板 右边点添加签名.后面在模板管理哪里添加模板  . 模板这个签名的意思就是 发送短信验证码的头部,类似于发票的抬头文字  一般个人只能申请一个验证码签名.企业的不知道(没试过...…
php的文件上传 文件上传 php的文件上传放在了$_FILES数组里,单文件和多文件上传的区别在于$_FILES['userfile']['name']是否为数组, 不熟悉的可以读一下官方文档 单文件上传. 多文件上传 阿里云oss web直传实践 这里采用的是服务端签名后上传,没有使用回调. 阿里云提供了一个php和前端的示例,不过有点坑人,前端采用的是plupload插件,这种demo应该使用原生js更合适啊,毕竟上传的js插件各不相同. 使用jquery的ajax上传时,始终上传失败,于…
整体原理: 阿里云提供了c程序上传文件到阿里云服务器的sdk工具包,将这个工具包继承在自己的客户端,调用接口即可实现上传文件. 前期准备: 1.阿里云c程序客户端的sdk,下载地址:https://help.aliyun.com/document_detail/32131.html?spm=5176.doc32139.6.768.JIh6Dh (如果地址不对,可以在阿里云的帮助文档中找) 2.安装vs2010或以上版本,目的是为了编译生成oss_c_sdk.lib静态链接库 操作步骤: 1.将下…
(上图是今天出问题期间Web服务器性能监控图,紫色表示的是Request Execution Time) 昨天我们发布了一篇博客分享了我们这两天遇到的OCS(开放缓存服务)问题,详见云计算之路-阿里云上:愚人节被阿里云OCS愚. 后来,阿里云确认了问题的原因:在OCS升级过程中造成了写入的缓存数据过期时间丢失,只需删除这些有问题的缓存数据就不会再出现这个问题. 今天一大早访问低峰的时候,我们进行了清空OCS实例缓存的操作,解决了OCS缓存不能过期的问题. 今天中午11:30左右,园子访问速度突然…
基于深度学习的安卓恶意应用检测 from:http://www.xml-data.org/JSJYY/2017-6-1650.htm 苏志达, 祝跃飞, 刘龙     摘要: 针对传统安卓恶意程序检测技术检测准确率低,对采用了重打包和代码混淆等技术的安卓恶意程序无法成功识别等问题,设计并实现了DeepDroid算法.首先,提取安卓应用程序的静态特征和动态特征,结合静态特征和动态特征生成应用程序的特征向量:然后,使用深度学习算法中的深度置信网络(DBN)对收集到的训练集进行训练,生成深度学习网络:…
写在前面:  使用jvisualvm远程监控tomcat(阿里云ECS),连接是报错:service:jmx:rmi:////jndi/rmi:IP:端口//  连接到 IP:端口,网上找了很多资料,未能解决,现已解决,记录下,供参考 本文为本地jvisualvm远程监控阿里云ecs服务器tomcat实践 准备工作: 1.服务器上安装好jdk,在linux命令环境执行java -version,显示如下图则表示安装成功 2.tomcat,并启动tomcat并能在本地正常访问,如下图: 3.修改t…
近年来,随着越来越多的企业从传统经济向数字经济转型,云已经渐渐成为数据经济IT新常态.核心业务系统上云,云上的业务创新,这些都产生了大量的业务数据,这些数据也成为了企业最重要的资产.资源. 阿里云基于OSS的云上统一数据保护方案2.0,针对业务上云后数据保护所面临的挑战,提供多层次.全方位的数据保护解决方案,让您业务上云,数据无忧. 阿里云基于OSS的云上统一数据保护方案2.0,能够应对数据在使用.存储的过程中遇到的风险,通过其云原生的基础能力,为企业提供了多元化.多维度的数据保护解决方案. 业…