最近 @甜瓜 (QQ:1069629945) 开发了一套NBA数据采集脚本, 我觉得很赞. 经他允许发布出来和大家分享一些经验: 球员球队: http://data.sports.sohu.com/nba/nba_team_info.php?teamid=1 .. 30 在1到30的循环中抓取球队信息, 球员信息并用id将其关联起来, 脚本如下: public void Run() { Logger.ClearAll(); ; i<=; i++) { Default.Navigate("h…
直接上代码: //参数1:访问的URL,参数2:post数据(不填则为GET),参数3:提交的$cookies,参数4:是否返回$cookies function curl_request($url,$post='',$cookie='', $returnCookie=0){ $curl = curl_init(); curl_setopt($curl, CURLOPT_URL, $url); curl_setopt($curl, CURLOPT_USERAGENT, 'Mozilla/5.0…
C# 脚本代码自动登录淘宝获取用户信息   最近遇到的一个需求是如何让程序自动登录淘宝, 获取用户名称等信息. 其实这个利用SS (SpiderStudio的简称) 实现起来非常简单. 十数行代码就可以做到非常完善: 1. 运行SS (下载地址), 编写脚本打开淘宝登陆页面: Default.Navigate("https://login.taobao.com/member/login.jhtml"); Default.Ready(); 2. 找到用户名, 密码的输入框, 输入信息,…
crawler4j是用Java实现的开源网络爬虫.提供了简单易用的接口,可以在几分钟内创建一个多线程网络爬虫.下面实例结合jsoup,采集搜狐新闻网(http://news.sohu.com/)新闻标题信息. 所有的过程仅需两步完成: 第一步:建立采集程序核心部分 /** * @date 2016年8月20日 上午11:52:13 * @version * @since JDK 1.8 */ public class MyCrawler extends WebCrawler { //链接地址过滤…
数据来源  https://www.sogou.com/labs/resource/cs.php介绍:来自搜狐新闻2012年6月—7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据,提供URL和正文信息格式说明:<doc><url>页面URL</url><docno>页面ID</docno><contenttitle>页面标题</contenttitle><content>页面内容</conten…
体验效果:http://hovertree.com/texiao/jquery/21/ 这是一款基于jquery实现的仿搜狐投票动画特效源码,运行该源码可见VS图标首先出现在中间位置,紧接着随着投票比例做左右移动(正方何问起,反方何雯琪).移动动画效果平滑自然.具有非常好的用户体验.该源码兼容目前最新的各类主流浏览器. 另外实现了投票的效果. 代码如下: <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"…
<!DOCTYPE html> <!--[if lt IE 7]> <html class="no-js lt-ie9 lt-ie8 lt-ie7"> <![endif]--> <!--[if IE 7]> <html class="no-js lt-ie9 lt-ie8"> <![endif]--> <!--[if IE 8]> <html class="…
前言: 搜狐云景作为搜狐的paas平台,在2014年5月22日的云计算大会上正式发布了公测.初测,注册用户必须先申请邀请码参与公测会赠送用户100元电子券,经过实名认证之后会再赠送100电子券,目测可以对试用用户基本app够跑半年. 除了用户中心的一些基本安全信息设置和各种账单外,我想主要对其控制台的使用进行研究一番. 废话不多说,在绑定邮箱并充值10元成正式用户之后,无阻挡进行各种测试吧. dashboard很清新干净,是一个对用户基本消费情况和使用资源服务的基本概览. -----------…
在CSDN上看到了<搜狐畅游发布3D游戏引擎Genesis-3D 基于MIT协议开源>(http://www.csdn.net/article/2013-11-21/2817585-changyou-Genesis-3D-open-source)的新闻,就把这个引擎下载安装了. 用过Unity3d的朋友会发现,Genesis-3D的界面非常类似于Unity3d:主菜单都是“新建工程”.“新建场景”:在场景树中可以创建摄像头.立方体.粒子.灯光等:在左下角的“工程”中可以创建C#脚本.材质.精灵…
一.简介 1)jieba 中文叫做结巴,是一款中文分词工具,https://github.com/fxsjy/jieba 2)word2vec 单词向量化工具,https://radimrehurek.com/gensim/models/word2vec.html 3)LR LogisticRegression中文叫做逻辑回归模型,是一种基础.常用的分类方法 二.步骤 0)建立jupyter notebook 桌面新建名字为基于word2vec的文档分类的文件夹,并进入该文件夹,按住shift,…
一.CacheCloud是做什么的 CacheCloud提供一个Redis云管理平台:实现多种类型(Redis Standalone.Redis Sentinel.Redis Cluster)自动部署.解决Redis实例碎片化现象.提供完善统计.监控.运维功能.减少开发人员的运维成本和误操作,提高机器的利用率,提供灵活的伸缩性,提供方便的接入客户端 二.CacheCloud提供哪些功能 监控统计: 提供了机器.应用.实例下各个维度数据的监控和统计界面. 一键开启: Redis Standalon…
转自:http://www.aboutyun.com/thread-7297-1-1.html Facebook放弃Cassandra之后,对HBase 0.89版本进行了大量稳定性优化,使它真正成为一个工业级可靠的结构化数据存储检索系统.Facebook的Puma.Titan.ODS时间序列监控系统都使用HBase作为后端数据存储系统.在国内公司的一些项目中也用到了HBase.   HBase隶属于Hadoop生态系统,从设计之初就十分注重系统的扩展性,对集群的动态扩展.负载均衡.容错.数据恢…
6月12日,搜狐新闻APP最新版本在华为应用市场正式上线啦! 那么,这一版本的搜狐新闻APP有什么亮点呢? 先抛个图,来直接感受下—— ​ 模糊图片,瞬间清晰! 效果杠杠的吧. 而藏在这项神操作背后的幕后操手, 竟然是HUAWEI HiAI Engine的图像超分辨率能力. 通过HUAWEI HiAI的图像超分能力处理的照片, 会更清晰,更锐利! 再看下图—— 就是这么任性~ 除此之外,HUAWEI HiAI Engine还提供了人脸识别. 图片识别.码识别.文本识别. 自然语音处理.自动语音识…
前言: 搜狐云景作为搜狐的paas平台,在2014年5月22日的云计算大会上正式公布了公測.初測,注冊用户必须先申请邀请码參与公測会赠送用户100元电子券,经过实名认证之后会再赠送100电子券.目測能够对试用用户基本app够跑半年. 除了用户中心的一些基本安全信息设置和各种账单外.我想主要对其控制台的使用进行研究一番. 废话不多说,在绑定邮箱并充值10元成正式用户之后,无阻挡进行各种測试吧. dashboard非常清新干净,是一个对用户基本消费情况和使用资源服务的基本概览. ----------…
Python伪开发者对于搜狐云景的测评 本人是GAE和OpenShift的狂热爱好者,玩过各种国外PaaS.某次想搞个稍微复杂点的Python Web程序,需要比较好的网络传输速度,就试图找前PM(Project Manager)要个国内的VPS耍一把.前PM表示近来搞了个搜狐云景的公测激活码,让我先试试,于是就有了我在SCE的第一个奇怪的Python应用. PS: SCE是搜狐云景是搜狐公司自主研发的与语言无关.可提供弹性伸缩服务的公有云PaaS平台,现致力发展成为最开放的PaaS平台. (无…
近期有需求将我们的应用部署到公有云的服务平台上,于是找了几家公有云服务做了一下调研, 首先对比一下他们提供的功能: 功能 SAE 搜狐云景 百度云 版本控制工具 svn  GIT,和百度云的比起来,用应用名称贴心多了. SVN+GIT,库名竟然是乱码(例如:appidrv71t5aq96),如果多个应用,真心分不清 文档 一般,需要自己琢磨尝试 按照文档基本可以完成 文档设计比较贴心,在每一个页面的旁边都有相关的文档链接 语言环境 PHP,Java,Python Java,PHP,Python,…
3000篇搜狐新闻语料数据预处理器的python实现 白宁超 2017年5月5日17:20:04 摘要: 关于自然语言处理模型训练亦或是数据挖掘.文本处理等等,均离不开数据清洗,数据预处理的工作.这里的数据不仅仅指狭义上的文本数据,当然也包括视频数据.语音数据.图片数据.监控的流数据等等.其中数据预处理也有必要强调下,决然不是简单是分词工具处理后,去去停用词那么简单.即使去停用词,你选择的粒度尺寸也是有影响的,这跟工作性质和精确度要求也有着紧密的联系.其次选择多大的规模以及怎样维度都是有讲究的.…
剑指Offer--搜狐畅游笔试题+知识点总结 情景回顾 时间:2016.9.24 10:00-12:00 地点:山东省网络环境智能计算技术重点实验室 事件:搜狐畅游笔试   注意事项:要有大局观,该舍弃的还是要舍弃,不要在一道编程题上占用超过30分钟的时间.当你思考了15分钟,还没有好的解决方式的时候,毅然舍弃!   搜狐畅游最后一部分居然是游戏相关的题目,一头雾水,自己只做了45分钟交卷.   涉及到的知识点如下,仅供参考. 常用的编程技巧: 对Spring IOC与AOP的理解:   详见博…
转载请把头部出处链接和尾部二维码一起转载,本文出自逆流的鱼:http://blog.csdn.net/hejjunlin/article/details/52510431 背景:仿爱奇艺视频,腾讯视频,搜狐视频首页推荐位轮播图介绍(一)只是介绍了如何使用及实现效果,今天将分析其源码及思路.为什么有这个库,在经常开发中,会碰到,显示广告位图片,精彩推荐,及比较好的,希望能直观显示到用户看的.那么SuperIndicator正是这样一个类库. github地址: https://github.com…
一.简介 此文是对利用jieba,word2vec,LR进行搜狐新闻文本分类的准确性的提升,数据集和分词过程一样,这里就不在叙述,读者可参考前面的处理过程 经过jieba分词,产生24000条分词结果(sohu_train.txt有24000行数据,每行对应一个分词结果) with open('cutWords_list.txt') as file: cutWords_list = [ k.split() for k in file ] 1)TfidfVectorizer模型 调用sklearn…
由浅入深理解Raft协议 2017-10-16 12:12操作系统/设计 0 - Raft协议和Paxos的因缘 读过Raft论文<In Search of an Understandable Consensus Algorithm>的同学都知道,Raft是因为Paxos而产生的.Paxos协议是出了名的难懂,而且不够详细,紧紧依据Paxos这篇论文开发出可用的系统是非常困难的.Raft的作者也说是被Paxos苦虐了无数个回合后,才设计出了Raft协议.作者的目标是设计一个足够详细并且简单易懂…
搜狐云景是搜狐推出的一款PaaS产品,眼下还处在公測阶段,拿到邀请码后试用了一下,感觉还不错. 搜狐云景提供了四种方式部署应用,感觉应该能够满足各种口味的码农:1. zip包的形式在网页上传并部署  2. CLI命令行  3.Git一键部署 4.Open API 用了几次网页上传的方式,认为有点烦,这里试试CLI命令行工具. 好了.废话不多说,開始搞起. 下载 在搜狐云景的官网=>文档=>资源下载 能够看到开发工具下载的页面.发现对Windows, Linux, Mac都支持,这个略叼. .…
最近,在使用搜狐Sendcloud发邮件.    Sendcloud提供http格式的webapi,方便地发送邮件,当然是要付费的. 很早之前,http工具一直用Httpclient,后来觉得jodd更简单,就倾向于jodd的一些工具库了. 使用jodd遇到一个问题:  当邮件内容比较大时,比如1万多字符的时候,发送邮件失败.Sendcloud服务器所在的Nginx,提示" 414 Request-URI Too Large ""<html> <head&g…
前言 最近研究了一下脚本语言的混淆方法,比如 python,javascript等.脚本语言属于动态语言,代码大多无法直接编译成二进制机器码,发行脚本基本上相当于暴露源码,这对于一些商业应用是无法接受的.因此对脚本代码进行加固,成为很多应用的首选.代码加固的一项措施是代码混淆,增加逆向人员阅读代码逻辑的难度,拖延被破解的时间. 今天讲解一下Python代码的混淆方法,Python代码一般用作web,提供服务接口,但也有一些桌面的应用,这一部分就需要对代码进行混淆保护.以一个开源项目pyminif…
从6月到10月,经过4个月努力和坚持,自己有幸拿到了网易雷火.京东.去哪儿.搜狐等10家互联网公司的校招Offer,因为某些自身原因最终选择了搜狐.6.7月主要是做系统复习.项目复盘.LeetCode与牛客刷题等准备工作,并且投了字节跳动.拼多多.猿辅导在内的几家公司的提前批,当然还是挂在了简历,因为毕竟自己的学校.学历.项目经验肯定比不过牛客网上那些大厂实习的大佬了,有时间也给自己做个总结,也希望能帮助到大家 (PS:再次编辑,感谢大家的支持,受宠若惊.私信问我要这些面试答案的,希望交流的朋友…
一.简介 本文主要是要利用百度提供的NLP接口对搜狐的新闻做分类,百度对NLP接口有提供免费的额度可以拿来练习,主要是利用了NLP里面有个文章分类的功能,可以顺便测试看看百度NLP分类做的准不准.详细功能与使用方式可以上(http://ai.baidu.com/tech/nlp/topictagger)观看. 二.建立爬虫 首先要先写一个可以快速爬取所有文章内容的爬虫程序,关于爬虫的原理可以看我之前写的介绍(https://www.cnblogs.com/yenpaul/p/9968015.ht…
Kali2.0系统自带的WiFite脚本代码中有几行错误,以下是修正后的代码: #!/usr/bin/python # -*- coding: utf-8 -*- """ wifite author: derv82 at gmail author: bwall @botnet_hunter (ballastsec@gmail.com) author: drone @dronesec (ballastsec@gmail.com) Thanks to everyone that…
狗输入法弹出搜狐新闻的解决办法(sohunews.exe) 1.找到搜狗输入法的安装目录(一般是C:\program files\sougou input\版本号\)2.右键点击sohunews.exe,选择安全选项卡(没有的看这里)3.选择高级,去掉勾“选从父项继承那些......”,在弹出的对话框中选择删除〉是〉确定这样就行了…
coreseek实战(四):php接口的使用,完善php脚本代码 在上一篇文章 coreseeek实战(三)中,已经能够正常搜索到结果,这篇文章主要是把 index.php 文件代码写得相对完整一点点(过滤.权重设定等等很多设置仍然没有使用),同时记录一下在测试过程中出现的问题. index.php代码稍微完善 <html> <head> <meta http-equiv="content-type" content="text/html;cha…
设置方法如下: 1,进入yum源配置目录cd /etc/yum.repos.d 2,备份系统自带的yum源mv CentOS-Base.repo CentOS-Base.repo.bak 下载163网易的yum源:wget http://mirrors.163.com/.help/CentOS6-Base-163.repo 更改文件名 mv CentOS6-Base-163.repo CentOS-Base.repo 3,更新玩yum源后,执行下边命令更新yum配置,使操作立即生效 yum cl…