文献文档用google搜索标题即可. term预处理:用空格切分,去除标点,去除撇号,归一化小写,去除变音符号,词干还原(?),去除停用词,挖掘词组. 索引选型工程最佳实践:term粒度.按doc分块.全内存索引 Variable Byte encoding索引压缩 posting list:high impact->high term freq->sort by docid 索引分层:高频更新-重要的小型索引,中频更新-较为重要的中型索引,低频更新-不重要的大型索引,MapReduce构建后…
HTTP 我们将只聚焦在于与创建 Web APIs有关的部分. HTTP 是信息系统中的一个应用层协议,是Web的支柱. 其原先由 Berners-Lee, Roy Fielding 和 Henrik Frystyk Nielsen 三位计算机科学家们创作的.HTTP 为 客户端与服务器端之间跨网络相互传输信息定义了一个接口.它隐藏了双方的实现细 节. HTTP 设计用来戏剧性地改变系统,而容许一定程度上的延迟和数据的过时. 这种设计允许 计算机中间媒体,如代理服务器来协调通信,提供诸多好处,…
1982年,诞生了 Internet; 1989年,诞生了World Wide Web . "World Wide Web"的构造为主要由 三部分构成: resources 资源 URIs 统一资源标识符 representations  呈现 其中,资源并不特指数据库之类的.任何东西可以是资源. URIs 分为两类: URLs 和URNs . URL 具有标识,并定位资源的功能. URN 则只是起标识作用. 通常讲,URI 默认指的是 URL. Google 建议,不要对实施了缓存的…
RESTful Web APIs_2013 I'm going to show you a better way to do distributed computing, using the ideas underlying the most successful distributed system in history: the World Wide Web.…
World Wide Web 原文:http://www.cnblogs.com/qiangsheng/archive/2008/03/21/1115728.html Internet service. The World Wide Web generates documents and presents them to Internet users in a standard format known as HTML. These documents can be linked togethe…
书籍介绍 Information Architecture for the World Wide Web, 3rd Edition<web信息架构:设计大型网站(第三版)> Designing Large-Scale Web Sites By Peter Morville, Louis Rosenfeld Publisher: O'Reilly Media Final Release Date: November 2006 Pages: 528   序 可用性问题,只有其中一些问题会产生严重后…
万维网 WWW (World Wide Web)并非某种特殊的计算机网络.万维网是一个大规模的.联机式的信息储藏所.万维网用链接的方法能非常方便地从因特网上的一个站点访问另一个站点,从而主动地按需获取丰富的信息.这种访问方式称为“链接”. 浏览器就是在用户计算机上的万维网客户程序.万维网文档所驻留的计算机则运行服务器程序,因此这个计算机也称为万维网服务器.客户程序向服务器程序发出请求,服务器程序向客户程序送回客户所要的万维网文档.在一个客户程序主窗口上显示出的万维网文档称为页面(page). 万…
ylbtech-建站手册-网站构建:万维网联盟(World Wide Web Consortium) 1.返回顶部 1. http://www.w3school.com.cn/site/site_w3c.asp 2. 2.返回顶部 1. 万维网联盟(W3C)创立了 WWW 标准. W3C 的使命是通过发展规范.指导方针.软件以及工具,来尽展万维网潜能. 万维网联盟(World Wide Web Consortium) 引自 Tim Berners-Lee,万维网的发明人,W3C 的主任及创立者:…
阅读OReilly.Web.Scraping.with.Python.2015.6笔记---Crawl 1.函数调用它自身,这样就形成了一个循环,一环套一环: from urllib.request import urlopen from bs4 import BeautifulSoup import re pages = set() def getLinks(pageUrl): global pages html = urlopen("http://en.wikipedia.org"…
阅读OReilly.Web.Scraping.with.Python.2015.6笔记---找出网页中所有的href 1.查找以<a>开头的所有文本,然后判断href是否在<a>里面,如果<a>里面有href,就像<a href=" " >,然后提取href的值. from urllib.request import urlopen from bs4 import BeautifulSoup html = urlopen("ht…
阅读OReilly.Web.Scraping.with.Python.2015.6笔记---BeautifulSoup---findAll 1..BeautifulSoup库的使用 BeautifulSoup通常用来分析爬虫抓取的Web文档. 其中findAll函数的使用情景: 链接:http://www.pythonscraping.com/pages/warandpeace.html 中内容如下: 文字部分有黑色,红色,和绿色的,其决定因素主要在于其中的: “<span class=”red…
第十一章.针对WEB的攻击技术 ----<图解HTTP>阅读笔记攻击目标---Web简单的HTTP协议本身并不存在安全性 问题,协议本身并不会成为被攻击的对象,应用HTTP的服务器和客户端,以及运行在服务器上的web应用才是被攻击的目标. 攻击漏洞: 1.HTTP不具备必要的安全技术,(不像远程登录使用的SSH可以构建安全等级高的服务):即使HTTP以及架设好服务器,但是在其上搭建Web应用时又需要重新自己搭载认证和回话管理功能,此时在用户自行设计重新搭载的过程中隐藏很多安全漏洞可以攻击. 2…
看Building Responsive Data Visualization for the Web时介绍到了Enquire,表示wiki类系统实现了它的核心思想. 有点好奇是如何实现的,所以大概看一下. 等订购的手账到了,做一下Enquire的读书笔记. https://en.wikipedia.org/wiki/ENQUIRE…
Introducing Information Architecture 信息架构简介 Chapter 1 Defining Information Architecture 信息架构的意义(我们盖房子,之后,房子影响我们) A Definition Tablets, Scrolls, Books, and Libraries 石板.卷轴.书籍,图书馆 Explaining IA to Others 解释IA What Isn’t Information Architecture? 什么不是IA…
1.HTTP协议无状态:客户端的请求与服务器的响应所发生的一系列行为简单的说是客户发送了请求,服务器就给客户端响应,它们彼此之间都没有记录下来.如: 顾客与自动售货机 普通顾客(非会员)与商场 2.cookie:把用户信息存放在客户端浏览器中,名-值 1)分类: A.不设置过期时间:cookie存放在内存,浏览器关闭,则cookie消失 B.设置过期时间:cookie存放在硬盘上,浏览器关闭再打开,cookie还在, 直到超过过期时间.浏览器可共享此cookie的数据. 2)操作步骤: 第一:实…
学习AngularJS的笔记,这个是英文版的,有些地方翻译的很随意,做的笔记不是很详细,用来自勉.觉得写下来要比看能理解的更深入点.有理解不对的地方还请前辈们纠正! 一.关于<Mastering Web Application Development with AngularJS >的pdf和书中示例代码下载: 百度网盘-Mastering Web Application Development with AngularJS 二.用到的工具有,chrome下的插件 Batarang ,用来查看…
https://www.owasp.org/index.php/Session_Management_Cheat_Sheet#Session_ID_Properties 会话简介 HTTP是一种无状态的协议,每一对请求和响应与其他的web交互是相互独立的,如果要跟踪用户的访问状态,就需要引入会话机制,对用户的访问序列进行管理. 会话管理,将认证和访问控制(也叫授权)连接起来,在认证之前可能有未认证的会话,在访问控制之后,要有会话销毁机制. 一旦认证的会话建立,会话ID就相当于最强的认证手段, 等…
Web服务器会做些什么: 1.建产连接:接受一个客户端连接,或者如果不希望与这个客户端建立连接,就将其关闭. 1)处理新连接 2)客户端主机名识别 3)通过ident确定客户端用户 ident在组织内部可以很好地工作,主要是因为以下原因导致在公共因特网上并不能很好地工作: 1.很多客户端PC没有运行ident识别协议守护进程软件 2.ident协议会使HTTP事务处理产生严重的时延 3.很多防火墙不允许ident流量进入 4.ident协议不安全,容易被伪伪 5.ident协议也不支持虚拟IP地…
版权声明:本文为博主原创文章,转载请注明出处.   作为web前端初学者,今天要记录的是三个控件的使用心得,分别是表格控件jqgrid,树形控件ztree,图表控件echarts.下边分别进行描述. 1.jqgrid 首先放官方demo网站上来,http://blog.mn886.net/jqGrid/,上面的描述还是挺有帮助的. jqgrid的添加是比较简单的,就是下载好之后将js文件和css文件分别放在相应的目录下,在使用时按照 <link rel="stylesheet"…
函数传参列表,获取方法arguments的使用 function arg(){ var str = '总共传了'+arguments.length+'个参数\n'; for(var i=0;i<arguments.length;i++){ str += '第'+(i+1)+'个参数值:'+arguments[i]+'\n'; } alert(str); } arg('Mrzou博客','PHP博客','WEB博客'); //总共传了3个参数//第1个参数值:Mrzou博客 //第2个参数值:PH…
第一章 概述 主要内容是介绍Web的基本概念,Restfull的基本概念及特性.最后介绍创建简单WebApi程序的步骤. Web的基本概念 IP/TCP协议簇分层,分为两种 链路层->网络层->传输层->应用层. 物理层->链路层->网络层->传输层->会话层->表示层->应用层 IP协议位于网络层只能提供不可靠的数据传输,所以需要使用传输层的可靠协议TCP.而HTTP在应用层是基于TCP协议的 Web资源 URI:Uniform Resource I…
去年年末,也就是大四上学期快要结束的时候,当时保研的事情确定了下来,终于有了一些空闲的时间可以学点实用的技术. 之前做数据库课程设计的时候,也接触过java web的知识,当时做了一个卖二手书籍的网站,但是由于掌握的技术不够,最后做出来的东西勉强能应付答辩.所以,想抽出时间继续昨晚这个项目.当时,我有些找工作的同学,已经在北京经历了找工作的艰辛,所以他们时常会举办一些小讲座,给学弟学妹传授找工作的经验,我也从这上面学到不少东西.<Java web 开发实战经典>这本书便是以为找工作的同学浩哥给…
作者: 沈慧 目前,许多WEB应用通过广告而维持生计,从在线广告中获益最多的是搜索应用,“adwords”模型就是一种用于搜索查询和广告匹配的模型.这一章介绍了在线广告的相关问题.在线算法.Adwords实现和问题等,具体框架如下图1所示. 图1  Web广告主要框架图 一.在线广告相关问题 1.当前WEB广告机会:网站上的展示广告.在线上商店自主选择的广告.搜索广告. 2.直投广告,通过应答查询词项时展示或者通过查询者查询广告具体参数来查询.采用“最近最优”策略,并度量广告的吸引力. 3.定向…
在买之前以为这本书是教你怎么去做一个web全栈工程师,以及介绍需要掌握的哪些技术的书,然而看的过程中才发现,是一本方法论的书.读起来的感觉有点像红衣教主的<我的互联网方法论>,以一些自己的经历和感悟来阐述web全栈工程师需要具备哪些素质,而不仅仅是需要哪些技术.这算是我买的书中看的最快的一本书.                  在阅读这本书之前,我对全栈工程师的理解还停留在node阶段,随着node在服务端的风生水起,有一段时间会认为使用nodejs作为服务端开发,前后端统一使用js开发,便…
看完前9章,也算是看完一半了吧,总结一下. 郭欣这个名字或许并不响亮,但是这本书写的确实真好!百度一下他的名字也能够看到他是某些公司的创始人和投资者,当然他本人必定是大牛无疑. 从网页的动静分离到网络带宽限制,然后是页面缓存.浏览器缓存,web服务器缓存,再到反向代理,web应用分离,整个流程下来厘清了架构web的所有层面,可以说到目前为止是我读过的最好的一本web架构书.书中都是一些概念和经验之谈,无法具体总结,也就只能写个总结吧,以表示自己在读或者读过.…
如果在面试或与资深人事交流的过程中,你能有效合理地展示出本章所给出的一些知识点,那么对你的评价就会是"对数据库有深入了解",甚至能加上"有设计数据表的经验",即便你说有过3年商业项目数据库操作的经验,那么别人也能相信. 相反,如果一个工作经验满3年的程序员或许动手编程能力不差,但无法在交流沟通过程中证明这点,或者干脆不知道怎么证明,那么对他的评价往往可能是"数据库层面,有过商业项目的经验,但只会些基本的增删改查(顶多再加上会视图存储过程等技术),无法独立担…
场景一,数据表规模不大,就几千行,即使不建索引,查询语句的返回时间也不长,这时建索引的意义就不大.当然,若就几千行,索引所占的空间也不多,所以这种情况下,顶多属于"性价比"不高. 场景二,某个商品表里有几百万条商品信息,同时每天会在一个时间点,往其中更新大概十万条左右的商品信息,现在用where语句查询特定商品时(比如where name = 'XXX')速度很慢.为了提升查询效率可以建索引,但当每天更新数据时,又会重建索引,这是要耗费时间的. 这时就需要综合考虑,甚至可以在更新前删除…
我们知道,Java方面的高级程序员一定得掌握Spring的技能,其中包括Spring 依赖注入(IOC),面向切面(AOP),和数据库的整合(比如和Hibernate整合或声明式事务等)以及Spring MVC架构.其中,Spring的依赖注入是重中之重,在面试时,面试官一定会问这方面的问题. 根据我的培训和面试经验,这方面的知识点虽然不难(初学者估计最多3天就能看明白并调通程序),但要把其中的各混淆点(也就是面试点)讲清楚不容易,换句话说,初级程序员在学习Spring IOC这部分的知识时,或…
学习该书前所用推荐书籍<名师讲坛—java开发实战经典> 一web开发前奏 1.1网页发展 首先搞懂. 1.HTTP:超级文本传输协议,是一种通讯协议. 通过这个网络协议WW浏览器与WWW服务器之间的通讯进行规定,并且通过这个协议我们可以浏览网页,通过网页从客户端写入信息,从服务端得到信息.而通常的HTTP消息包括”客户端->服务端“与”服务端->客户端“的消息传送,图解HTTP协议的功能: 是在客户端通过浏览器根据HTTP协议中向服务器端发出请求,通过服务器向文件系统做出相应的行…
什么是HTML 超文本标记语言(HyperText Markup Language,简称 HTML) HTML 是一门标记语言,标记语言由一套标记标签组成, 学习 HTML,其实就是学习标签 HTML的基本模板 标签: 由尖括号包裹单词构成,eg:<html>,所以标签不可能以数字开头 标签不区分大小写,推荐小写 标签可以嵌套,但不能交叉嵌套 错误示例:<a><b></a></b> 正确示例:<a><b></b>…