MIT6.006Lec02:DocumentDistance】的更多相关文章

MIT6.006是算法导论,Lec02讲的是Document Distance(文档距离),比如比较两个文档相似度或者搜索引擎中都会用到. 计算步骤为: 1.将每个文档分离为单词 2.统计词频 3.计算点积(并做除法) 说明: 1.“单词”指的是字母和数字(alphanumeric) 2.每个文档统计完词频后得到的list,可看作一个向量 3.两个文档间的相似度,是相似的单词除以总的单词,类似于两个向量的夹角公式 MIT6.006下载的相关资源中,给出了8个逐渐改善的代码版本,但本质都是一样的.…
MIT6.006是算法导论课,Lec03主要讲插入排序,归并排序,以及分析方法(递归树)等. 插入排序,可以分为线性插入排序.二分插入排序,区别在于当把数组中某元素插入到前面的有序列表中时,前者遍历,后者二分,后者更加稳定. 归并排序,是用分治思想处理,先分别排序,再合并. 递归树,我的理解是算法消耗时间T(n)用树状的结构,表示每次递归消耗的时间,这些时间累加就是T(n),而递归树的每一行和相邻行之间的关系也是比较容易观察的,这就容易写出时间复杂度的表达式了.另外有主定理可以使用. 参考了<算…
MIT6.006是Algo Intro这门课,据说语言使用python Lec01是讲peak finding,也就是峰值点 具体为: 一维情况下一个数组中a[i]>a[i-1]且a[i]>a[i+1]那么它是peak  边界时检查一个方向就ok 二维情况下需要某元素x比四个相邻元素都大,边界也类似一维去处理 只要找到一个peak返回就好 复杂度: 一维用二分,log n 二维先二分,二分后的一维数组遍历一下,所以是O(n*log n) 代码: # coding:utf8 # MIT6.006…
Internet,人们通常称为因特网,是当今世界上覆盖面最大和应用最广泛的网络.根据英语构词法,Internet是Inter + net,Inter-作为前缀在英语中表示“在一起,交互”,由此可知Internet的目的是让各个net交互.所以,Internet实质上是将世界上各个国家.各个网络运营商的多个网络相互连接构成的一个全球范围内的统一网,使各个网络之间能够相互到达.各个国家和运营商构建网络采用的底层技术和实现可能各不相同,但只要采用统一的上层协议(TCP/IP)就可以通过Internet…
通过爬虫 获取 官方文档库 如果想获取 相应的库 修改对应配置即可 代码如下 from urllib.parse import urljoin import requests from lxml import etree def get_data(page_num, key, file_name): """ 解析 page_num: 爬取页数 key: 爬取的关键字 file_name: 存入的文件 """ headers = { 'author…
本文介绍在MacOS下搭建Mit6.828/6.S081 fall2019实验环境的详细过程,包括riscv工具链.qemu和xv6,对于Linux系统同样可以参考. 介绍 只有了解底层原理才能写好上层应用,曾经几度想要系统地学习OS课程,尝试去看了<计算机操作系统>.<Operating Systems: Three Easy Pieces>.<UNIX环境高级编程>,均以半途而废告终.被大量的抽象概念所淹没,对操作系统如何工作,用户程序如何运行,与CPU等硬件如何交…
Mit6.828/6.S081 fall 2019的Lab1是Unix utilities,主要内容为利用xv6的系统调用实现sleep.pingpong.primes.find和xargs等工具.本文对各程序的实现思路及xv6的系统调用流程进行详细介绍. 前言 在实验之前,推荐阅读一下官网LEC1中提供的资料.其中Introduction是对该课程的的概述,examples则是几个系统编程的样例,这两部分快速浏览一遍即可.对于xv6 book的第一章,则建议稍微细致地阅读一遍,特别是对fork…
Lab01:Booting a PC 目录 Lab01:Booting a PC JOS BIOS 背景知识 8086的基本知识 GDB 常用调试指令 Real mode && Protected mode 实模式(real mode) 保护模式(protected mode) GDT/LDT JOS the initial template for our 6.828 kernel itself, named JOS BIOS basic input output system 在IBM…
之前我们讲到动态规划五步中有个Guessing猜,一般情况下猜有两种情况: 在猜和递归上:猜的是用于解决更大问题的子问题: 在子问题定义上:如果要猜更多,就要增加更多子问题. 下面我们来看如果像背包问题那样子问题比较多,该怎么去解决? 一.Piano / Guitar Fingering 给定n个按键,找到每个键应该用哪只手指去按.假设有F个手指,刚开始手指f按在p键上,如果转移到用手指g按键q,这个转移难度为定义为d(p, f, q, g). 动态规划的解决思路如下(红叉内的内容是因为只考虑了…
这节课主要针对字符串/序列上的问题,了解如果使用动态规划进行求解.上节课我们也讲过使用前缀和后缀的概念,他们如下所示: 接下来,我们通过三个问题来深入了解下动态规划使用前缀.后缀和子串怎么去解决括号问题,编辑距离,背包问题. 一.括号问题 Parenthesization 在进行一些列矩阵乘法时,我们如果设计括号,可以使计算更加高效? 解决过程如下图所示: 子问题:求矩阵们A的最优相乘方式: 猜:上一次矩阵相乘应在哪? 递归:最小化矩阵相乘的损失: 拓扑排序:增加子串的大小: 原问题:DP(0,…