目录 Beam Search快速理解及代码解析(上) Beam Search 贪心搜索 Beam Search Beam Search代码解析 准备初始输入 序列扩展 准备输出 总结 Beam Search快速理解及代码解析(下) Beam Search的问题 解决对策 随机采样 top-k采样 核采样(Nucleus sampling) 惩罚重复 代码解析 参考资料 Beam Search快速理解及代码解析(上) Beam Search 简单介绍一下在文本生成任务中常用的解码策略Beam Se…
Beam Search 简单介绍一下在文本生成任务中常用的解码策略Beam Search(集束搜索). 生成式任务相比普通的分类.tagging等NLP任务会复杂不少.在生成的时候,模型的输出是一个时间步一个时间步依次获得的,而且前面时间步的结果还会影响后面时间步的结果.也就是说,每一个时间步,模型给出的都是基于历史生成结果的条件概率.为了生成完整的句子,需要一个称为解码的额外动作来融合模型多个时间步的输出,而且使得最终得到的序列的每一步条件概率连乘起来最大. 在文本生成任务中,每一个时间步可能…
Beam Search的问题 先解释一下什么要对Beam Search进行改进.因为Beam Search虽然比贪心强了不少,但还是会生成出空洞.重复.前后矛盾的文本.如果你有文本生成经验,一定对这些现象并不陌生.在语言模型还不像如今的BERT.GPT这么厉害的时候,这种现象更加明显. 没有经验也没关系,我们来看一个论文里面的例子.输入模型的引文(context) "The study, published in the Proceedings of the They were cattle c…
之前我的一些文章都是在说Postgres的一些查询相关的代码.但是对于Postgres服务端是如何启动,后台进程是如何加载,服务端在哪里以及如何监听客户端的连接都没有一个清晰的逻辑.那么今天我来说说Postgres中的postmaster模块的代码,试着解答这些问题. 在正式讨论之前,我先说一下,代码主要涉及的是postgres源码的src/backend目录下的main,postmaster以及tcop模块. 关于postmaster这个命令,熟悉postgres的一定不会陌生.在Linux上…
今天我们对postmaster的以下细节进行讨论: backend的启动和client的连接请求的认证 客户端取消查询时的处理 接受pg_ctl的shutdown请求进行shutdown处理 2.与前端的交互 2.1backend的启动和client的连接请求的认证 关于backend的启动,其函数调用栈如下: PostmasterMain() |->ServerLoop() |->initMasks() |->for(;;) |->select() <--监听端口 |-&g…
php文件上传代码解析 is_uploaded_file()  //函数判断指定的文件是否是通过 HTTP POST 上传的,返回一个布尔值. $_FILES['upfile']['tmp_name']   //储存的临时文件名,一般是系统默认. is_uploaded_file($_FILES['upfile']['tmp_name'])  //判断上传是否成功. $upfile=$_FILES["upfile"]     //传输表单的name. $tmp_name=$upfile…
       学习JAVA不难,难的是没有多余的时间给你仔细学习.       伴随着项目的不断跟进,责任重于泰山,必须快速提升.       我不能期望把一本书或者一个项目完全吃透,只希望能用数量去换取多一点的进步.       看了多本JAVA基础教程以及快速的项目代码浏览之后,挑了本框架的书.       其实作为个人来说,感觉JAVA技术变更太快,以至于对于3年前书,就会感觉已经过时了,学了也没什么用.但是没办法,自己也没有更好的选择,只好随便捡起一杯老旧的框架书籍.读了起来!(质量确实…
什么是Web语义化 Web语义化是指使用恰当语义的html标签.class类名等内容,让页面具有良好的结构与含义,从而让人和机器都能快速理解网页内容.语义化的web页面一方面可以让机器在更少的人类干预情况下收集并研究网页的信息,从而可以读懂网页的内容,然后将收集汇总的信息进行分析,结果为人类所用:另一方面它可以让开发人员读懂结构和用户以及屏幕阅读器(如果访客有视障)能够读懂内容. 简单来说就是利于 SEO,便于阅读维护理解. 总结起来就是: 正确的标签做正确的事情 页面内容结构化 无CSS样子时…
最近在项目中需要对nodejs的require关键字做解析,并且替换require里的路径.一开始我希望nodejs既然作为脚本语言,内核提供一个官方的parser库应该是一个稳定可靠又灵活的渠道,然而nodejs里面只一个了一个加载js文件并得到对应的module的能力,module能获取export的函数及其对应的源代码的能力,但是代码已经是闭包过后的,实际上能力很有限. 而我实际上需要的是一个官方的js parser,我希望它是用nodejs写的,轻量的,能得到完整的AST.这样我们就可以…
原作者:阮一峰(ruanyifeng.com),现重新整理发布,感谢原作者的无私分享. 1.引言 今天中午,我突然想搞清楚 Unicode 和 UTF-8 之间的关系,就开始查资料. 这个问题比我想象的复杂,午饭后一直看到晚上9点,才算初步搞清楚. 下面就是我的总结,主要用来整理自己的思路.我尽量写得通俗易懂,希望能对其他朋友有用.毕竟,字符编码是计算机技术的基石,对于程序员来说尤其重要,字符编码的知识是必须要懂的. 学习交流: - 即时通讯开发交流3群:185926912[推荐] - 移动端I…