1. 预训练的BERT模型 从头开始训练一个BERT模型是一个成本非常高的工作,所以现在一般是直接去下载已经预训练好的BERT模型.结合迁移学习,实现所要完成的NLP任务.谷歌在github上已经开放了预训练好的不同大小的BERT模型,可以在谷歌官方的github repo中下载[1]. 以下是官方提供的可下载版本: 其中L表示的是encoder的层数,H表示的是隐藏层的大小(也就是最后的前馈网络中的神经元个数,等同于特征输出维度). 除此之外,谷歌还提供了BERT-uncased与BERT-c…
作者:韩信子@ShowMeAI 数据分析实战系列:http://www.showmeai.tech/tutorials/40 机器学习实战系列:http://www.showmeai.tech/tutorials/41 本文地址:http://www.showmeai.tech/article-detail/286 声明:版权所有,转载请联系平台与作者并注明出处 收藏ShowMeAI查看更多精彩内容 低代码开发,顾名思义,指的是软件开发过程中只需要编写少量代码就够了.与传统开发方式相比,低代码大…
100 open source Big Data architecture papers for data professionals. 读完这100篇论文 就能成大数据高手 作者 白宁超 2016年4月16日13:38:49 摘要:本文基于PayPal高级工程总监Anil Madan写的大数据文章,其中涵盖100篇大数据的论文,涵盖大数据技术栈(数据存储层.键值存储.面向列的存储.流式.交互式.实时系统.工具.库等),全部读懂你将会是大数据的顶级高手.作者通过引用Anil Madan原文和CS…
[说明] 本文翻译自新加坡国立大学何向南博士 et al.发布在<World Wide Web>(2017)上的一篇论文<Neural Collaborative Filtering>.本人英语水平一般+学术知识匮乏+语文水平拙劣,翻译权当进一步理解论文和提高专业英语水平,translate不到key point还请见谅. 何博士的主页:http://www.comp.nus.edu.sg/~xiangnan/ 本文原文:http://www.comp.nus.edu.sg/~xi…
小夕从7月份开始收到第一场面试邀请,到9月初基本结束了校招(面够了面够了T_T),深深的意识到今年的对话系统/chatbot方向是真的超级火呀.从微软主打情感计算的小冰,到百度主打智能家庭(与车联网?)的DuerOS和UNIT,到渗透在阿里许多产品的全能型智能客服小蜜,以及腾讯的小微和搜狗的汪仔,更不必说那些大佬坐镇的独角兽公司了,小夕深感以对话为主战场的NLP之风在工业界愈演愈烈,吓得小夕赶紧码了这篇文章. 1. 扫盲 对话的概念很大,从输入形式上分为文本和语音,本文当然只考虑文本.从对话目的…
http://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf  ucb关于spark的论文,对spark中核心组件RDD最原始.本质的理解,没有比这个更好的资料了.必读. Abstract RDDs provide a restricted form of shared memory, based on coarse grained transformations rather than fine-grained updates to…
The Unique MST Time Limit: 1000MS   Memory Limit: 10000K Total Submissions: 28207   Accepted: 10073 Description Given a connected undirected graph, tell if its minimum spanning tree is unique. Definition 1 (Spanning Tree): Consider a connected, undir…
APS是American Physics Society的简称.旗下比较有影响力的期刊有: "pra, prb, prc, prd, pre, prl, prstab, prstper, or rmp". 在旗下期刊的投稿中需遵循一套APS自己的风格.具体的要求详见这个网站:https://journals.aps.org/prl/authors . 这里并不会把网站的英文说明翻译一遍,大家看原文的要求可能能准确些.这里主要总结一下自己在准备APS投稿论文中遇到的一些问题. Latex…
RDD是Spark最基本,也是最根本的数据抽象.http://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf 是关于RDD的论文.如果觉得英文阅读太费时间,可以看这篇译文:http://shiyanjun.cn/archives/744.html 本文也是基于这篇论文和源码,分析RDD的实现. 第一个问题,RDD是什么?Resilient Distributed Datasets(RDD,) 弹性分布式数据集.RDD是只读的.分区记录的…
1.Being late is an unforgivable sin here.[我的翻译]在北京,迟到是不可饶恕的罪名.[标准答案]在这里迟到是不可原谅的.[对比分析]对自己的也是醉醉的了,Being late能看成Beijing late.还在想这句话怎么这么奇怪呢....[解题思路]         - 内部关系:描述关系         - 句子类型:动名词作主语          - 句子时态:一般现在时         - 句子成分:Being late 动名词作主语 is 系动词…