楼主NLP初学者一名,有幸参加2018年CVTE中央研究院自然语言处理电话面试,问题总结如下: 1.详细的介绍自己的学术论文(感觉他们非常重视这块),会问你网络的具体构造,注意力机制如何计算以及为何你要这么做.最后会问你感觉你的创新点在哪里以及论文的级别. 2.HMM实现中文分词的原理和步骤. 3.BiLSTM-CRF实现命名实体识别的步骤:CRF是有向图还是无向图:CRF原理简单阐述. 4.Word2Vec的原理:词向量是网络的输出结果吗:词向量在网络的哪部分得到. 5.贝叶斯公式:先验概率和…
本文转载自:http://www.huaxiaozhuan.com/ 这是一份机器学习算法和技能的学习手册,可以作为学习工作的参考,都看一遍应该能收获满满吧. 作者华校专,曾任阿里巴巴资深算法工程师,现任智易科技首席算法研究员,<Python 大战机器学习>的作者. 这是作者多年以来学习总结的笔记,经整理之后开源于世.目前还有约一半的内容在陆续整理中,已经整理好的内容放置在此. 曾有出版社约稿,但是考虑到出版时间周期较长,而且书本购买成本高不利于技术广泛传播,因此作者采取开源的形式. 笔记内容…
1.前言 最近(2018.4.1)在百忙之中开通了博客,希望能够把自己所学所想沉淀下来,这篇是我开始系统学习python,成为数据分析师和算法工程师之路的计划,望有志于为同样目标奋斗的数据猿一起交流和学习. 2.Python学习计划 2.1 学习计划 (1)找一本浅显易懂,例程比较好的教程,从头到尾看下去.不要看很多本,专注于一本. (2)去找一个实际项目练手.(参照Crossin的编程教室-Python入门,Python的练手项目) 4月~5月:廖雪峰老师的python基础课程 5月~6月:看…
一般算法工程师做标注,都要先开发个标注工具,无非下面几个选项: 1.mfc,C#,优点是交互界面友好,开发难度适中,缺点是没法跨平台 2.matlab,优点是可以跨平台,开发难度非常低,缺点是速度慢.交互界面很烂 3.搭个服务(土豪选项),直接服务器上搭个标注服务,再写个界面,标注人员通过浏览器打开页面就能标注,标注结果保存在数据库,工程师直接几行命令或者点几个按钮就能获取到数据.优点是高大上,跨平台,可以系统化管理,看着特nb,缺点是开发成本有点高,至少得找个全栈开发实习生,搞出来这一套后还得…
阿里面试总结: 一遍一遍地刷阿里网站,今天发现“面试中”变成“待跟进offer”了,写个面经攒人品,希望offer通知邮件早点来吧. 我当时投简历时投了C/C++工程师,其实也没经过啥考虑,因为我一开始是把重点放在进网易游戏或者腾讯游戏部门,投阿里就纯粹出于增加点面试经验,随便找了个C/C++工程师岗位就找人内推了(后转为算法工程师). 一面(3月16日):电话打来时手机显示北京电话,还以为是诈骗的(囧...).听声音,这位阿里面试官大概是三十多岁,有点资历的人吧.一开始让我介绍项目,然后我就把…
本人本科硕士皆双非,和牛客大佬们没得比,目前拿到的还可以的offer就是百度SP和京东SP,都是做的推荐算法,其他的不说了. 先说一下个人经历吧,学校比较水,实验室没有项目,实习经历:腾讯实习+滴滴实习   比赛经历:几个数据挖掘竞赛Top5的名次. 个人感觉,算法岗确实看学校,但如果简历还可以的话,还是有面试机会的,内推投的简历,80%都给了面试机会吧. 百度提前批(feed部): 3轮电话面,远程桌面coding. 百度的面试风格其实是比较好把控的,基本就是项目问答.coding.机器学习算…
算法工程师为什么也要向社区贡献代码? [作者:DeepLearningStack,阿里巴巴算法工程师,开源TensorFlow Contributor] “做算法的人要熟悉算法框架源码吗?算法工程师难道不应该会使用框架建模就可以了吗?如何成为具有一定竞争力的算法工程师?”... 我经常被不同的人问类似这样的问题.坦白地说从我个人经验来看,身边算法做的不错的人对算法框架源码普遍熟悉,而且算法建模这件事在当前来看还并不能纯粹的与底层隔离,因为你会经常与计算性能,算法实现原理打交道.当然,我也见过一些…
大牛讲堂 | 算法工程师入门第二期-穆黎森讲增强学习 2017-07-13 HorizonRobotics…
美团点评2017校招笔试真题-算法工程师A   美团点评2017校招笔试真题-算法工程师A 1.下面哪种STL容器的实现和其它三个不一样 A. set B. deque C. multimap D. map 正确答案: B STL的容器可以分为以下几个大类: 1. 顺序(序列)容器,有 vector,list,deque , string,stack( 适配器类), queue( 适配器类), priority queues( 适配器类). 2.关联容器,有set, multiset,map,m…
美团点评2017校招笔试真题-算法工程师B   1.以下关于经典的k-means聚类的说法哪个是错误的? A:k-means聚类算法是全局收敛的 B:k-means的聚类结果和初始聚类中心点的选取有关 C:k-means聚类算法的时间复杂度是O(NKT),其中N为样本个数,K为聚类团数量,T为迭代次数 D:k-means聚类算法无法自动确定聚类团数量 正确答案: A 时间复杂度O(tkn)是线性的,t是循环次数,k是聚类的个数,n是数据点的个数. 用户需事先指定聚类数目k.算法对异常值十分敏感.…
美团点评2017校招笔试真题-算法工程师A 1.下面哪种STL容器的实现和其它三个不一样 A. set B. deque C. multimap D. map 正确答案: B STL的容器可以分为以下几个大类: 1. 顺序(序列)容器,有 vector,list,deque , string,stack( 适配器类), queue( 适配器类), priority queues( 适配器类). 2.关联容器,有set, multiset,map,multimap, bitset,hash_set…
美团点评2017校招笔试真题-算法工程师B 1.以下关于经典的k-means聚类的说法哪个是错误的? A:k-means聚类算法是全局收敛的 B:k-means的聚类结果和初始聚类中心点的选取有关 C:k-means聚类算法的时间复杂度是O(NKT),其中N为样本个数,K为聚类团数量,T为迭代次数 D:k-means聚类算法无法自动确定聚类团数量 正确答案: A 时间复杂度O(tkn)是线性的,t是循环次数,k是聚类的个数,n是数据点的个数. 用户需事先指定聚类数目k.算法对异常值十分敏感.对初…
1 引言 SQL操作往往是程序员必备的技能,对于算法工程师而言,熟练掌握SQL操作则更为重要.本文以<SQL语句执行顺序>作为学习资料,总结SQL的理论部分. 2 SQL查询语句的执行顺序 SQL语句与其他代码的处理顺序不同,在SQL中,第一个被处理的子句是FROM子句,尽管SELECT语句第一个出现,但是几乎总是最后被处理. SQL语句的执行中,每个步骤都会产生一个虚拟表,虚拟表的作用是作为下一个步骤的输入.这些虚拟表对于调用者不可用,只是最后一步生成的表才会返回给调用者. 那么SQL语句的…
尤其在互联网公司中,如果不是分工特别明确的独立业务组,通常需要自己处理很多东西,例如一个算法工程师,虽然不要求你装机,但是和负责部署服务的同事对接口,总不能连json是啥都不知道(工作中遇到过一个ETL工程师,不会liunx,不知道json) 一.装机准备 1.选择版本.下载镜像 centos和ubuntu 仁者见仁智者见智,我的大致方向就是注重稳定选centos,深度学习Ubuntu优先,版本不必追求最新,选择成熟的稳定版本会更好,比如centos7.2(7.5),Ubuntu 16.04 2…
原文:https://zhuanlan.zhihu.com/p/76827460?utm_source=wechat_session&utm_medium=social&utm_oi=810517722894045184 这里是 王喆的机器学习笔记 的第二十四篇文章.最近互联网公司的秋招如火如荼的进行,我也收到过不少同学的关于面试和选择offer的咨询,因为在之前的专栏文章和一些回答中已经介绍过一些相关经验,这篇文章就做一个全面的总结. 本文将分三个部分: 机器学习算法工程师的能力结构:…
AI算法工程师炼成之路 面试题: l  自我介绍/项目介绍 l  类别不均衡如何处理 l  数据标准化有哪些方法/正则化如何实现/onehot原理 l  为什么XGB比GBDT好 l  数据清洗的方法有哪些/数据清洗步骤 l  缺失值填充方式有哪些 l  变量筛选有哪些方法 l  信息增益的计算公式 l  样本量很少情况下如何建模 l  交叉检验的实现 l  决策树如何剪枝 l  WOE/IV值计算公式 l  分箱有哪些方法/分箱原理是什么 l  手推SVM:目标函数,计算逻辑,公式都写出来,平…
http://blog.sina.com.cn/s/blog_ecd882db0102yuek.html <百面机器学习算法工程师带你去面试>高清PDF及epub+<美团机器学习实践>PDF及思维导图 (2019-01-13 13:01:11) 转载▼ 标签: 机器学习实践 美团机器学习 百面机器学习 大规模 特征工程 分类: 机器学习 人工智能领域正在以超乎人们想象的速度发展,从日常工作.生活中各种有趣的现象出发,不仅囊括了机器学习的基本知识 ,而且还包含了成为出众算法工程师的相…
我给出代码如下:和之前做数塔(dp的入门题目)的思路一致 dp[i][j]为走到坐标(i,j)的最小减速(只有向右走和向上走两种情况) #include<stdio.h> #include<stdlib.h> #include<iostream> #include <algorithm> using namespace std; const int maxn=1002; int dp[maxn][maxn]; int main() {int n; scanf…
时间规定: 2018.12.07-2018.02.15 能力养成: linux, shell python, c++(会多少算多少) tensorflow, keras, pytorch(tf优先) CNN, RNN(LSTM), BRNN, Seq2Seq, RL, Attention, fastText, TextCNN, TextRNN, TextRNN+Attention, TextRCNN(CNN+RNN) LR, SVM, RF, NB, CRF, LDA, XGB等 分词,新词发现…
题目链接:Fruit Ninja 比赛链接:2018 ACM 国际大学生程序设计竞赛上海大都会赛重现赛 题目描述 Fruit Ninja is a juicy action game enjoyed by millions of players around the world, with squishy, splat and satisfying fruit carnage! Become the ultimate bringer of sweet, tasty destruction wit…
<深度学习基础> 卷积神经网络,循环神经网络,LSTM与GRU,梯度消失与梯度爆炸,激活函数,防止过拟合的方法,dropout,batch normalization,各类经典的网络结构,各类优化方法 1.卷积神经网络工作原理的直观解释 https://www.zhihu.com/question/39022858 简单来说,在一定意义上,训练CNN就是在训练每一个卷积层的滤波器.让这些滤波器组对特定的模式有高的激活能力,以达到CNN网络的分类/检测等目的. 2.卷积神经网络的复杂度分析 ht…
<机器学习基础> 逻辑回归,SVM,决策树 1.逻辑回归和SVM的区别是什么?各适用于解决什么问题? https://www.zhihu.com/question/24904422 2.Linear SVM 和 线性回归 有什么异同? 答案:https://www.zhihu.com/question/26768865 基础知识:https://blog.csdn.net/ChangHengyi/article/details/80577318 3.支持向量机属于神经网络范畴吗? https:…
传送门 根据国家集训队2014论文集中胡泽聪的随机化算法可以通过这道题. 对于每个数,它有12" role="presentation" style="position: relative;">1212的概率在最后的答案序列中,这样我们每次随机出序列中的一个数,然后看它的因子有没有符合条件的更新答案就行了. 代码: #include<bits/stdc++.h> #define ll long long #define N 1000005…
昨天晚上(7.20)做了CVTE的前端笔试,总共三十道题,28道多选题,2道编程题 .做完了之后觉得自己基础还是不够扎实,故在此整理出答案,让自己能从中得到收获,同时给日后的同学一些参考. 首先说一下两道肥肠简单的编程题: 1.请实现这样一个函数,输入参数为一个长度为2n的整数数组,以两个整数一组的方式将数据分组,并使每组数组最小值相加为最大,输出这个最大值. 输入[1,4,3, 2],输出为4输入[1,5,7,9, 4, 12],输出为15 思路:把数组按大小排序然后相邻两项分为一组,取每组较…
-------------------------------------------------------------------------[选择题]------------------------------------------------------------------------- 1.以下不属于判别模型的是:() A. 隐马尔科夫模型 B. 朴素贝叶斯法 C. 混合高斯模型 D.  SVM LLT:D 2.强化学习中的MDP模型不包括哪一类?() A. TD B. MC C…
目录 JDK 初步 ArrayList LinkedList Vector Stack HashMap Hashtable LinkedHashMap TreeMap HashSet LinkedHashSet TreeSet PriorityQueue ConcurrentLinkedQueue 第三方类库 Apache HttpComponents Client spring-core jetty thoughtworks xstream fastjson commons 组件 logbac…
<数学题/智力题> 1.如果一个女生说,她集齐了十二个星座的前男友,我们应该如何估计她前男友的数量? https://blog.csdn.net/FnqTyr45/article/details/80248927 2.如何理解矩阵的秩? https://www.zhihu.com/question/21605094 3.矩阵低秩的意义? https://www.zhihu.com/question/28630628 4.如何理解矩阵特征值? https://www.zhihu.com/ques…
<编程题> 1.[Maximum Product Subarray 求最大子数组乘积] 这个求最大子数组乘积问题是由最大子数组之和问题演变而来,但是却比求最大子数组之和要复杂,因为在求和的时候,遇到0,不会改变最大值,遇到负数,也只是会减小最大值而已.而在求最大子数组乘积的问题中,遇到0会使整个乘积为0,而遇到负数,则会使最大乘积变成最小乘积,正因为有负数和0的存在,使问题变得复杂了不少.比如,我们现在有一个数组[2, 3, -2, 4],我们可以很容易的找出所有的连续子数组,[2], [3]…
面试经常被问到的问题总结 1.字符串函数 2.数组函数 3.cookie和session的区别 4.状态码以及其功能…
1 引言 主题模型是文本挖掘的重要工具,近年来在学术界和工业届都获得了非常多的关注.学术界的工作主要集中在建模层面,即提出各种各样的主题模型来适应不同的场景,因此缺乏指导主题模型在工业场景落地的资源和文献. 本文主要是以<Familia:开源的中文主题模型应用工具包>为参考资料,入门NLP领域.该文结合开源工具Familia(百度开源),总结主题模型在工业届的一些典型应用案例,从而方便用户找到适合自己任务的模型以及该模型的应用方式. 2 主题模型概念 以LDA为代表的主题模型,训练的结果一般是…