面试总结 | 百度 NLP 实习生】的更多相关文章

1. 项目简历:主要体现和招聘要求相关的工作,简历要精简,不要给过多冗余信息.对于每个项目,自己做过的工作,里面用到的方法,要很清楚,工作的motivation.意义等也要清楚. 这次面试中我的问题:做过的和NLP,算法相关的大工程很少,基本都是些比较基础的项目,项目经验不足. 2. Coding这次一共有三道题.给定初始点,和一系列二位坐标的点,从初始点开始扩张一个正方形,求能够覆盖一半以上坐标点的最小正方形面积.快排.给出BST的preorder,重新构造该BST.两种方法:递归O(nlon…
一面: 大部分是问项目相关的.只记住了几个关键的问题. 1.手写快排 2.生成模型与判别模型的区别 分类问题:2种形式: F(x)=y p(y|x) 生成模型:由数据学习联合分布概率p(x,y),然后求出条件概率分布p(y|x) p(y|x) = p(x,y)/p(x) 例如,朴素贝叶斯. 判别模型: 直接学习p(y|x),不用联合分布概率. 3.svm 核函数作用? 解决线性不可分问题,减少计算量. 4.你的专业是通信工程,通信是做什么的? 5.通信工程中有哪些机器学习的知识? 6.聊比赛,3…
参考:Familia的Github项目地址.百度NLP专栏介绍 Familia 开源项目包含文档主题推断工具.语义匹配计算工具以及基于工业级语料训练的三种主题模型:Latent Dirichlet Allocation(LDA).SentenceLDA 和Topical Word Embedding(TWE). 支持用户以“拿来即用”的方式进行文本分类.文本聚类.个性化推荐等多种场景的调研和应用.考虑到主题模型训练成本较高以及开源主题模型资源有限的现状,我们会陆续开放基于工业级语料训练的多个垂直…
一.简介 本文主要是要利用百度提供的NLP接口对搜狐的新闻做分类,百度对NLP接口有提供免费的额度可以拿来练习,主要是利用了NLP里面有个文章分类的功能,可以顺便测试看看百度NLP分类做的准不准.详细功能与使用方式可以上(http://ai.baidu.com/tech/nlp/topictagger)观看. 二.建立爬虫 首先要先写一个可以快速爬取所有文章内容的爬虫程序,关于爬虫的原理可以看我之前写的介绍(https://www.cnblogs.com/yenpaul/p/9968015.ht…
首先,面试官根据项目经验进行提问,主要是自然语言处理相关的问题:然后写代码题,字符串处理和数字运算居多:再者是一些语言基础知识,百度用的linux平台,C++和python居多.下面列出我面试中的一些问题: 文本挖掘中,分词算法?如何选取特征?如何进行相似度计算,文本聚类结果如何评估? 分词时,为了提高效率,怎么存储词典?(键树)如何压缩存储? 一个字符数组中,每个字符都出现了3次,只有一个出现了2次,如果快速找出这个出现2次的? 可以参考<编程之美>中的一个题.(1)先排序再找,慢!(2)h…
2019年3月,百度正式发布NLP模型ERNIE,其在中文任务中全面超越BERT一度引发业界广泛关注和探讨.经过短短几个月时间,百度ERNIE再升级,发布持续学习的语义理解框架ERNIE 2.0,及基于此框架的ERNIE 2.0预训练模型.继1.0后,ERNIE英文任务方面取得全新突破,在共计16个中英文任务上超越了BERT和XLNet, 取得了SOTA效果. 本篇内容可以说是史上最强实操课程,由浅入深完整带大家试跑ERNIE,大家可前往AI Studio fork代码 (https://ais…
程序员面试时都考些什么? 一个面试官得意洋洋地说自己面了一个百度T7,出了一道coding题,结果对方连最长上升子序列都写不出来.   楼主本想嘲弄一下百度T7的代码水平低,没想到网友们炸开了锅,纷纷diss他出的这道题毫无意义,这样面试只能招到应付考试的人,错过合适的人选.一句话,面试官水平太低!                 还有人挖苦楼主,难道你工作中会天天用到这些东西?     楼主很不服气,回怼:T7连这个都不会,和应届生有什么区别?   一个百度员工说,就算考robin二分查找,他…
实验室项目:1.实验室方向 2.用两分钟介绍自己的项目,创新点在哪里 个人项目:     1.自己实现的贝叶斯分类器,目的,怎么做的 2.怎么计算各个分类的先验.(因为我使用的训练预料是每个分类10篇,没有分类的先验) 3 每个主题有10篇文档,假设有1W篇文档,如何分到不同的主题中(我答的是计算与每个文档中其它文章的相似度,每个doc用一个term数组来表示,数组中每位表示的是这个文档中该单词 出现的个数(过滤掉停用词), 面试官提示会有漏掉的停用词,我说用出现的次数除于TF, 面试官说这就是…
实验室项目:1.实验室方向 2.用两分钟介绍自己的项目,创新点在哪里 个人项目:     1.自己实现的贝叶斯分类器,目的,怎么做的 2.怎么计算各个分类的先验.(因为我使用的训练预料是每个分类10篇,没有分类的先验) 3 每个主题有10篇文档,假设有1W篇文档,如何分到不同的主题中(我答的是计算与每个文档中其它文章的相似度,每个doc用一个term数组来表示,数组中每位表示的是这个文档中该单词 出现的个数(过滤掉停用词), 面试官提示会有漏掉的停用词,我说用出现的次数除于TF, 面试官说这就是…
一面: 1.算法题: 1 28数组中出现次数超过一半的数字 2 手写快排:八大排序算法总结(2) 2.项目介绍: 大多都是项目中涉及到的技术. TFIDF 的原理 word2vec的原理 3.算法原理: 1.GBDT的原理 2.GBDT中叶子节点与非叶子节点的区别 二面: 1.项目介绍: LSI的原理 2.算法原理: 1.LSTM的计算复杂度 2.推倒一下LR 3.GBDT的原理,抠得很细. 3.算法题: 1.29最小的K个数 2.1 蓄水池抽样算法 2.2 给定一个query 字符流,每个qu…