Evernote Export

Crowdflower搜索结果相关性

文件和数据描述
train.csv训练数据集包括

  • id:产品ID查询:使用的搜索词
  • product_description:完整的产品说明以及HTML格式标记
  • median_relevance:3个评分者的中位数相关性得分。该值是1到4之间的整数。
  • relevant_variance:评分者给出的相关性分数的变化。

测试集 test.csv

  • id:产品ID查询:使用的搜索词
  • product_description:完整的产品说明以及HTML格式标记
    sampleSubmission.csv
  • 格式正确的示例提交文件允许使用外部数据,例如词典,词库,语言语料库。但是,它们不得与此特定数据集直接相关。必须将您的外部数据来源发布到论坛,以确保社区中所有参与者的公平性。
package model model_select feature weighting
XGBoost gblinear MSE High/Low Yes
XGBoost gblinear COCR High/Low Yes
XGBoost gblinear Softmax High/Low Yes
XGBoost gblinear Softkappa High/Low Yes
XGBoost gbtree MSE Low Yes
XGBoost gbtree COCR Low Yes
XGBoost gbtree Softmax Low Yes
XGBoost gbtree Softkappa Low Yes
Sklearn GradientBoostingRegressor   Low Yes
Sklearn ExtraTreeRegressor   Low Yes
Sklearn RandomForestRegressor   Low Yes
Sklearn SVR   Low Yes
Sklearn Ridge   High/Low No
Sklearn Lasso   High/Low No
Sklearn LogisticRegression   High/Low No
Keras NN Regression   Low No
RGF Regression   Low No

集成学习

**集成学习:**是目前机器学习的一大热门方向,所谓集成学习简单理解就是指采用多个分类器对数据进行预测,从而提高整体分类器的泛化能力
三种常见框架:bagging、boosting、stacking
bagging:决定用某一种类型的分类器的时候,通过抽样的方法抽样出不同的子训练集(自助抽样)
boosting:选择基模型数据集,由基模型(弱模型)等根据权重的方式集成为强模型
stacking:堆叠集成学习方式,底层基模型不断训练给上层的模型进行预测

集成模型的选择

Bias 方差与偏差
岭回归是有偏的,但是方差结果显示更好
bagging公式

E(F)=γ⋅i∑m​E(fi​)=σ2∗ρ+mσ2∗(1−ρ)​

boosting的偏差与方差

E(F)=γ⋅i∑m​E(fi​)=m2∗γ2∗σ2

支持向量机回归(SVR)

数据预处理的步骤

1.剔除HTML标签

  • 通过bs4库提取HTML中的文本信息
    2.单词替换
  • 拼写错误修正
  • 同义词替换
  • 其他单词替换
    3.词干化

特征提取

1.词频数目统计

  • 词出现次数
    2.距离特征统计
  • 分词后之间的距离,查询关键词和产品描述之间的距离,分组距离、统计量等
    3.术语频率和逆文档频率统计
  • tf-idf 自然语言处理的方面应用的词向量
    4.id统计
  • 查询id热编码操作
  • query的独热编码 独热编码
    独热编码:即 One-Hot编码,又称为一位有效编码,其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候,其中只有一位有效

自然状态码:000,001,010,011,100,101
独热编码:000001,000010,000100,001000,010000,100000
距离特征:Jaccard coeffcient JaccardCoef(A,B)=∣A⋃B∣∣A⋂B∣​
Dice distance DiceDist(A,B)=∣A∣+∣B∣2∣A⋂B∣​
基本距离特征:

  • D(ngram(qi​,n),ngram(ti​,n))
  • D(ngram(qi​,n),ngram(di​,n))
  • D(ngram(ti​,n),ngram(ti​,n))

距离特征

  • 统计距离特征

  • 1.根据查询或者其他中位数等进行分组

  • Gr​=i∣ri​=r

  • Gq​,r=i∣qi​=q,ri​=r
    其中qϵqi​rϵ1,2,3,4

  • 2.对于每一个样本计算一堆距离

  • Si​,r,n=D(ngram(ti​,n),ngram(tj​,n)∣jϵGr​,j̸=i)

  • SQi​,r,n=D(ngram(ti​,n),ngram(tj​,n)∣jϵGq​,r,j̸=i)
    其中 rϵ1,2,3,4D(−,−)ϵJaccardCoef(−,−),DiceDist(−,−)

  • 3.对于Si​,r,n和SQi​,r,n来说需要计算的值有

  • 最小值

  • 中位数(2分位)

  • 最大值

  • 平均值

  • 标准差

  • 其他评估标准

TF-IDF特征

  • 基本TF-IDF特征

    • TF-IDF

%23%23%23%20Crowdflower%E6%90%9C%E7%B4%A2%E7%BB%93%E6%9E%9C%E7%9B%B8%E5%85%B3%E6%80%A7%0A%0A%3E%0A**%E6%96%87%E4%BB%B6%E5%92%8C%E6%95%B0%E6%8D%AE%E6%8F%8F%E8%BF%B0**%0A**train.csv%E8%AE%AD%E7%BB%83%E6%95%B0%E6%8D%AE%E9%9B%86%E5%8C%85%E6%8B%AC**%EF%BC%9A%0A-%20id%EF%BC%9A%E4%BA%A7%E5%93%81ID%E6%9F%A5%E8%AF%A2%EF%BC%9A%E4%BD%BF%E7%94%A8%E7%9A%84%E6%90%9C%E7%B4%A2%E8%AF%8D%0A-%20product_description%EF%BC%9A%E5%AE%8C%E6%95%B4%E7%9A%84%E4%BA%A7%E5%93%81%E8%AF%B4%E6%98%8E%E4%BB%A5%E5%8F%8AHTML%E6%A0%BC%E5%BC%8F%E6%A0%87%E8%AE%B0%0A-%20median_relevance%EF%BC%9A3%E4%B8%AA%E8%AF%84%E5%88%86%E8%80%85%E7%9A%84%E4%B8%AD%E4%BD%8D%E6%95%B0%E7%9B%B8%E5%85%B3%E6%80%A7%E5%BE%97%E5%88%86%E3%80%82%E8%AF%A5%E5%80%BC%E6%98%AF1%E5%88%B04%E4%B9%8B%E9%97%B4%E7%9A%84%E6%95%B4%E6%95%B0%E3%80%82%0A-%20%C2%A0relevant_variance%EF%BC%9A%E8%AF%84%E5%88%86%E8%80%85%E7%BB%99%E5%87%BA%E7%9A%84%E7%9B%B8%E5%85%B3%E6%80%A7%E5%88%86%E6%95%B0%E7%9A%84%E5%8F%98%E5%8C%96%E3%80%82%0A%0A**%E6%B5%8B%E8%AF%95%E9%9B%86%C2%A0test.csv**%0A%20-%20id%EF%BC%9A%E4%BA%A7%E5%93%81ID%E6%9F%A5%E8%AF%A2%EF%BC%9A%E4%BD%BF%E7%94%A8%E7%9A%84%E6%90%9C%E7%B4%A2%E8%AF%8D%0A%20-%20product_description%EF%BC%9A%E5%AE%8C%E6%95%B4%E7%9A%84%E4%BA%A7%E5%93%81%E8%AF%B4%E6%98%8E%E4%BB%A5%E5%8F%8AHTML%E6%A0%BC%E5%BC%8F%E6%A0%87%E8%AE%B0%0A**sampleSubmission.csv**%0A%20-%20%E6%A0%BC%E5%BC%8F%E6%AD%A3%E7%A1%AE%E7%9A%84%E7%A4%BA%E4%BE%8B%E6%8F%90%E4%BA%A4%E6%96%87%E4%BB%B6%E5%85%81%E8%AE%B8%E4%BD%BF%E7%94%A8%E5%A4%96%E9%83%A8%E6%95%B0%E6%8D%AE%EF%BC%8C%E4%BE%8B%E5%A6%82%E8%AF%8D%E5%85%B8%EF%BC%8C%E8%AF%8D%E5%BA%93%EF%BC%8C%E8%AF%AD%E8%A8%80%E8%AF%AD%E6%96%99%E5%BA%93%E3%80%82%E4%BD%86%E6%98%AF%EF%BC%8C%E5%AE%83%E4%BB%AC%E4%B8%8D%E5%BE%97%E4%B8%8E%E6%AD%A4%E7%89%B9%E5%AE%9A%E6%95%B0%E6%8D%AE%E9%9B%86%E7%9B%B4%E6%8E%A5%E7%9B%B8%E5%85%B3%E3%80%82%E5%BF%85%E9%A1%BB%E5%B0%86%E6%82%A8%E7%9A%84%E5%A4%96%E9%83%A8%E6%95%B0%E6%8D%AE%E6%9D%A5%E6%BA%90%E5%8F%91%E5%B8%83%E5%88%B0%E8%AE%BA%E5%9D%9B%EF%BC%8C%E4%BB%A5%E7%A1%AE%E4%BF%9D%E7%A4%BE%E5%8C%BA%E4%B8%AD%E6%89%80%E6%9C%89%E5%8F%82%E4%B8%8E%E8%80%85%E7%9A%84%E5%85%AC%E5%B9%B3%E6%80%A7%E3%80%82%0A%20!%5B5112a781d48ea385babd833bfcdde1cd.png%5D(en-resource%3A%2F%2Fdatabase%2F1342%3A1)%0A%20%0A%0A%7C%20**package**%20%7C%20**model**%20%7C%20**model_select**%20%7C%20**feature**%20%7C**weighting**%20%7C%0A%7C%20%3A---%3A%20%7C%20%3A---%3A%20%7C%20%3A---%3A%20%7C%20%3A---%3A%20%7C%20%3A---%3A%20%7C%0A%7C%20*XGBoost*%20%7C%20gblinear%20%7C%20MSE%20%7C%20High%2FLow%20%7C%20Yes%20%7C%0A%7C%20*XGBoost*%20%7C%20gblinear%20%7C%20COCR%20%7C%20%20High%2FLow%20%7C%20Yes%20%20%7C%0A%7C*XGBoost*%20%7C%20gblinear%7C%20Softmax%20%7C%20High%2FLow%20%7C%20Yes%20%20%7C%0A%7C*XGBoost*%20%7C%20gblinear%7CSoftkappa%20%20%7C%20High%2FLow%20%7C%20Yes%20%20%7C%0A%7C%20*XGBoost*%20%7C%20gbtree%20%7C%20MSE%20%7C%20Low%20%7C%20Yes%20%7C%0A%7C*XGBoost*%20%7C%20gbtree%7C%20%20COCR%20%7C%20Low%7CYes%20%20%7C%0A%7C%20*XGBoost*%20%7C%20gbtree%20%20%7C%20Softmax%20%7C%20Low%20%7CYes%20%20%7C%0A%7C%20*XGBoost*%20%7C%20gbtree%20%7C%20Softkappa%20%7C%20Low%20%7C%20Yes%20%7C%0A%7C%20*Sklearn*%20%7C%20GradientBoostingRegressor%7C%20%7C%20Low%20%7C%20Yes%20%20%20%7C%0A%7C%20*Sklearn*%20%7C%20ExtraTreeRegressor%20%7C%20%20%7C%20%20Low%20%7C%20Yes%20%20%20%7C%0A%7C%20*Sklearn*%20%7C%20RandomForestRegressor%20%7C%20%20%7C%20%20Low%20%7C%20Yes%20%20%20%7C%0A%7C%20*Sklearn*%20%7C%20SVR%20%7C%20%20%7C%20%20Low%20%7C%20Yes%20%20%20%7C%0A%7C%20*Sklearn*%20%7C%20Ridge%20%7C%20%20%7C%20%20%20High%2FLow%20%7C%20No%20%20%7C%0A%7C%20*Sklearn*%20%7C%20Lasso%20%7C%20%20%7C%20%20High%2FLow%20%7C%20No%20%20%7C%0A%7C%20*Sklearn*%20%7CLogisticRegression%20%20%7C%20%20%20%7C%20High%2FLow%20%7C%20No%20%20%7C%0A%7C%20*Keras*%20%7C%20NN%20Regression%20%7C%20%20%7C%20Low%20%7C%20No%20%7C%0A%7C%20*RGF*%20%7C%20Regression%20%7C%20%20%7C%20Low%20%7CNo%7C%0A%0A%23%23%23%23%20%E9%9B%86%E6%88%90%E5%AD%A6%E4%B9%A0%0A**%E9%9B%86%E6%88%90%E5%AD%A6%E4%B9%A0%EF%BC%9A**%E6%98%AF%E7%9B%AE%E5%89%8D%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E7%9A%84%E4%B8%80%E5%A4%A7%E7%83%AD%E9%97%A8%E6%96%B9%E5%90%91%EF%BC%8C%E6%89%80%E8%B0%93%E9%9B%86%E6%88%90%E5%AD%A6%E4%B9%A0%E7%AE%80%E5%8D%95%E7%90%86%E8%A7%A3%E5%B0%B1%E6%98%AF%E6%8C%87%E9%87%87%E7%94%A8%E5%A4%9A%E4%B8%AA%E5%88%86%E7%B1%BB%E5%99%A8%E5%AF%B9%E6%95%B0%E6%8D%AE%E8%BF%9B%E8%A1%8C%E9%A2%84%E6%B5%8B%EF%BC%8C%E4%BB%8E%E8%80%8C%E6%8F%90%E9%AB%98%E6%95%B4%E4%BD%93%E5%88%86%E7%B1%BB%E5%99%A8%E7%9A%84%E6%B3%9B%E5%8C%96%E8%83%BD%E5%8A%9B%0A%E4%B8%89%E7%A7%8D%E5%B8%B8%E8%A7%81%E6%A1%86%E6%9E%B6%EF%BC%9Abagging%E3%80%81boosting%E3%80%81stacking%0Abagging%EF%BC%9A%E5%86%B3%E5%AE%9A%E7%94%A8%E6%9F%90%E4%B8%80%E7%A7%8D%E7%B1%BB%E5%9E%8B%E7%9A%84%E5%88%86%E7%B1%BB%E5%99%A8%E7%9A%84%E6%97%B6%E5%80%99%EF%BC%8C%E9%80%9A%E8%BF%87%E6%8A%BD%E6%A0%B7%E7%9A%84%E6%96%B9%E6%B3%95%E6%8A%BD%E6%A0%B7%E5%87%BA%E4%B8%8D%E5%90%8C%E7%9A%84%E5%AD%90%E8%AE%AD%E7%BB%83%E9%9B%86(%E8%87%AA%E5%8A%A9%E6%8A%BD%E6%A0%B7)%0Aboosting%EF%BC%9A%E9%80%89%E6%8B%A9%E5%9F%BA%E6%A8%A1%E5%9E%8B%E6%95%B0%E6%8D%AE%E9%9B%86%EF%BC%8C%E7%94%B1%E5%9F%BA%E6%A8%A1%E5%9E%8B(%E5%BC%B1%E6%A8%A1%E5%9E%8B)%E7%AD%89%E6%A0%B9%E6%8D%AE%E6%9D%83%E9%87%8D%E7%9A%84%E6%96%B9%E5%BC%8F%E9%9B%86%E6%88%90%E4%B8%BA%E5%BC%BA%E6%A8%A1%E5%9E%8B%0Astacking%EF%BC%9A%E5%A0%86%E5%8F%A0%E9%9B%86%E6%88%90%E5%AD%A6%E4%B9%A0%E6%96%B9%E5%BC%8F%EF%BC%8C%E5%BA%95%E5%B1%82%E5%9F%BA%E6%A8%A1%E5%9E%8B%E4%B8%8D%E6%96%AD%E8%AE%AD%E7%BB%83%E7%BB%99%E4%B8%8A%E5%B1%82%E7%9A%84%E6%A8%A1%E5%9E%8B%E8%BF%9B%E8%A1%8C%E9%A2%84%E6%B5%8B%0A%23%23%23%23%20%E9%9B%86%E6%88%90%E6%A8%A1%E5%9E%8B%E7%9A%84%E9%80%89%E6%8B%A9%0ABias%20%E6%96%B9%E5%B7%AE%E4%B8%8E%E5%81%8F%E5%B7%AE%0A%E5%B2%AD%E5%9B%9E%E5%BD%92%E6%98%AF%E6%9C%89%E5%81%8F%E7%9A%84%EF%BC%8C%E4%BD%86%E6%98%AF%E6%96%B9%E5%B7%AE%E7%BB%93%E6%9E%9C%E6%98%BE%E7%A4%BA%E6%9B%B4%E5%A5%BD%0Abagging%E5%85%AC%E5%BC%8F%0A%24%24E(F)%20%3D%20%5Cgamma%20%5Ccdot%20%5Csum%5Em_i%20E(f_i)%20%3D%20%5Csigma%5E2*%5Crho%2B%5Cfrac%7B%5Csigma%5E2*(1-%5Crho)%7D%7Bm%7D%24%24%0Aboosting%E7%9A%84%E5%81%8F%E5%B7%AE%E4%B8%8E%E6%96%B9%E5%B7%AE%0A%24%24E(F)%20%3D%20%5Cgamma%20%5Ccdot%20%5Csum%5Em_i%20E(f_i)%3Dm%5E2%20*%20%5Cgamma%5E2%20*%20%5Csigma%5E2%24%24%0A%23%23%23%23%20%E6%94%AF%E6%8C%81%E5%90%91%E9%87%8F%E6%9C%BA%E5%9B%9E%E5%BD%92(SVR)%0A%0A%0A%23%23%23%23%20%E6%95%B0%E6%8D%AE%E9%A2%84%E5%A4%84%E7%90%86%E7%9A%84%E6%AD%A5%E9%AA%A4%0A**1.%E5%89%94%E9%99%A4HTML%E6%A0%87%E7%AD%BE**%0A-%20%E9%80%9A%E8%BF%87bs4%E5%BA%93%E6%8F%90%E5%8F%96HTML%E4%B8%AD%E7%9A%84%E6%96%87%E6%9C%AC%E4%BF%A1%E6%81%AF%0A**2.%E5%8D%95%E8%AF%8D%E6%9B%BF%E6%8D%A2**%0A-%20%E6%8B%BC%E5%86%99%E9%94%99%E8%AF%AF%E4%BF%AE%E6%AD%A3%0A-%20%E5%90%8C%E4%B9%89%E8%AF%8D%E6%9B%BF%E6%8D%A2%0A-%20%E5%85%B6%E4%BB%96%E5%8D%95%E8%AF%8D%E6%9B%BF%E6%8D%A2%0A**3.%E8%AF%8D%E5%B9%B2%E5%8C%96**%0A%0A%23%23%23%23%20%E7%89%B9%E5%BE%81%E6%8F%90%E5%8F%96%0A**1.%E8%AF%8D%E9%A2%91%E6%95%B0%E7%9B%AE%E7%BB%9F%E8%AE%A1**%0A-%20%E8%AF%8D%E5%87%BA%E7%8E%B0%E6%AC%A1%E6%95%B0%0A**2.%E8%B7%9D%E7%A6%BB%E7%89%B9%E5%BE%81%E7%BB%9F%E8%AE%A1**%0A-%20%E5%88%86%E8%AF%8D%E5%90%8E%E4%B9%8B%E9%97%B4%E7%9A%84%E8%B7%9D%E7%A6%BB%EF%BC%8C%E6%9F%A5%E8%AF%A2%E5%85%B3%E9%94%AE%E8%AF%8D%E5%92%8C%E4%BA%A7%E5%93%81%E6%8F%8F%E8%BF%B0%E4%B9%8B%E9%97%B4%E7%9A%84%E8%B7%9D%E7%A6%BB%EF%BC%8C%E5%88%86%E7%BB%84%E8%B7%9D%E7%A6%BB%E3%80%81%E7%BB%9F%E8%AE%A1%E9%87%8F%E7%AD%89%0A**3.%E6%9C%AF%E8%AF%AD%E9%A2%91%E7%8E%87%E5%92%8C%E9%80%86%E6%96%87%E6%A1%A3%E9%A2%91%E7%8E%87%E7%BB%9F%E8%AE%A1**%0A-%20tf-idf%20%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86%E7%9A%84%E6%96%B9%E9%9D%A2%E5%BA%94%E7%94%A8%E7%9A%84%E8%AF%8D%E5%90%91%E9%87%8F%0A**4.id%E7%BB%9F%E8%AE%A1**%0A-%20%E6%9F%A5%E8%AF%A2id%E7%83%AD%E7%BC%96%E7%A0%81%E6%93%8D%E4%BD%9C%0A-%20query%E7%9A%84%E7%8B%AC%E7%83%AD%E7%BC%96%E7%A0%81%20**%5B%E7%8B%AC%E7%83%AD%E7%BC%96%E7%A0%81%5D(https%3A%2F%2Fzhuanlan.zhihu.com%2Fp%2F35287916)**%0A%E7%8B%AC%E7%83%AD%E7%BC%96%E7%A0%81%EF%BC%9A%E5%8D%B3%20One-Hot%E7%BC%96%E7%A0%81%EF%BC%8C%E5%8F%88%E7%A7%B0%E4%B8%BA%E4%B8%80%E4%BD%8D%E6%9C%89%E6%95%88%E7%BC%96%E7%A0%81%EF%BC%8C%E5%85%B6%E6%96%B9%E6%B3%95%E6%98%AF%E4%BD%BF%E7%94%A8N%E4%BD%8D%E7%8A%B6%E6%80%81%E5%AF%84%E5%AD%98%E5%99%A8%E6%9D%A5%E5%AF%B9N%E4%B8%AA%E7%8A%B6%E6%80%81%E8%BF%9B%E8%A1%8C%E7%BC%96%E7%A0%81%EF%BC%8C%E6%AF%8F%E4%B8%AA%E7%8A%B6%E6%80%81%E9%83%BD%E7%94%B1%E4%BB%96%E7%8B%AC%E7%AB%8B%E7%9A%84%E5%AF%84%E5%AD%98%E5%99%A8%E4%BD%8D%EF%BC%8C%E5%B9%B6%E4%B8%94%E5%9C%A8%E4%BB%BB%E6%84%8F%E6%97%B6%E5%80%99%EF%BC%8C%E5%85%B6%E4%B8%AD%E5%8F%AA%E6%9C%89%E4%B8%80%E4%BD%8D%E6%9C%89%E6%95%88%0A%3E%E8%87%AA%E7%84%B6%E7%8A%B6%E6%80%81%E7%A0%81%EF%BC%9A000%2C001%2C010%2C011%2C100%2C101%0A%3E%E7%8B%AC%E7%83%AD%E7%BC%96%E7%A0%81%EF%BC%9A000001%2C000010%2C000100%2C001000%2C010000%2C100000%0A%3E%E8%B7%9D%E7%A6%BB%E7%89%B9%E5%BE%81%3AJaccard%20coeffcient%20%24JaccardCoef(A%2CB)%20%3D%20%5Cfrac%7B%7CA%20%5Cbigcap%20B%7C%7D%7B%7CA%20%5Cbigcup%20B%7C%7D%24%0A%3EDice%20distance%20%24DiceDist(A%2CB)%20%3D%20%5Cfrac%7B2%7CA%20%5Cbigcap%20B%7C%7D%7B%7CA%7C%2B%7CB%7C%7D%24%0A%3E%E5%9F%BA%E6%9C%AC%E8%B7%9D%E7%A6%BB%E7%89%B9%E5%BE%81%EF%BC%9A%0A%3E*%20%24D(ngram(q_i%2Cn)%2Cngram(t_i%2Cn))%24%0A%3E*%20%24D(ngram(q_i%2Cn)%2Cngram(d_i%2Cn))%24%0A%3E*%20%24D(ngram(t_i%2Cn)%2Cngram(t_i%2Cn))%24%0A%0A%23%23%23%23%20%E8%B7%9D%E7%A6%BB%E7%89%B9%E5%BE%81%0A-%20%E7%BB%9F%E8%AE%A1%E8%B7%9D%E7%A6%BB%E7%89%B9%E5%BE%81%0A-%201.%E6%A0%B9%E6%8D%AE%E6%9F%A5%E8%AF%A2%E6%88%96%E8%80%85%E5%85%B6%E4%BB%96%E4%B8%AD%E4%BD%8D%E6%95%B0%E7%AD%89%E8%BF%9B%E8%A1%8C%E5%88%86%E7%BB%84%0A-%20%24G_r%20%3D%20%7Bi%7Cr_i%3Dr%7D%24%0A-%20%24G_q%2Cr%20%3D%20%7Bi%7Cq_i%3Dq%2Cr_i%3Dr%7D%24%0A%E5%85%B6%E4%B8%AD%24q%20%5Cepsilon%20q_i%20r%20%5Cepsilon%20%7B1%2C2%2C3%2C4%7D%24%0A%0A-%202.%E5%AF%B9%E4%BA%8E%E6%AF%8F%E4%B8%80%E4%B8%AA%E6%A0%B7%E6%9C%AC%E8%AE%A1%E7%AE%97%E4%B8%80%E5%A0%86%E8%B7%9D%E7%A6%BB%0A-%20%24S_i%2Cr%2Cn%20%3D%20D(ngram(t_i%2Cn)%2Cngram(t_j%2Cn)%7Cj%20%5Cepsilon%20G_r%2Cj%20%5Cnot%3D%20i)%24%0A%20-%20%24SQ_i%2Cr%2Cn%20%3D%20D(ngram(t_i%2Cn)%2Cngram(t_j%2Cn)%7Cj%20%5Cepsilon%20G_q%2Cr%2Cj%20%5Cnot%3D%20i)%24%0A%20%E5%85%B6%E4%B8%AD%20%24r%20%5Cepsilon%201%2C2%2C3%2C4%20D(-%2C-)%20%5Cepsilon%20JaccardCoef(-%2C-)%2CDiceDist(-%2C-)%24%0A%20-%203.%E5%AF%B9%E4%BA%8E%24S_i%2Cr%2Cn%24%E5%92%8C%24SQ_i%2Cr%2Cn%24%E6%9D%A5%E8%AF%B4%E9%9C%80%E8%A6%81%E8%AE%A1%E7%AE%97%E7%9A%84%E5%80%BC%E6%9C%89%0A%20-%20%E6%9C%80%E5%B0%8F%E5%80%BC%0A%20-%20%E4%B8%AD%E4%BD%8D%E6%95%B0(2%E5%88%86%E4%BD%8D)%0A%20-%20%E6%9C%80%E5%A4%A7%E5%80%BC%0A%20-%20%E5%B9%B3%E5%9D%87%E5%80%BC%0A%20-%20%E6%A0%87%E5%87%86%E5%B7%AE%0A%20-%20%E5%85%B6%E4%BB%96%E8%AF%84%E4%BC%B0%E6%A0%87%E5%87%86%0A%20%0A%20%23%23%23%23%20TF-IDF%E7%89%B9%E5%BE%81%0A%20-%20%E5%9F%BA%E6%9C%ACTF-IDF%E7%89%B9%E5%BE%81%0A%20%20%20%20-%20TF-IDF%20Features%0A%20%20%20%20-%20Basic%20Cosine%20Similarity%0A%20%20%20%20-%20Statistical%20Cosine%20Similarity%0A%20%20%20%20-%20SVD%20Reduced%20Features%0A%20%20%20%20-%20Basic%20Cosine%20Similarity%20Based%20on%20SVD%20Reduced%20Features%0A%20%20%20%20-%20Statistical%20Cosine%20Similarity%20Based%20on%20SVD%20Reduced%20Features%0A%20%20%20%20%20

【第一课】kaggle初识的更多相关文章

  1. 【Android开发学习笔记】【第一课】初识New Project,工程文件介绍

    初学者新建一个Andriod工程后,往往不知道Pakage Explorer区域的每个文件是什么作用,今天学习了一下,自我总结一下. 1.先新建一个工程 2.输入名称,以及支持的SDK版本等(这些可以 ...

  2. JAVA学习第一课(初识JAVA)

    PS:退ACM集训队了,自己也疯玩了两天,后天就开学了,就正式大二了,该收收心好好学习啦                                                         ...

  3. 1.Java第一课:初识java

    今天也算是正式地开始学习Java了,一天学的不是太多,旨在入门了解Java.还好现在学的都是基础,也能赶得上进度,希望以后能一直保持这种精神状态坚持学下去.下面就简单来说说今天所学的内容吧. 1计算机 ...

  4. 第一课:初识Hadoop

    Hadoop核心组件之分布式文件系统HDFS: 特点:扩充性,容错性,海量数据存储. 在HDFS中每次上传文件,都会将文件切分成指定大小的数据块(默认128m)并以多副本的存储在多个机器上. 数据切分 ...

  5. 初学Python(第一课)

    今天整理一下关于Python初学者的基础知识部分的第一课,因为之前学习过C,所以过于基础的知识就不详细记录了. Python相对于C\C++来说,在语法方面已经很简单了:甚至对于JavaScript也 ...

  6. 【JavaScript从入门到精通】第一课 初探JavaScript魅力-01

    第一课 初探JavaScript魅力-01 JavaScript是什么 如今我们打开一个大型的网站,都会有很多JS效果的功能和应用.对于学过CSS+HTML的同学,即使是像淘宝那样的网站,用一两天时间 ...

  7. 【JavaScript从入门到精通】第一课

    第一课 初探JavaScript魅力-01 JavaScript是什么 如今我们打开一个大型的网站,都会有很多JS效果的功能和应用.对于学过CSS+HTML的同学,即使是像淘宝那样的网站,用一两天时间 ...

  8. vue.js学习(第一课)

    学习资料 来自台湾小凡! vue.js是javascript的一个库,只专注于UI层面,核心价值永远是 API的简洁. 第一课: 不支持IE8. 1.声明式渲染: el元素的简称 element : ...

  9. Magento学习第一课——目录结构介绍

    Magento学习第一课--目录结构介绍 一.Magento为何强大 Magento是在Zend框架基础上建立起来的,这点保证了代码的安全性及稳定性.选择Zend的原因有很多,但是最基本的是因为zen ...

  10. <-0基础学python.第一课->

    初衷:我电脑里面的歌曲很久没换了,我想听一下新的歌曲,把他们下载下来听,比如某个榜单的,但是一首一首的点击下载另存为真的很恶心 所以我想有没有办法通过程序的方式来实现,结果还真的有,而且网上已经有有人 ...

随机推荐

  1. [bzoj4636]蒟蒻的数列_线段树

    蒟蒻的数列 bzoj-4636 题目大意:给定一个序列,初始均为0.n次操作:每次讲一段区间中小于k的数都变成k.操作的最后询问全局和. 注释:$1\le n\le 4\cdot 10^4$. 想法: ...

  2. [bzoj3694]最短路_树链剖分_线段树

    最短路 bzoj-3694 题目大意:给你一个n个点m条边的无向图,源点为1,并且以点1为根给出最短路树.求对于2到n的每个点i,求最短路,要求不经过给出的最短路树上的1到i的路径上的最后一条边. 注 ...

  3. RPC框架分析

    RPC框架分析 常用的框架 .net(WCF)  .net中分布式框架集大成者,提供多种通信方式,多种安全策略的调用(配置繁琐). java 1.RMI JDK原生(严格的说来算不上框架). 2.Du ...

  4. href=#与 href=javascript:void(0) 的区别

    <a href="#"> 点击链接后,页面会向上滚到页首,# 默认锚点为 #TOP <a href="javascript:void(0)" ...

  5. 最简单的基于FFmpeg的移动端样例:Windows Phone HelloWorld

    ===================================================== 最简单的基于FFmpeg的移动端样例系列文章列表: 最简单的基于FFmpeg的移动端样例:A ...

  6. 如何将hyper-v虚拟机转换成vmware的虚拟机- 转换SharePoint 2010 Information Worker Demonstration and Evaluation Virtual Machine (SP1)

    官方有一个用于SharePoint的demo用的虚拟机: 2010 Information Worker Demonstration and Evaluation Virtual Machine (S ...

  7. NDK编译库执行时报dlopen failed: cannot locate symbol &quot;__exidx_end&quot; 解决的方法

    当用NDK编译的库在执行载入时报例如以下错: dlopen("/data/data/xxx.xxx.xxx/lib/libxxx.so") failed: dlopen faile ...

  8. Spring+Mybatis之登录功能demo

    其实工作之后就没有用过Spring+Mybatis的框架了,因为公司有一个自己开发的框架,讲道理,其实这个与Spring+Mybatis整合很是神似.当然性能上还是比不上Spring+Mybatis所 ...

  9. hihocoder 1677 翻转字符串 splay

    时间限制:10000ms 单点时限:1000ms 内存限制:256MB 描述 给定一个字符串S,小Hi希望对S进行K次翻转操作. 每次翻转小Hi会指定两个整数Li和Ri,表示要将S[Li..Ri]进行 ...

  10. Django day01 web应用程序 , http协议

    一:web应用程序1.什么是web应用程序 是一种可以通过web访问的应用程序,最大的好处就是, 只要有浏览器,用户就能很容易访问到应用程序 2. web应用程序的优缺点 缺点: 应用程序强调了浏览器 ...