复现极限模型 codenn 原理 其原理大致是将代码特征映射到一个向量,再将描述文字也映射到一个向量,将其cos距离作为loss训练. 对于代码特征,原论文提取了函数名.调用API序列和token集:对于描述文字,通常选取docstring(Python)或函数上方或内部注释(JavaScript).对于函数名.token集,会按照驼峰命名和下划线命名进一步划分成更小的词法单元,而API序列则保留不再分割. 所有的这些词素,对于有序的会使用RNN或其变种处理,再将RNN每一个词的输出进行池化:对…