Summary 我的理解就是原本节点和节点之间操作是离散的,因为就是从若干个操作中选择某一个,而作者试图使用softmax和relaxation(松弛化)将操作连续化,所以模型结构搜索的任务就转变成了对连续变量\(α={α^{(i,j)}}\)以及\(w\)的学习.(这里\(α\)可以理解成the encoding of the architecture). 之后就是迭代计算\(w\)和\(α\),这是一个双优化问题,具体处理细节参见3.Approximation Research Object…