Machine Learning Knowledge

[Supervised, regression]

已有一个带label的数据集，给定一个样本，求其label。计算与其他所有samples的距离，取前k近的samples，统计这k个samples的label，认为最多的那个为此样本的label。

k的选择不能太大，否则没有意义（当k=n是就是一个统计）同时k也不能太小，否则就overfit（当k=1时就近选择，对于测试集没有帮助）；可以通过划分验证集的方式来找到合适的k
数据的维度需要归一化，否则某个维度的距离会dominate其他的维度。
时间复杂度高，kd tree