请问从EM角度理解kmeans?

k-means是两个步骤交替进行，可以分别看成E步和M步
M步中将每类的中心更新为分给该类各点的均值，可以认为是在「各类分布均为单位方差的高斯分布」的假设下，最大化似然值；
E步中将每个点分给中心距它最近的类（硬分配），可以看成是EM算法中E步（软分配）的近似

为什么kmeans一定会收敛?

M步中的最大化似然值，更新参数依赖的是MSE，MSE至少存在局部最优解，必然收敛

kmeans初始点除了随机选取之外的方法？

先层次聚类，再在不同层次上选取初始点进行kmeans聚类