龙星计划·机器学习_Day4

2012-08-09

早上7点起床，从中关村骑车20分钟到清华上课。算是体验了一番北京上班生活的味道~

今天余凯老师讲了graphical models，感觉就是讲算法形象化，将变量看作节点（Nodes），将变量间的相互关系看作边。

朱军老师讲了structure learning，但是全堂巨量的英文术语让我完全跟不上，然后就睡下去了。

张潼老师讲Learning on the web，张潼在Yahoo!和IBM的时候，都做过web上的learning，有以下几种类型：

今天主要讲classification和ranking。明天会cover推荐系统的部分。

Classification有几个要素：

张潼老师说，在做文本分析时，还是用vector space model最好，简单又高效。只需两步：

分析：文章中出现次数越少的，可能是越重要的单词。因为出现得多的，像“和、的、有、人、我”，一般都没有太大的意义。我记得TF-IDF法，除了考虑某单词在本篇文章出现的次数，还考虑了在其他文章中出现的频率大小，以评估重要性。

最后一节课，余凯老师讲了最近在语音、视觉处理中大热的Deep learning，它被引入到ML中使ML更接近于其原始的目标：AI。一般的学习算法深度并不大，如SVM的深度是2。深度学习通过增加从输入到输出的层数，来构造更精确的模型。

Life