Categories

Calendar

April 2014
M T W T F S S
« Jun    
 123456
78910111213
14151617181920
21222324252627
282930  

Yet Another New Blog

记得最开始写的那个 blog 也是在大概两年之后换的,就是现在这个 blog 。不过当时之所以换是因为原来帮我 host blog 的朋友他们的主机要停止使用了,在 DH 新搭了 blog 但是懒得从旧版本的 wordpress 费力导入新版本,于是就分开了两个 blog ,旧的不发新帖,只供访问。

现在一晃又两年,正好又搭了一个新 blog :http://freemind.pluskid.org ,测试了几天,目前已经有几篇文章了。是用 Static Blog Generator 搭建起来的,所以 comments 之类的都是用的外部服务。Static Blogging 有好处也有坏处,所以我现在也还没有决定是否直接切换过去。这个 blog 我会继续维护,但是暂时可能不会在这里发新文章了,如果我用了一段时间 static blogging 感觉没法用下去的话,可能又会切换回这里。如果有带来不便请见谅!^_^目前已经切换到那边了,当然这个 blog 也会继续开放中,只是不会在这里发布新文章了。

Multiclass Learning with ECOC

ECOC 是 Error-Correcting Output Codes 的缩写。上一篇文章中提到 ECOC 可以用来将 Multiclass Learning 问题转化为 Binary Classification 问题,本文中我们将对这个方法进行介绍。

要了解 ECOC ,可以从 One-vs-Rest 的 Multiclass Learning 策略出发。回忆一下,对于一个 K 类的分类问题,One-vs-Rest 策略为每一个类 $i$ 都训练一个 binary classifier ,用于区分“类别 $i$” 和“非类别 $i$”两类。对于这个策略,可以用下面这样一个图来表示(假设我们有四个类):

这个表中,每一行代表一个类,而每一列代表一个 binary classifier ,其中表格内的元素表示该列所对应的 binary 问题中,该行所对应的类别的数据被当作正例还是负例。例如,第一列表示该 binary classifier 是通过把第一类当作正类 (+1) ,剩余的第二、三、四类当作负类 (-1) 而训练出来的。如此类推。

现在我们将这个表格称作 ECOC codebook ,而把表格的列数称作是 ECOC 的 code length $L$ ,并且不再要求 $L$ 和类别数 $K$ 相等。在 codebook 中,每个类别会对应一个长度为 $L$ 的 code 。例如,在刚才的例子中,第一类所对应的 code 为 +1-1-1-1 ,第四类所对应的 code 为 -1-1-1+1 。

» Continue reading Multiclass Learning with ECOC

Google 代码之夏,Multiclass Learning

虽然各种大小事情和死线依旧是蜂拥而来,但是我想这个假期我“Officially”应该是主要在做 Google Summer of Code 。因为难得的很长的假期,以后又更少有机会回家了,所以理所当然的要呆在家里,但是为了避免一个假期过后荒废得最后连数字都不会数了,我又一直苦恼在家里应该做些什么事情——必须要是有外力来强制进度的事情,否则毫无疑问地会慢慢荒废掉,因为家里本就是一个适合休息堕落的环境呀。最后想到 GSoC 的时候突然眼睛一亮:这不就是为我这种情况量身定做的吗?!

将军 (Shogun) 是众多项目中我比较感兴趣的一个。因为肯定是希望做跟机器学习相关的项目呀,所以实际上 shogun 是项目列表里最相关的一个了。简单地来说就是用 C++ 写的一个机器学习算法库,里面实现了各种常用的算法,并且把许多著名的算法(像 LibSVMLibLinearVowpal Wabbit 等)也都统一的包装起来,然后再提供了各种语言像 Matlab、Python、R 等下面的接口供方便调用。

不过虽然我以前也见到过 Shogun ,但是却并没有实际用过。以前见到这个名字的时候还以为是日本人写的库(因为 Shogun 是日语单词“将军”呀),后来了解了一下才发现实际上是有德国的 Max Planck Institute (MPI) 里的一个组发起的项目(这个 MPI 里有好多机器学习非常强的组呢!),而这个略奇怪的名字实际上是由最初的两个作者 Soeren Sonnenburg 和 Gunnar Raetsch 的名字的开头 So 和 Gun 拼起来再变化得到的。但是究竟是如何查到这个日语单词的呢?嗯,也许是 Google 了一下看到 wikipedia 的页面了吧……不过,Soeren 说你可以给 Shogun 画个好看点的 logo 的……许多年前参加 GSoC 的时候也被叫给当时的项目画了个 Logo ,不过这次就真的完全没有想法了啊,其实我觉得就这样用汉字做 logo 也挺不错的。

» Continue reading Google 代码之夏,Multiclass Learning

关于留学申请的一些注意事项

据说先报一下申请结果可以提高点击率:

  • Offer:MIT (2.10, CSAIL), UW (1.30)
  • AD: OSU (3.15, funding to be decided)
  • Withdraw:Cornell, UCLA, GaTech, TTIC, UCSD, Rutgers, UAlberta, WUSL, OSU, UToronto, UMich
  • Reject:Stanford (2.11), CMU (2.4 Stat SML, 2.11 CSD, 2.14 MLD), Princeton (2.18), UToronto (2.25), UC Berkeley (3.7), UCLA (2.22, 3.8), Cornell (3.12), UPenn (3.22)

背景大致是这样的:ZJU CS 本硕(本科 GPA 3.7),G 1390+3.5, T 110(口语 23), 无交流无实习,有 top 会议和期刊论文(但是没有一作),导师 strongly recommend ,申请方向是机器学习和学习理论。

这里对自己的申请过程做一些总结,希望对后来的同学有一些帮助。但是自己一直不是很喜欢所谓的“经验之谈”,因为大部分情况下一个人把一件事情做好了这其实只是一个非常个例的情况,他自己总结出来的东西并不一定是导致他所取得的成果所必需的,或者甚至是起相反作用的;而且即使别人总结的有道理,也并不一定可以照搬,许多时候只有自己摸索出来的路才是真正适合自己的。所以我在这里说的东西,除了一些客观的事实(例如关于 TOEFL 两年有效期的问题等),其他的都请各位仅供参考。 :)

» Continue reading 关于留学申请的一些注意事项

留学申请注意事项:英语考试

GT 其实没有太多可说的,我个人一直觉得 GT 属于比较鸡肋的条件:只要过了一定的线以后就变得不那么重要了。我参加的是老 G (就是那次 ETS 搞的万恶的 11G),一年只有两次,所以报名上时间也要计划好,但是现在新 G 貌似一年有很多次,所以时间上应该也问题不大了。我是先考 T 再考 G 的,这个感觉怎么都无所谓,看自己喜欢了。总之“不那么重要”并不是说不重要,认真考出好成绩总是没有坏处的,复习过程可能会有些漫长,特别是背 GRE 的单词,虽然有点痛苦,但是并不是百无一用,取决于你以后要过什么样的生活,实际上我个人觉得 GRE 中的大部分单词其实还是非常常用的,例如在英美的报刊杂志新闻之类的地方。当然有一个不得不承认的事实就是:在考完试之后大部分单词会被迅速遗忘掉。TOEFL 的话,复习用 Official Guide + TPO 吧!关于 GT 考试两个很好的论坛就是太傻寄托家园。上面还有许多其他有用的资料,例如《太傻十日谈》是一本很有意思的书(虽然我没看完…… -.-),还有可以找到各大学校的《飞跃手册》之类的都是对整个申请过程有非常大的参考价值的(目前比较新且内容比较全的应该是《北大飞跃手册第二版》和《上交飞跃手册 2010~2011 版》吧),不过也要选择性吸收,例如许多飞跃手册上关于 GT 送分还是讲的电话甚至寄信给 ETS 的送分方式,实际上现在在网上送分已经非常方便了。

关于 TOEFL 要多说几句的是它的过期时间是两年。然而就像一兆可以是 1000000 也可以是 1048576 一样,这个“两年”的解释上也有各种“猫腻”。主要的分歧在于从何时开始算。我所期望的,是从提交网申的那个时间开始算,例如我申请 2012Fall ,提交网申的时间大概是在 2011 年 11 月左右,那么我只要在 2009 年 11 月之后考的 T 都应该是有效的。事实上大部分学校都是这样算的,然而有些学校则是按照入学时间来算的,2012 Fall 的入学时间通常是 2012 年 9 月,也就是说必须在 2010 年 9 月之后考的 T 才是有效的。比较悲剧的是我的 T 是在 2010 年 4 月考的,而我发现这个情况的时候已经非常晚了,而且即使早了我肯定也不想考第二次的吧!有些学校明确说了有效期的计算方法,有些学校说得模模糊糊,有些学校则完全没提,为了保险起见,我发邮件到所有我关注的学校去确认了一圈。这个应该是比所谓的最低分要求更加严格的限制,比如 Berkeley 明确说了如果超过了他们算法的有效期,那么即使 ETS 把分数送过来了他们也是不接受的。在我看过的学校里,有 Berkeley、Stanford、UIUC、WISC、USC 和 UMass 是悲剧了的。结果我后来强申了 Berkeley 和 Stanford ,然后被拒了,当然被拒的理由大概也不止因为 T 的有效期吧。录取过程中的各种未知因素,作为学生来说可就无从得知了。

当然像我这种考得太晚的情况估计算是比较反常的吧…… =.=bb 大部分人应该是会担心考得太晚的问题。这个我没有太多的经验,不过一般情况下是可以和小蜜沟通的,不要晚太多就好。另外 ETS 送分速度非常不稳定,两天到几个月都有可能,我都是在 deadline 前一个月送的,没有出什么问题。而且如果分数已经有了,只是 ETS 送得缓慢的话,大部分学校都可以先把成绩扫描版上传上去作为 unofficial 成绩供对方审材料的时候用。

留学申请注意事项:选校

选校一般是在 GT 之后。我大致是在 2011 年暑假快结束的时候开始看学校的,一开始也比较悠哉,但是到后面就开始有些紧张了,最好做好计划,因为比如每天看一个学校的话,看 20 个学校也要花掉大半个月的。实际上选校这个事情的建议是越早越好,或者可以分成几个阶段来,因为很多步骤其实都会依赖于你要申请哪几个学校。

比如知道去哪里的话,考试也有针对性了,例如去欧洲的话一般要考雅思而不是托福,而加拿大有不少学校似乎是不要 GRE 的,另外 MIT 的 EECS 其实也是不需要 GRE 成绩的。

再比如在考 GT 的时候会有 4 所免费送分的学校,如果事先有看过学校的话(只要大致知道自己肯定会申的 4 个学校就好了),就很好填了,G 和 T 每个学校送一次分都要 100+ 米的,所以还是要好好利用的。我就比较悲剧,考 G 的时候随便填了几个,后来申请的时候搞晕了结果又把那几个重新送了一次;考 T 的时候以为可以后面申请的时候再填结果就留空了,然后后来发现留空了就相当于放弃了免费送分的名额……

还有就是办理成绩单的时候,因为这也是一件比较麻烦的事情——特别是在高峰期的时候。知道自己要申多少学校的话,就好一次办好了。不过到这个阶段就需要更仔细一些的选校了,一方面要把学校列表确定下来,另一方面还得看看各个学校关于成绩单的要求:有个别学校是要求寄两份成绩单的,还有更多的学校并不需要寄成绩单,只要上传扫描版就可以了,纸质版成绩单可以在拿到 offer 之后再寄过去。

» Continue reading 留学申请注意事项:选校

留学申请注意事项:文书

申请过程中的文书一般就是指 PS (Personal Statement) (或者 SoP:Statement of Purpose)和 CV ,这里重点说一下 PS 吧。

PS 重不重要呢?我觉得是非常重要的。当然说他重要并不是说其他条件都很水仅靠一篇金光闪闪的 PS 就能帮你拿到牛校 offer ,而是说 PS 是申请的时候学生唯一一个比较灵活地表现自己能力的机会。举个不太恰当的例子,就好比在沙漠里一壶水之所以重要并不是说有了这壶水你就能活着走出去,而是因为这壶水是你生存下去唯一可以倚仗的东西。

除了 CV 之外,其他的材料(成绩单、GT 等等)每个人都是同一个“模样”的,但是 CV 要求简洁(一般建议不超过一页),所以可以传达的信息并不是很多,Statement 则一般可以写到两页纸的文字,是表现自己 uniqueness 的唯一机会,uniqueness 就是指你和其他的申请者所不同的地方,这么多申请者,别人为什么选择你?当然“我一顿饭能吃八两”、“我左手长了六个指头”之类的虽然也可称为“独特之处”,但是肯定就不用写上去了,阅读你 PS 的人想看的是什么,不妨换位思考一下,自己站在他们的位置上想一想就大致明白了。或者可以具体来实践一下,比如你想买个什么东西(比如出国装行李用的 28 寸拉杆箱),然后上淘宝去搜索一下,然后可能你会通过价格、销量、信誉、地域等条件筛选出一个候选店铺列表来,之后就点进去看这些店铺的宝贝介绍页面——这个页面的内容就相当于我们申请的时候的 PS 了!你在浏览这些页面的时候有没有发现某个店铺让你眼前一亮的感觉呢?或者你可能会觉得这些页面其实都大同小异——因为本来就是公开可见的,大家互相抄袭模仿咯。然而 PS 虽然并不是公开可见的,但是其实绝大部分人都是按照网上找得到的那些建议、模板来写或者由那些中介之类的来修改,最后一样的会造成这个效果。我觉得在浏览淘宝购物页面的时候这种心情和教授挑学生的时候的感觉应该是比较相似的——特别是通过 RA 的方式,要由教授出钱来“买”这个学生的时候,所以我们自己多体验一下这个过程,应该也会对我们准备自己的文书准备工作产生一些启发吧!

» Continue reading 留学申请注意事项:文书

留学申请注意事项:网申与推荐信

网申付款和送 GRE 成绩的时候都需要一张双币信用卡,应该正常一点的双币卡都可以吧,比如建行的浙大龙卡就挺好用的,没有出任何问题。TOEFL 送分由于是国内的一个网站,好像只能工行(还是哪个行?)的网银付账。另外网申是一件非常麻烦和痛苦的事情,要填各种各样乱七八糟的东西,注意事项大概以下几点吧:

  • 大部分学校的网申系统都并不是要求你一次填完提交的,可以填一半保持了以后再慢慢填,我大部分学校基本上都是前前后后磨蹭了大半个月才提交。
  • 有些学校对于没有填完的 form 有差不多一个月的保存时间,要注意看,不要等拖太久了它给你删了你又得辛辛苦苦重新填。
  • 有些学校(比如 CMU)号称是你付款提交之后才会去帮你去整理匹配你送过去的成绩单和 GT 成绩之类的,所以为了有时间能确认寄过去的东西有没有收到,以及各种奇怪的意外问题,最好不要拖到最后一天才提交吧。比如在比较后面我才突然发现 CMU 的 TOEFL 成绩我居然忘了寄了。
  • 大部分系统在提交之后就不能修改了,所以请再三确认。不过有的学校(比如 Columbia、CMU、MIT)在提交之后还是可以修改信息的。还有一些学校只可以修改部分信息。不过如果万一真的有问题的话,也可以联系小蜜,一般也可以帮忙修改的,特别是在 deadline 还没有过的情况下。
  • 申请的学校多的话,密码是一个问题,全都用同一个密码倒也可以,但是有时候有些系统对密码有特殊要求,比如必须要同时有字母和数字啊,或者必须要有符号啊,如果两个网站的要求不一样的话,就不好统一了。还有许多学校是用的同一个网申系统的。如果觉得乱的话,可以用个密码管理器什么的,比如 LastPass
  • 有时候说不定会有惊喜,比如 UAlberta 的网申,我照例拖了很久之后有一天突然收到一封 Email 说我们可以给你把申请费给免了,你只要点第三方支付,然后找谁谁谁就可以了。虽然不知道是怎么回事,但是总之是好事哈! :D

如果申请的学校比较多的话,建议用 Excel (或者任何方便使用的工具)做一下详细的进度跟踪和记录,否则很容易混淆或者遗漏了。

» Continue reading 留学申请注意事项:网申与推荐信

留学申请注意事项:陶瓷

申请阶段最后一个话题就是陶瓷了。陶瓷有没有用这几乎是一个永恒的争论,对于这个问题我的答案简单来说是“我不知道”,这里我只陈述一下我的想法和经历,具体大家自行判断。一开始我的主要想法是比较负面的,特别是在看到有不少教授在自己主页上或客气或不客气地写明了“请不要发邮件给我询问申请录取的事”、“一切资料都可以在学校网站上找到”、“你需要按照标准流程来提交申请”、“决定是由 committee 做的,给我发邮件并不会增大你被录取的几率”之类的话之后。文字太多了,再插播一幅听起来好像挺切题的图吧:Sasha 的 pottery

除非是那些在主页上写明了正在招生欢迎发邮件的人,否则如果你真的要申请,走正常申请渠道就好了啊,如果对某个老师感兴趣,直接在 SoP 上提到他的名字,他应该就会看到了,而且如果他真的对你感兴趣的话,从系统里看就可以看到你的各种材料,相比你发的邮件来说要全面得多。这个观点实际上是我之前有一个机会同 UMich 的一位教授聊天的时候问起来这样的问题得到的答案。我个人是比较认同这样的观点的。当然有可能出现的情况是初选的时候被不小心刷掉了,根本没到你提到的教授手里?我不知道学校在录取的时候审材料到底是什么样一个认真仔细程度,以及误杀的比例会是多大。但是学校也想招好的学生,所以应该也不会太过于马虎吧?不过我也问过许多许多其他人的意见,大家对待这个问题也各有观点,大多也都比较慎重,不过大部分人都表示“即便没有好处的话,至少也没有坏处吧”。

» Continue reading 留学申请注意事项:陶瓷

留学申请注意事项:最终试炼

如果说读 PhD 是一场战争的话,那么等待 offer 的这段时间大概就要算上战场之前的最终试炼了吧。我感觉,这似乎是申请过程中最痛苦难熬的阶段。首先,在前面漫长的紧张忙碌之后突然闲下来了,无事可做了,难免会觉得突然失去了方向一样倍感空虚;与此同时心又是悬着的,在等待结果,却又无法做任何事情来加速这个进程,就有点像有时候喜欢一个人但是却什么都做不了只能等待着等待着那样的痛苦。当然最痛苦的阶段还是真正开始于别人都开始有 offer 了,你还什么都没有或者只有 reject 的时候。一般是很难淡定下来做事情的,还好这段时间一般是寒假过年阶段,在家的时候大可轻松一下,出去找同学亲戚什么的玩一下什么的,每天早上起来查一下邮件就可以了。

» Continue reading 留学申请注意事项:最终试炼