Categories

Calendar

September 2017
M T W T F S S
« Jun    
 123
45678910
11121314151617
18192021222324
252627282930  

The cost of knowledge: JMLR 的 8g

这一阵子数学家们发起了一场抵制 Elsevier 的运动,建立了一个网站叫做 the cost of knowledge。简而言之,Elsevier 是一个出版商,它旗下有很多期刊,但是在众多恶劣的出版商之中,Elsevier 似乎尤其恶劣,价格高昂,并且搞捆绑销售捆绑一些非常低质量的期刊,而且还被爆参与一些非正当的学术行为,另外还和前一阵子引起很大风波的让 Wikipedia 下线一天的 SOPA 有关。期刊本来的主要作用是传播学术成果,学术论文发表是没有稿费的,并且论文评审和编辑工作完全是有这些科研工作者“志愿”完成的,出版商也不会支付任何费用,他们的收入则主要来源于将期刊集出售给各大学的图书馆之类的机构。而现在呢,随着 Internet 的发展,期刊的主要作用“传播”似乎越发显得不重要了,然而许多出版商却变本加厉,订阅价格越来越贵,许多学校都越来越难以负担,于是几乎是历史必然地,出现了抵制运动,这次首先针对的是据说行为非常恶劣的 Elsevier ,具体可以参见这次运动的 Statement of Purpose,来龙去脉讲得非常清楚。此运动发起之后,各个领域的人也都参与进来,表示支持,抵制的方式就是可以选择 (1) 不投稿;(2) 不引用;(3) 不参与编辑工作。在他们的网站上可以看到已经有各行各业的的公开支持了。

总而言之这是一场非常振奋人心的运动,相信此后科学出版或者说学术界又会有一些好的变化吧。不过这次要 8g 的主角实际上是 Journal of Machine Learning Research (JMLR) ,那已经是十几年前的老故事了。

同义反复

忘记了之前在哪里看到说数学其实就是同义反复而已。从某种程度上来说,这样的言论也不能说完全是乱说,比如一系列的等价的推导,其实可以说就是在说同一件事情。但是“同义反复”多少有些贬义的意思,具体来说应该是指“不必要的反复”吧,但是数学应该不是这样吧。实际上,来考虑一下什么样的“反复”是“不必要的反复”就可以了,我觉得,那些只要是“不太明显” (non-obvious) 的关系,把这样的关系建立起来,应该也都是有其意义的,而尤其重要的是其中那些“深刻”的关联。

不过“深刻”这样的词是不是太抽象了呢?实际上,最近一年一来,接触了些数学专业的人,在同他们讨论问题的时候——好吧,其实大部分时候是我在听他们讲问题的时候——“深刻”这个词便时常在我脑子里出现。有时候听到他们说一些东西,会觉得很震惊,惊讶“原来如此”,惊讶自己从前的理解是如此的“肤浅”和不得要领。然而我一直想要来描述“深刻”这个词,却一直没有想法。也许应该举一个例子,不过有许多例子一时也想不起来了,也许有很多比较合适的经典的例子,比如 5 次以上方程不可用根式解之于 Galois Theory 的联系,我却又没法讲出来。

实际上大致就是那种感觉,不仅仅存在于数学,也存在于任何学科任何领域。从某一方面来说,世间的万事万物,作为一个个的独立的存在的话,并不是什么重要的存在,反而是它们之间的相互关联更加重要一些。所以,如果看到一个现象,得到的只是一些很明显的联系的话(也就是所谓的 obvious 的东西),也就是所谓肤浅了,这样用处大概并不大;但是如果是能抓住更深层次的东西(也就是 non-obvious 的东西),往往就能把问题看得更透彻——这样的带来的优势是可以比较形象地比喻的。比如说,各大洲上的生物有一些具有非常高的相似性,如果能顺着这个线索最终追查出原来曾经几块大陆是连在一起的,那么不仅为什么相差十万八千里的生物具有很高的相似性的问题变得豁然开朗,而且可以由此得到更多的结论来。

深刻,也就是抓住本质的东西,就好比照妖镜照出妖怪的本来面目。唐僧看不见妖怪的原形,所以妖怪用一些“烟雾弹”轻易就让唐僧上当受骗了;但是孙悟空有火眼金睛,却能看透妖怪的本质。这似乎让看透本质这样的能力越来越虚幻起来。但是神话毕竟只是神话,现实中没有人能有火眼金睛,但是看问题看得深刻——或者说,看到本质的东西,这样的能力却并不是遥不可及的。

MSTC 月刊第三期(十周年特辑)

MSTC 月刊第三期,距离第一期创刊号发布已经快要有两年了,所以说叫“月”刊当然不太合适,当然现在就不去纠结这些细节问题了。这次是第三期,也是特别的一期,因为今年是俱乐部成立十周年,所以是十周年特辑。比较遗憾的是没有能在十周年 party 之前弄完,不过现在既然终于要正式出炉了,那么这些话也不多说了吧,制作过程当然是很辛苦和漫长,当然最需要感谢的是各位供稿人,没有你们提供的内容,月刊是绝对做不出来的啦。

先提供下载吧,顺便附上前两期下载以供怀旧之用(校内下载是 FTP 地址,由于历史原因路径中有中文,如果浏览器无法正确处理,请用 FTP 软件下载):

MSTC 月刊 TechCool Issue 3 (十周年特辑),屏幕阅读预览版(JPEG 普通压缩 dpi 72,对页合并,9.12 MB):校外下载|校内下载
MSTC 月刊 TechCool Issue 3 (十周年特辑),屏幕阅读珍藏版(JPEG 高质量压缩 dpi 144,对页合并,24.5 MB):校外下载|校内下载
MSTC 月刊 TechCool Issue 3 (十周年特辑),可打印版(对页拆分,A4 纸张,103 MB):校外下载|校内下载
MSTC 月刊 TechCool Issue 2:校外下载|校内下载
MSTC 月刊 TechCool Issue 1 (创刊号):校外下载|校内下载

我作为这次月刊的重大苦力,迫不及待地想要提一下这次月刊相对于之前版本的特点:首先是风格比较统一,因为整个排版是由我一个人完成的,首次尝试了采用 Adobe InDesign 来排版——果然是专业的排版软件,比 Word 弄出来的东西看起来更加正规了。一开始就希望做成杂志的样子,就按照双页对开为整个一个版面的方式来排版了,加入了大量的图片元素,所以页数(和文件大小)也比以前的两期增加了许多。除了少数照片是在网上找的之外,大部分图片都是出自俱乐部的照片,此外我还动手为其中一些内容画了插图,虽然有些一下子就看出了功力不足或者偷懒嫌疑,但是也有碰巧自己觉得感觉还不错的——比如游记中的水墨风格的那张。

当然除了排版工作之外,还有众多其他苦力,大家都非常辛苦才有这样的成果啊。而且我很期待这次的版本实际打印出来的效果,俱乐部稍大量打印的可能性团长还在评估中,不过我想回头我自己应该会去印一份的。 总之就是这样啦,要给好评哦亲!给差评我会删帖的哦亲!

这篇文章本来是给 MSTC 月刊写的稿子,但是发现好像这里已经有两个月没有出现新文章了,为了避免有人认为我已经偷偷地死掉了,而月刊又一时半会儿出不来,干脆贴到这里吧。其实是很大的一个话题,而且我写的东西又杂乱到连一个合适的总结性的名字都想不到,而且我在这方面明显还是很新手,但是不管是菜鸟还是大虾,总会有自己的想法嘛,所以我就胡乱写了些文字,就是我自己的非常 personal 的(并且只是“目前”的)想法的一些整理了,希望有人看了会觉得有趣或者是有一些同感。

画画其实和编程很像,对吧?

你有的不过是线条,而你要表达的是整个宇宙——一切你心里能装得下的东西。当然,这很难,有多难呢?大概……就像用C语言写出完整的Linux内核那么难吧。

绘图板

作为一个 IT 人士,身边有各种数码潮人是很正常的,大家都在“败家”,什么 iphone 、ipad 、M9、Kindle、单反等等……我虽然对这些东西不抵制,但是似乎也一点提不起兴趣来。每次和大家站在一起,我就觉得自己是个摩登原始人呀!结果,那天我突然就有了这个想法,在咨询了小 lam 的意见之后,火速买了一个绘图板,快递也很迅速,第二天就到了,而且还是在早上把我从睡梦中叫醒。

Wacom Bamboo Pen Medium ,很喜欢这个名字,不知道为啥要叫 Bamboo ,听起来很可爱啊!不过在我拆开验货的时候,快递员问我这是什么玩意,我说是绘图的,他一副愤世嫉俗的表情看着我说,就一个画画的板?要那么贵?反而搞得我很不好意思,吞吞吐吐地说:“呃,这个……嗯,大致是……还有其他一些功能?”“能上网?”快递员立刻接过话去。于是我咕哝咕哝着就蒙混过关了…… =.=bb 在这种时候总是显得很无力,总不能说更贵的板子多了去了……

打开之后发现绘图板比我想象中的好用的——我原来以为是要“盲定位”的,结果发现不是这样子的,只要鼻尖不离开板子太远,就能感应到指针的移动。还有就是和鼠标的相对移动不一样的是,板子映射到屏幕是绝对位置的映射,一开始会不太习惯当鼠标来用,结果指针移来移去都还是在那里。当然我也没有指望一开始就适应,两大障碍:一是绘图板毕竟和纸不一样,要看着屏幕画,板子和电脑摆得不正的话经常会线条各种扭曲,桌子也得大,摆得下两个东西;二就是软件啦,我对图像处理的软件可以说是一窍不通…… >_< 不过反正我也没有指望能够一下子上手,这个是用板子画的第一幅图:

GRE 和机器学习

其实是在之前复习 GRE 的时候突然想到的一些好玩的事情,只是一直没有时间写出来,今天圣诞节,决定抽空把它写了。先祝大家圣诞快乐!

但凡是考过 GRE 的同学都知道,复习过程是很痛苦的。不过现在是信息时代,找资料确实很方便,除了各种复习材料之外,网上也不乏各种复习方法总结建议之类的,其中甚至还有帮你把每天的复习细节都具体安排好了的。当然其中也有许多很好的建议和经验,但是无论如何还是自己才知道什么方法适合自己啊。所以闲暇的时候我自己也在想,这个过程究竟是怎么一回事,后来越来越觉得和机器学习其实有相当多的地方。

最典型的就是类比反义了,GRE 里的类比就是给一个词对,让你分析出这两个词之间的关系,然后类比这个关系,在 5 个选项里找出同样关系的词对;反义则要简单得多,就是给一个词,找到它的反义词。其实是很简单的问题,我曾经尝试了一下,如果看着翻译过来的中文做题的话,错误率可以很小,所以最大的瓶颈其实就在词汇量了,词汇也应该是 GRE 笔试复习过程中最大的坎。一般复习方法分为两种,一种是被红宝书,或者其他各种“宝书”,甚至还有看字典的,另外一种则是突击看诸如“猴哥类反”之类的往年题目的正确答案列表,以及最近几年的机经之类的。

Acrobat meets Embedding

今天遇到一个非常 weird 的问题。实际上,这个问题已经困扰了我好几天了,那就是我发现我系统里的 Acrobat ,打开 PDF 文件的时候有时候需要“打开两次”才能真正打开,就是双击一下没有反应,要双击第二下才会出现 Acrobat 窗口。令我困惑的是并不是总是这样的,而是“偶尔出现”,实在是让人摸不着头脑。

今天又碰到了这个问题,终于忍无可忍,打开任务管理器观察一番,发现第一次双击的时候确实会出现 Acrobat.exe 这个进程,但是窗口并不显示出来,第二次双击的时候就可以了。当然,如果有其他 Acrobat 窗口打开着,总之后台如果有一个 Acrobat.exe 进程在运行着的话,就一切正常。

我很无语,正要去学校的论坛上抱怨一番,琢磨着怎么描述我的问题,想起来这个问题似乎并不是总是可以重现的,但是为什么今天一直都可以确定地重现出来?于是又随便找了桌面上一个 PDF 打开,一切正常。然后我把桌面上这个 PDF 拷贝到刚才我试验的那个目录下面,果然,问题又出来了。我觉得无比诡异,Acrobat 总不会是会栽在路径中有空格或者路径太长这种古老的错误上吧?于是我把那个文件一层一层地往上移动,再尝试,最后发现它放在一个叫做 “Manifold Embedding” 的目录下面,就会出事,我甚至把这个目录移动到其他地方,也都是这样,比如 “C:\Manifold Embedding\” 。我就尴尬了,Acrobat 怎么可以如此? -,-bb

最后再尝试一番,发现罪魁祸首是 Embedding ,嗯,只要是在一个叫做 Embedding 的目录下就不成。Acrobat 可真是奇怪的癖好,实际上,在命令行下面输入

acrobat.exe Embedding

就有这个效果——在后台打开一个 Acrobat 进程,但是如果参数是其他的东西,甚至是小写的 embedding ,就会是另一个效果——窗口显示出来了,不过有一个错误对话框,说“打开本文档是发生错误,无法找到本文件”,这才是正常的行为嘛。甚至是 fooEmbeddingbar 这样的参数也会被识别出来,要说这是一个命令行参数实在是说不过去。找另一台装了 Acrobat 的机器尝试也是这样,搞不明白,这货究竟是个 bug 呢?还是个隐藏 feature 啊?

ps: 我被迫把我的 Manifold Embedding 目录改了个名字…… =.=bb

Generate Recursive Images

在上一篇 blog 中我提到了递归图片,还给了一个有趣的例子,这次还说递归图片,再给另一个例子:

不过这次的例子是我自己生成的,而篇 blog 就是要讲如何来生成这样一张递归图片。其实方法很简单,类推一下,多花一些功夫的话,之前给的那个“二次递归”的例子也是可以“轻松”做出来的。

Beyond Recursion

Quine,或者说可以打印自己源代码的程序,通常被认为是比递归更神奇的东西,我以前也聊过这个话题。这次再提起来,是因为发现了另一个有趣的例子。

真相是,今天早上实验室网络检修,没法上网,而且由于考试周的接近自习室和图书馆都成了人山人海,几乎没有我等“散户”的容身之地,于是无聊中就把昨天下载的一篇传说很有趣的论文翻出来看了——发现果然很有趣。其实就是 Dahua 之前曾经介绍过的今年 CVPR 会议上分发的一篇最有趣的论文 Paper Gestalt。论文主要是讲了如何用 Computer Vision 的方法来自动判别提交到会议的论文的好坏并决定是否 accept,Dahua 的 blog 上已经介绍得很详细了,我在这里也就不多说了。总的来说,推荐去看一看论文原文,现在可以可以下载到了,语言既严谨又诙谐,简直就是给不幸被断网的小朋友的最佳读物啊! 看到赫然出现的麦克斯韦方程组的时候,我就乐坏了,当然我认为这篇论文的作者并不是 seriously 真的想要用这个系统来作为以后审稿的辅助工具的,但是这个确实很好玩,更重要的是,我看到作者对这个学术社区现状的反思,当然除了诙谐,还略带一些讽刺的意味。所以呀,学术圈也是有可爱的人以及不无聊的事的!

荐书:《女士品茶》

这本书的全名为《女士品茶:20世纪统计怎样变革了科学》,英文原名为 The Lady Tasting Tea: How Statistics Revolutionized Science in the Twentieth Century 。从副标题已经可以看出来它讲的内容是什么了,而从主标题也可以看出这应该会是一本很有趣的书。事实也确实如此。

我最近发现这本书之后它就几乎占满了我所有的空余时间,本来准备看完以后再来推荐,但是现在看到一半已经实在是忍不住了。总的来说这是一本好书,我最开始发现它也是在 newsmth 的统计版上看到有人推荐,而且书的作者 David Salsburg 本身也是牛人,我们会发现并不是所有的科学家都是那种自己思维极度活跃跟正常人根本无法沟通的,其实有许多牛人写的科普类读物是非常易懂并且非常有趣的,并且这些看似随意的文字描述的背后其实有着坚实的理论基础,完全的外行人会觉得这是一本有趣的书,另一方面,在该领域有很深造诣的人,又会从字里行间读到其背后隐藏掉的复杂数学,可以看作对自己所学知识的一次整理。

当然我是属于前一类读者,虽然有听说过 Pearson 、Fisher 之类的名字,但是对于统计学的产生和发展以及一些更深层次的应用和理论并不是特别了解。所以我就完全把它当作一本休闲读物来看了——确实是非常有趣的。此外,我觉得等以后自己对这个领域有了更多的一些了解之后再回来看一遍这个书,估计又能尝到另一番味道呢。如果容许我剧透一下的话,里面会有各种 8g 趣闻,比如但凡学过“数理统计”这门课的人应该都知道有一个叫做“t 分布”的东西,如果不是特别死板的老师的话,通常会告诉大家叫 t 分布这个名字是因为发表该分别的家伙以 student 署名,不过如果你想知道这个以 student 署名的家伙到底是谁,以及为何要这样匿名来发表,就需要看这本书了。