标签归档：ICCV 2009

ICCV 2009 Diary (Oct. 3)

主会结束后，今天是多个Workshop。上午参加了The PASCAL Visual Object Classes Challenge 2009。PASCAL（http://pascallin.ecs.soton.ac.uk/）是一个测试平台，目前许多state-of-art的实验结果都是在PASCAL上测试。听了几个报告后，然后去5th IEEE Workshop on Embedded Computer Vision。这个Workshop里的很多论文都涉及GPU运算。利用GPU代替CPU计算，在NVidia的CUDA促进下，发展很快。GPU计算使得很多计算量很大的算法实时运算成为可能。如果想加速算法，可考虑一下使用GPU运算。

无法后就看Posters，多个workshop的posters都放在一起。相对主会来说，可明显感觉到workshop的平均论文水平差一档。

ICCV不愧是牛会，在论文之外的一些方面也可以看出。一是参加人数众多，即使最后一天，上座率依然很高。没有发生大家都去游玩，会场空荡荡的情况。二是可以看出Oral Session的主讲人都做了细心准备，讲稿排版质量都较高，表达水平都也不错。虽有个别语言不是很好，但在开会之前应该模拟演讲了好多遍，表达的也很流利。还有就是所有的Oral Session时间控制得都很好，没有出现严重超时的现象。Poster Session里，绝大部分都很敬业，连续两三个小时不厌其烦的向每一个人介绍自己的工作。这些细节都表现出参会者都很重视，做了认真准备。

最后坦白一下，下午看完workshop的poster之后，我就逃会了，没有参加workshop的最后一个oral session。这几天不停的有人推荐金阁寺、清水寺、二条城等名胜，很多都是世界文化遗产。天气又好，蓝天白云，我经不住诱惑，出去玩了。

京都大学旁边有个寺庙，叫知恩寺。我从会场出来，先进去晃了晃。寺庙地盘不大，没有游人，最中间是一个全木建造的大殿。里面一群和尚在念经。我坐在旁边听了会儿，发了会儿呆。

京都知恩寺的和尚在诵经

然后去了八阪神社，八阪神社在旅馆到京都大学的路上，早上看到的，规模很大的样子。神社里供奉的是一些神，任何东西都可以是神，如人、动物、树甚至石头。这算是日本土生土长的一种信仰。臭名昭著的靖国神社就是神社的一种。八阪神社里有个大舞台（无墙的大殿），旁边写着“观月祭”，说针对中秋，晚上6点15有演出。今天是中秋啊，一个人孤苦伶仃地在异国他乡，过会儿一定回来找点中秋感觉。我记下时间地点，然后奔二条城而去。

八阪神社里穿和服妇女

不知供什么？供神水？

到达二条城，下午4点过一点。二条城下午4点关闭。碰上香港浸会大学的Ma同学正从二条城大门出来。聊了一下，他打算去金阁寺，说金阁寺是一休电视剧里的寺庙。我……看过一休，可是不记得细节了。欲同去，发现金阁寺5点关门。赶过去来不及了，遗憾……实际上京都很小，开始我看地图，觉得很多地方都很远，所以也没有计划好。搞到最后一个名景点都没有去成。

回到八阪神社，祭月已经开始了。月亮又大又圆，灯笼高悬，神社工作人员都是一袭白衣，还摆了个供台，一切很圆满，唯一美中不足的是演奏的是西洋乐器。

ICCV日记就写到这儿了，总结一句：开会好累。

八阪神社里的祭月

中秋明月，月还是故乡明啊

ICCV 2009 Diary (Oct. 2)

发表评论

早上没有爬起来，迟到了，而且还迟到了很久，差不多一个小时。第一个Oral Session基本都结束了。

C. Zhou的Coded Aperture Pairs for Depth from Defocus：拍照片时，不同的光圈，景深不同，因此在景深之外的区域造成的模糊不同。这篇论文就用不同的模糊，来估计深度。嗯，处处有科研！

B. Smith的Light Field Video Stabilization：使用摄像头矩阵（5个摄像头），实现video stabilization。算法包含深度计算，光流计算，边缘计算（用于在时间维度上匹配）等。上Smith个人主页查了一下，深度计算用的是Graph Cut算法（或类似）。光流看上去计算的不错，不知道计算复杂度如何。

Frome的: Large-scale Privacy Protection in Google Street View：Google Street里对人脸和车牌都做了模糊处理，很想知道他们是怎么做的。机会来了，他们竟然有论文！问了Frome一下，人脸检测除了用Haar+Boosting之外，他们还有了一些其他辅助特征来过滤false positive detection，车牌检测也用了跟人脸几乎类似的方法。并且，他们提供人脸训练数据，大约有15,000张人脸。遗憾的是只能提供他们的部分数据，有些因为隐私/版权问题不能提供。

今天是主会的最后一天，下午最后一个Orial Session，人数依然很多，不像有些会议，最后一天人都跑光了。会议结束时，大会主席介绍了一下参会人数情况：共有1406人付款注册，1356人参加会议。ICCV的吸引力的确不一般。

ICCV 2009 Diary (Oct. 1)

首先，宣布一个不幸的消息，具体情况看图吧。我现在属于高危人群，回国后估计要大门不出，二门不迈了，先自我封闭几天。另外希望我9月29日那天没有跟他面对面聊，并保佑我这几天不要中签。明天开始戴口罩。

H1N1感染通报，以及预防通知

Swirski的Stereo from Flickering Caustics：因为水面波动，透入水下的光线出现陆离的花纹。本文用双目摄像机拍摄图像，并在时间维度上匹配相似花纹，获得视差图，然后可构造出水下物体三维形状。处处有科研啊！

Desai的Discriminative Models for Multi-class Object Layout获得David Marr Outstanding Paper Award，其实验结果还是比较强的！

Chockalingam的Adaptive Fragments-based Tracking of Non-rigid Objects Using Level Sets：对于颜色数目比较少的物体会有非常好的效果，他演示的“猴子逗狗”视频中对猴子的跟踪可以展现这一方法的效果。不过如果颜色比较多、纹理比较杂，估计算法可能会失效。问作者这个情况，他说可以在一定程度上handle。作者的说法虽然也对，但是应该也有点水分。

Wei He的SURF Tracking：思路很简单，对于纹理丰富、无视角变化的刚体跟踪应该会有较好效果，如果用于行人跟踪，人一转身，关键点可能就会丢失很多。

Collomosse的Storyboard Sketches for Content Based Video Retrieval：很不错的创意，演示也很炫。不过这个需要建立在视频能够准确理解的基础之上。

Kalogerakis的Image Sequence Geolocation with Human Travel Priors：用图像之外的信息（主要是照片的时间tag）来辅助视觉，可以大幅度提升性能。有时候也不一定在视觉这棵树上吊死。

今天晚上Banquet，回来太晚，不多评论论文了。发两张Banquet的照片。本次会议组织的的确不错，非常细致，细致到每一个细节，让参会人员一切都很顺利。不过晚上的banquet还是稍微有点out of control。1000多人参会，让这么多人一起吃饭，的确不是个容易的事情。当然只是场面有点乱，表演的时候或者讲话的时候，下面很多人说话比较嘈杂而已，其他还好。不说了，上图：

Banquet人山人海，连个下脚的地方都没有

舞妓表演

ICCV 2009 Diary (Sep. 30)

发表评论

Furukawa et. al, Reconstructing building interiors form images，从2D图像中构造室内3D，效果不错，小有震撼，可以用在虚拟漫游中，真实感比较强。

Yuxiao Hu的Action Detection in complex scenes with spatial and temporal ambiguities在超市环境中进行行为识别（顾客触摸商品），无论如何，在真实的复杂环境中做行为识别还是值得推荐的。

Ikizler-Cinbis的Learning Actions from the Web：通过google搜索特定行为图片（如走、跑等），然后人工筛选，并抠出人体区域，用PbHOG特征[PAMI 2005]特征，对测试视频进行行为识别。从Flicker, Youtube，以及其他图像从网络上获取数据已经成为潮流。

Hamsici的Active appearance model with rotation invariant kernels：AAM里的模型一般采用PCA进行线性拟合，但实际上应该是非线性模型。这篇论文使用kernel的方法进行非线性变换。目前很流行用Kernel方法解决高维特征和非线性问题。

Saragih的Face alignment through subspace constrained mean-shift：传统的ASM使用GMM近似特征点周围的概率分布，该论文主要创新点是使用isotropic kernel density estimation，更能接近真正的分布。作者说计算复杂度跟ASM是一个量级，但效果好很多。并顺便问了作者ASM和AAM有什么区别：作者说ASM扩展性较好；如果训练数据和测试数据为同一人，AAM效果会不错，但是一旦新人脸，可能拟合效果不好。

美女Pritch的Shift-map image editing：很不错，现在的图像编辑/合成功能越来越强了，可以用来伪造图像。

Kirmani的Looking around the corner using transient imaging：Coffee break时在外面呆得久了会儿，这个报告没有听开头，后面楞是没有搞明白他这个设备能干什么。

Hao Du的A prism-based system for multispectral video acquisition：是一个多光谱的视频采集设备，是一个低成本方案，设计的很巧妙！如果让做光学的相机公司优化一下，应该会有很大提高。如果空间分辨率高一些，应该可以用于人脸识别、掌纹静脉识别等领域。