标签归档:ICCV 2009

ICCV 2009 Diary (Oct. 3)

主会结束后,今天是多个Workshop。上午参加了The PASCAL Visual Object Classes Challenge 2009。PASCAL(http://pascallin.ecs.soton.ac.uk/)是一个测试平台,目前许多state-of-art的实验结果都是在PASCAL上测试。听了几个报告后,然后去5th IEEE Workshop on Embedded Computer Vision。这个Workshop里的很多论文都涉及GPU运算。利用GPU代替CPU计算,在NVidia的CUDA促进下,发展很快。GPU计算使得很多计算量很大的算法实时运算成为可能。如果想加速算法,可考虑一下使用GPU运算。

无法后就看Posters,多个workshop的posters都放在一起。相对主会来说,可明显感觉到workshop的平均论文水平差一档。

ICCV不愧是牛会,在论文之外的一些方面也可以看出。一是参加人数众多,即使最后一天,上座率依然很高。没有发生大家都去游玩,会场空荡荡的情况。二是可以看出Oral Session的主讲人都做了细心准备,讲稿排版质量都较高,表达水平都也不错。虽有个别语言不是很好,但在开会之前应该模拟演讲了好多遍,表达的也很流利。还有就是所有的Oral Session时间控制得都很好,没有出现严重超时的现象。Poster Session里,绝大部分都很敬业,连续两三个小时不厌其烦的向每一个人介绍自己的工作。这些细节都表现出参会者都很重视,做了认真准备。

最后坦白一下,下午看完workshop的poster之后,我就逃会了,没有参加workshop的最后一个oral session。这几天不停的有人推荐金阁寺、清水寺、二条城等名胜,很多都是世界文化遗产。天气又好,蓝天白云,我经不住诱惑,出去玩了。

京都大学旁边有个寺庙,叫知恩寺。我从会场出来,先进去晃了晃。寺庙地盘不大,没有游人,最中间是一个全木建造的大殿。里面一群和尚在念经。我坐在旁边听了会儿,发了会儿呆。

京都知恩寺的和尚在诵经

京都知恩寺的和尚在诵经


然后去了八阪神社,八阪神社在旅馆到京都大学的路上,早上看到的,规模很大的样子。神社里供奉的是一些神,任何东西都可以是神,如人、动物、树甚至石头。这算是日本土生土长的一种信仰。臭名昭著的靖国神社就是神社的一种。八阪神社里有个大舞台(无墙的大殿),旁边写着“观月祭”,说针对中秋,晚上6点15有演出。今天是中秋啊,一个人孤苦伶仃地在异国他乡,过会儿一定回来找点中秋感觉。我记下时间地点,然后奔二条城而去。
八阪神社里穿和服妇女

八阪神社里穿和服妇女

不知供什么?供神水?

不知供什么?供神水?

到达二条城,下午4点过一点。二条城下午4点关闭。碰上香港浸会大学的Ma同学正从二条城大门出来。聊了一下,他打算去金阁寺,说金阁寺是一休电视剧里的寺庙。我……看过一休,可是不记得细节了。欲同去,发现金阁寺5点关门。赶过去来不及了,遗憾……实际上京都很小,开始我看地图,觉得很多地方都很远,所以也没有计划好。搞到最后一个名景点都没有去成。

回到八阪神社,祭月已经开始了。月亮又大又圆,灯笼高悬,神社工作人员都是一袭白衣,还摆了个供台,一切很圆满,唯一美中不足的是演奏的是西洋乐器。

ICCV日记就写到这儿了,总结一句:开会好累。

八阪神社里的祭月

八阪神社里的祭月

中秋明月,月还是故乡明啊

中秋明月,月还是故乡明啊

ICCV 2009 Diary (Oct. 2)

早上没有爬起来,迟到了,而且还迟到了很久,差不多一个小时。第一个Oral Session基本都结束了。

C. Zhou的Coded Aperture Pairs for Depth from Defocus:拍照片时,不同的光圈,景深不同,因此在景深之外的区域造成的模糊不同。这篇论文就用不同的模糊,来估计深度。嗯,处处有科研!

B. Smith的Light Field Video Stabilization:使用摄像头矩阵(5个摄像头),实现video stabilization。算法包含深度计算,光流计算,边缘计算(用于在时间维度上匹配)等。上Smith个人主页查了一下,深度计算用的是Graph Cut算法(或类似)。光流看上去计算的不错,不知道计算复杂度如何。

Frome的: Large-scale Privacy Protection in Google Street View:Google Street里对人脸和车牌都做了模糊处理,很想知道他们是怎么做的。机会来了,他们竟然有论文!问了Frome一下,人脸检测除了用Haar+Boosting之外,他们还有了一些其他辅助特征来过滤false positive detection,车牌检测也用了跟人脸几乎类似的方法。并且,他们提供人脸训练数据,大约有15,000张人脸。遗憾的是只能提供他们的部分数据,有些因为隐私/版权问题不能提供。

今天是主会的最后一天,下午最后一个Orial Session,人数依然很多,不像有些会议,最后一天人都跑光了。会议结束时,大会主席介绍了一下参会人数情况:共有1406人付款注册,1356人参加会议。ICCV的吸引力的确不一般。

ICCV 2009 Diary (Oct. 1)

首先,宣布一个不幸的消息,具体情况看图吧。我现在属于高危人群,回国后估计要大门不出,二门不迈了,先自我封闭几天。另外希望我9月29日那天没有跟他面对面聊,并保佑我这几天不要中签。明天开始戴口罩。

H1N1感染通报,以及预防通知

H1N1感染通报,以及预防通知

Swirski的Stereo from Flickering Caustics:因为水面波动,透入水下的光线出现陆离的花纹。本文用双目摄像机拍摄图像,并在时间维度上匹配相似花纹,获得视差图,然后可构造出水下物体三维形状。处处有科研啊!

Desai的Discriminative Models for Multi-class Object Layout获得David Marr Outstanding Paper Award,其实验结果还是比较强的!

Chockalingam的Adaptive Fragments-based Tracking of Non-rigid Objects Using Level Sets:对于颜色数目比较少的物体会有非常好的效果,他演示的“猴子逗狗”视频中对猴子的跟踪可以展现这一方法的效果。不过如果颜色比较多、纹理比较杂,估计算法可能会失效。问作者这个情况,他说可以在一定程度上handle。作者的说法虽然也对,但是应该也有点水分。

Wei He的SURF Tracking:思路很简单,对于纹理丰富、无视角变化的刚体跟踪应该会有较好效果,如果用于行人跟踪,人一转身,关键点可能就会丢失很多。

Collomosse的Storyboard Sketches for Content Based Video Retrieval:很不错的创意,演示也很炫。不过这个需要建立在视频能够准确理解的基础之上。

Kalogerakis的Image Sequence Geolocation with Human Travel Priors:用图像之外的信息(主要是照片的时间tag)来辅助视觉,可以大幅度提升性能。有时候也不一定在视觉这棵树上吊死。

今天晚上Banquet,回来太晚,不多评论论文了。发两张Banquet的照片。本次会议组织的的确不错,非常细致,细致到每一个细节,让参会人员一切都很顺利。不过晚上的banquet还是稍微有点out of control。1000多人参会,让这么多人一起吃饭,的确不是个容易的事情。当然只是场面有点乱,表演的时候或者讲话的时候,下面很多人说话比较嘈杂而已,其他还好。不说了,上图:

Banquet人山人海,连个下脚的地方都没有

Banquet人山人海,连个下脚的地方都没有

舞妓表演

舞妓表演

ICCV 2009 Diary (Sep. 30)

Furukawa et. al, Reconstructing building interiors form images,从2D图像中构造室内3D,效果不错,小有震撼,可以用在虚拟漫游中,真实感比较强。

Yuxiao Hu的Action Detection in complex scenes with spatial and temporal ambiguities在超市环境中进行行为识别(顾客触摸商品),无论如何,在真实的复杂环境中做行为识别还是值得推荐的。

Ikizler-Cinbis的Learning Actions from the Web:通过google搜索特定行为图片(如走、跑等),然后人工筛选,并抠出人体区域,用PbHOG特征[PAMI 2005]特征,对测试视频进行行为识别。从Flicker, Youtube,以及其他图像从网络上获取数据已经成为潮流。

Hamsici的Active appearance model with rotation invariant kernels:AAM里的模型一般采用PCA进行线性拟合,但实际上应该是非线性模型。这篇论文使用kernel的方法进行非线性变换。目前很流行用Kernel方法解决高维特征和非线性问题。

Saragih的Face alignment through subspace constrained mean-shift:传统的ASM使用GMM近似特征点周围的概率分布,该论文主要创新点是使用isotropic kernel density estimation,更能接近真正的分布。作者说计算复杂度跟ASM是一个量级,但效果好很多。并顺便问了作者ASM和AAM有什么区别:作者说ASM扩展性较好;如果训练数据和测试数据为同一人,AAM效果会不错,但是一旦新人脸,可能拟合效果不好。

美女Pritch的Shift-map image editing:很不错,现在的图像编辑/合成功能越来越强了,可以用来伪造图像。

Kirmani的Looking around the corner using transient imaging:Coffee break时在外面呆得久了会儿,这个报告没有听开头,后面楞是没有搞明白他这个设备能干什么。

Hao Du的A prism-based system for multispectral video acquisition:是一个多光谱的视频采集设备,是一个低成本方案,设计的很巧妙!如果让做光学的相机公司优化一下,应该会有很大提高。如果空间分辨率高一些,应该可以用于人脸识别、掌纹静脉识别等领域。

ICCV 2009 Diary (Sep. 29)

今天是ICCV主会第一天。上午开始是宣布奖项。David Marr Outstanding Paper Award是由瑞典的Chaitanya Desai获得,后天是这个论文的Presentation,到时候具体了解一下。上午的三个报告都是关于segmentation,听得我好晕。

下午poster session/demo session的时间很长,就像赶大集一样,人头攒动,人声鼎沸!

下午Oral session里X. Wang的论文《An HOG-LBP human detector with Partial occlusion handling》貌似不错,回头看看论文。笔记本上没有光驱,不能看会议论文集,来的时候应该带个USB光驱。

其他,今天遇见了多年不见的浙大王师兄,自动化所黄师兄,还见到了一些以前认识的人。

开会好累,不写了,上图吧。