2016年初,新年新气象。
值此新春佳节,孟繁岐首先为学界送上了一份大礼,直接公布了视觉T方法的论文。
对于孟繁岐想要做的事情来说,视觉T方法只是一个基础,后续如何将文字和图像结合在一起才是更加关键的地方。
但对于学界并非如此,视觉T方法的成功意味着太多的事情。
一听说孟繁岐终于回归老本行,又发了一篇视觉方向的论文,许多研究者们都非常关注。
“让我康康,这个视觉T方法究竟是何妙计。”几乎所有人都是抱着这种想法打开了孟繁岐的最新论文。
然而结果却让他们大吃一惊,孟繁岐没有什么奇技淫巧,锦囊妙计。
这篇视觉T方法是诸多想将T方法应用在图像领域的工作中,对T方法改动最少的。
可效果却也是所有工作中最好的。
这让大家有些难以理解了。
“我去,T方法原来直接就能入侵图像领域吗?”
“图像领域各种技术百家争鸣的时期是不是结束了?后面也要跟语言领域一样,T方法一家独大?”
“图像和自然语言领域不会开始合并了吧?”
视觉T方法论文公布了,网络上已经有不少人思维很敏锐,一下子就想到了妙处。
既然模型结构越发相似,图像和自然语言两种不同领域的融合似乎成为了可能。
虽然一下子被人猜到了路线,但孟繁岐没啥危机感。
时代变了!
“两年前,我只需要组装一台高配置机器就能够单刷IMAGE数据集,突破世界纪录十個百分点。要是换现在...绝无这种可能。”
千万级别的图片,在当时耗费了孟繁岐数个月的时间,又是提前准备,又是组装设备,训练过程也持续了好几周。
现如今,孟繁岐重新复现当时的那个过程,仅仅只需要几分钟,上百张最新的核弹齐齐运转,很快就能够训练完成。
这其中的含义浓缩成两个字,就是【垄断】。
不仅数据上垄断,算力上也垄断。
目前市面上,只有谷歌真的有实力与孟繁岐比拼一下,脸书都只能算半个。
其他的公司已经连他的尾灯都看不见了。
这不,孟繁岐视觉T方法的论文直接放出,具体模型的结构,图像如何转文本,一点也不藏着掖着。
可谁又能够在短时间内复现呢?
大部分机构数据的数量和质量都差了孟繁岐一两个数量级,计算设备也比不过,训练技巧和参数调整上更是缺少足够的经验。
哼哧哼哧复现两三个月,也只能得到一个明显差了好几个百分点的结果罢了。
想要追平没个一年多的时间,根本不可能。
这不,没几天时间就有人在小数据,小模型规模上复现了视觉T方法,效果并不理想。
“视觉T方法...这么无脑的做法真的能够有如此夸张的性能吗?”这是学界所有人心中的第一想法,大家都对这件事情持怀疑态度。
目前为止,还没有一个人公开发声表示质疑...这可以说完全是看在孟繁岐的面子上。
若是换个人来发表视觉T方法这篇文章,早就被喷得体无完肤了。
中心思想无非是:“T方法都出来一年了,你当兄弟们傻的?没在图像领域上尝试过?”
但凡是个动手积极的研究者,基本上都拿T方法在图像领域上玩过,都有自己的心得和经验。
那稀烂的性能,都是自己做过实验整理过表格的。
可如今,发这篇文章的是T方法的创始者,孟繁岐。
大家就算有疑问...第一时间也只能打碎了牙往肚子里咽。
学界的所有人都不得不将这份疑问强压在心里,先找自己的问题。
【抛开我自己亲手做的实验得出的结果不谈,孟繁岐的结果肯定有他的道理!】
这情况,可以说是孟繁岐所有发布的技术当中最令人费解的。
此前,有T方法、GPT技术这种令人折服的。大家一看就心服口服,觉得自己根本没有这个本事和才能创造出类似的办法。
也有残差链接这种,大巧不工,简洁好用的。思路简洁但爆好用,大家觉得震撼的同时,也都在惋惜,要是自己能想到这一层就好了。
但唯独没有过视觉T方法这样...大家全特么想到过的。不仅想到过,基本还都做过。
还做了相当多的实验!
这让人到哪说理去??
“这套做法,我半年前就想到了!”
“去去去,半年前想到算个P,去年T方法刚出来,我直接就拉到图像任务上做过实验了。”
“我刚刚尝试复现了一下...效果怎么还是稀烂?”
有关这次视觉T方法的大讨论,绝对是圈内研究人员最有参与感的一件事情。
如果说科学创新就像是挖矿淘金,孟繁岐此前属于自己在高难度区域发现优质金矿,又或者是在大家意料之外又情理之中的地方挖坑发现优质金矿。
而这一次,则是直接在所有人几乎都挖过一铲子的坑里,硬是淘出金子来了。
这样的公共坑里挖出了金子,让不少人都有了一种莫名其妙的参与感,不由得洋洋得意了起来。
虽然自己P都没有发现,但至少曾经有过一个重大的发现不是!
但更多的还是那种懊恼和悔恨。
【明明是我先来的...】
【我当时...我当时都做了好几次实验了...我怎么就没把它做好呢?】
【假如...假如我能做得再好一些,这一次视觉T方法的成果就是我的了!】
本章未完 点击下一页继续阅读