重生之AI教父

CloseAI

首页 >> 重生之AI教父 >> 重生之AI教父最新章节(目录)
大家在看小妻太水嫩:陆教授花式宠 洛公子 动漫之后宫之旅 曼陀罗妖精 宅斗不如养崽崽 学生会长和小干事 八个姐姐独宠我,全是扶弟狂魔! 重生之官路商途 穿越第一件事,截胡秦淮茹! 我的1949从长白山开始 
重生之AI教父 CloseAI - 重生之AI教父全文阅读 - 重生之AI教父txt下载 - 重生之AI教父最新章节 - 好看的都市言情小说

第163章 这特么不数学啊

上一章书 页下一章阅读记录

网络结构的重参数化,原理并不复杂,说白了就像是数学上的结合律。

和加法结合律,乘法结合律什么的差不多是一个意思。

属于是小学二年级知识点。

只不过这次结合的并非是3+5这样的简单加法,而是比较复杂的神经网络算子。

哪些算子是线性的可以合并,如何合并比较好,分支怎么设计,还是稍微有一些工作量。

这个结果值得和前面的移动端网络一起,写作两篇论文。

孟繁岐自从签了谷歌之后,基本上不怎么写论文了,没有了很强烈的发文需求,忙了好一阵子创业和捞钱的事情。

这一次参与围棋AI的项目,倒是跟几位高手一同写了不少内容。

席尔瓦,戴密斯,黄士杰和孟繁岐前段时间把阿尔法狗的技术总结了一番,各自详细描述了一下技术内容,目前由席尔瓦在整合当中。

由席尔瓦,黄士杰和孟繁岐共同作为第一作者,戴密斯为通讯作者,投稿阿尔法狗的详细技术内容到《自然》杂志。

这番投稿比原本早了快两年,给编辑以及审稿人的震撼程度势必又能再上一个台阶。

原本是三个月,现在估算下来,可能两个月左右就能刊登。

“我去年年底投的计算机视觉领域的顶会,一审结果还没出呢。”孟繁岐查看了一下邮箱,觉得情况有些好笑。

他公布在arxiv上面的那些论文,虽然质量很高,但其实严格意义上来说,都还在审稿当中。

算不上是正式发表的内容。

arxiv上确实存在没有正式发表,也不准备再正式发表的旷世奇作,重要论文。但毕竟是极少数。

大部分未发表内容还是比较一般的,孟繁岐还在早期阶段,咖位还不够,该发的文章还是得发。

可能再过两年,以他的咖位就不需要继续正式发表什么文章了,懒得发的话,随便arxiv上公布一下也可。

说是这么说,但孟繁岐还是没能想到,自己第一篇正式发表的文章竟然很可能会是一篇一作《自然》正刊,而且根据前世的情况判断,基本板上钉钉,是封面文章。

实在是造化弄人。

《自然》和《科学》的地位有目共睹,可以说是科学出版界的百年老店了。

由于两家都是综合性刊物,所有的科学领域一起竞争每周相当有限的版面,想在上面发表文章可以说是相当的困难。

即便是学术实力很强的大学,院士十来位,杰青和长江学者百来个,一般一整年能出一两篇自然和科学,也已经算不错的了,值得嘉奖。

在国内做研究人员,别的不说,一篇自然、科学正刊,直接立领五十万乃至上百万奖金,不在话下。

后续的奖励和政策协助那更是数不胜数,哇,爆率真的很高。

席尔瓦和戴密斯也觉得特别神奇,孟繁岐从残差网络崭露头角以来四五个月,一轮审稿期还没过完呢,技术倒是生产个不停。

还没有正式录用一篇文章,就已经能和自己几人一起发自然正刊了。

要知道他们都是多少年的积累和努力才有了这个实力。

“你这个重参数化的思想,逻辑上好像把自己给绕进去了啊。”重参数化是一个创意为主的想法,属于脑洞文。

想到比较困难,实现上倒没有那么复杂。

只是这个原理,在几位研究者看来,好像不大数学。

“现在的情况就是,你有两个结构,一个用来训练,一个用来推理。训练的比较复杂比较慢,但是推理的则小很多,也很快。”戴密斯简要地总结道。

随即指出了最关键的问题:“但你构建的这两个结构却是等价的,这里存在一个巨大的问题,如果两者本身就是等价的,为什么以复杂的形态训练效果会好,而简单的情况训练效果则会差呢?”

“这不数学。”席尔瓦给孟繁岐的想法下了一个结论。

这里面从数学逻辑上来说,存在一个套娃一样的悖论。

那就是有强烈意义的操作,两个分支数学上就合并不了,至于没用的操作最开始就在数学上等价,没必要拆开。

“网络结构的分支合并是没有办法越过非线性算子的,如果越过,则不能合并对吧。”戴密斯如此抽丝剥茧道。

网络结构的重参数化,最终目的是要得出与合并之前一样的运算结果,因此非线性的激活函数是没法包含在残差里的,否则就没法合并。

比如最常用的激活函数,ReLU,其实说白了就是保留所有大于0的数字,小于0的数字归零。

“这个非线性函数操作必须在分支合并之外,而不可以在分支合并之内。”

这个很好理解,假设一个原本的数字x是1,而他F(x)运算之后得出的结果是-2。

那么ReLU(F(x))+ x,和ReLU(F(x)+ x)的结果是完全不同的。

前者为0+1,后者为ReLU(-2+1)=0。

所有的可合并分支,必须不含有非线性激活算子,才能够满足结合律和分配率。

但问题又来了,如果构造出来的几个分支都可以等价转换为一个,那为什么不从一开始就只训这一个分支呢?这不是快很多吗?

最后的效果为什么会不一样呢?

这从直觉上和数学上都是不大合理的事情。

这不就相当于小学数学分开算吗?

2x拆成x+x去训练,这怎么会有区别呢?

“我们不能这么去想,残差链接的想法也没有脱离线性变换,也只是加了一个相同形状的张量x而已呀。”孟繁岐自己也不知道具体的原理,这个世界上没人能解释得清楚。

“但是残差链接在你的实际应用当中,是跨越了非线性激活函数的,你的公式看上去很简单,但代码里却很复杂。”戴密斯无情地指出了这个说法的问题所在。

“那理论上说,是不是3x3的卷积核一定好过1x1的卷积?只要九宫格外面的八个数字都是0,那么3x3的卷积核其实就变成了一个1x1的卷积,因为外面8个数字不参与运算。”

孟繁岐想了想,又换了一个例子来尝试证明。

“呃...好像确实是这个道理。”

就好像有某种物品,一定好过没有,因为再不济你也可以把它扔掉嘛,这样你现在就也没有这个东西,大家都一样了。

“那为什么我这里结果显示,同一个位置上面,1x1 + 3x3的性能却明显好于3x3 + 3x3,也就是说一个强结构加一个弱结构好于两个强结构相加,这难道不奇怪吗?”

“而且,批归一化虽然推理时是线性的,但训练时其实还是非线性的,也就是说即便没有专门的非线性函数,这种可重构的结构设计,多个分支内在训练的时候仍旧是具备非线性能力的。”

理论很美好,但实验结果很骨感。

即便席尔瓦和戴密斯的数学再扎实,也终究没法解释孟繁岐获得了提升的实验结果。

两个人能做的也只有喃喃自语同一句话。

这特么根本不数学啊!

上一章目 录下一章存书签
站内强推小妻太水嫩:陆教授花式宠 逆天剑帝 我无限回档,洞悉所有底牌 魔艳武林后宫传 艳海风波 凡人策 都市偷心龙爪手 神医嫡女 谍战:我其实能识别间谍 春满香夏 我本无意成仙 花都太子 深海余烬 四合院:刘光齐的自赎之路! 快穿女配专抢女主剧本 逼我下乡?科研军嫂搬空你全家 军婚:医学天才在七零靠空间开挂 综武:抢劫暴击返还,爽爽爽! 苟在仙界成大佬 六零:高级军官暗地里是科研大佬 
经典收藏穿越豪门之娱乐后宫 明星系列多肉小说 都市皇宫 渔港春夜 巨星崛起 我在长白山赶山狩猎 官场:救了女领导后,我一路飞升 四合院:开局嫂子秦淮茹 四合院:开局一把枪,禽兽全发慌 重生之官路商途 日记被偷看,天仙杨蜜热芭喊老公 四合院小市民 宋檀记事 穿越四合院,开局入赘娶寡妇 道德绑架?笑死,我根本没有好吗 做医生,没必要太正常 四合院:最强主角 回府后,世子妃马甲快藏不住了! 四合院从1953开始 四合院:爆杀四合院禽兽,无敌了 
最近更新魂穿七零闯香江 村滥 鉴宝?这比抢钱的速度还快? 赚一元,奖一万,我劳动致富 影帝:我只演大叔,粉丝们却疯了 乡野桃花朵朵开 我一个道士,会点法术怎么了 分完又婚 我的同寝校花 德云:少年何须凌云志 降临无期迷途 我家菜地连通小人国仙侠世界 父母被杀后,我化身恶魔复仇 爱上东家儿媳妇 妖孽妙手小村医 拒绝我表白,咋疯狂爱上我了? 外卖小哥都市奢华生活 穿越六零,我疯狂点亮技能 仙旅星海 穿越1965 
重生之AI教父 CloseAI - 重生之AI教父txt下载 - 重生之AI教父最新章节 - 重生之AI教父全文阅读 - 好看的都市言情小说