NeurIPS 2024 放榜twitter 巨屌,东谈主大附中有高中生一作入选。
本年,NeurIPS 率先把 AI 顶会卷到了高中里,稳当面向高中生搜集论文,还为此特意设备了高中生赛谈(High School Projects Track)。
刻下抑制终于出炉,北京大学诡计机学院的张铭教化共享了一则入围音信:
东谈主大附中吴悠,有一篇一作论文入选该赛谈,还被选为了 Spotlight Project。
论文题为《Vision-Braille:An End-to-End Tool for Chinese Braille Image-to-Text Translation》,提议了一种中语盲文图像到文本的端到端翻译器具。
据张铭教化先容,吴悠在 2022 年高一加入她的课题组时,就提议了这个项见地念念法。
哥也色中文娱乐站端到端中语盲文图像到文本翻译器具
具体来说,该形状基于谷歌的 mT5 模子,接管 Curriculum Learning(课程学习)身手微调出了一个盲文翻译模子。
其中的难点主要包括几个方面:
穷乏数据集:中语盲文翻译数据集绝顶稀缺,数据的采集也相比难题,需要耗尽大量东谈主力。
盲文数据的特等性:盲文通过最多三个单位格来默示每个汉字的发音,即声母、韵母和调子。但在本色使用中,盲文使用者平日会不祥大部分声调标志,这给盲文翻译带来了挑战。
同音字耻辱:中语中存在大量同音字,而且由于声调标志平日被不祥,同音字的区分变得愈加难题。
为此,论文作家们最初构建了一组中语 - 盲文数据集,包括 Chinese-Braille-Full-Tone、Chinese-Braille-No-Tone 和 Chinese-Braille-10per-Tone。
作家从莱比锡数据皆集网罗了 100 万个不同的中词句子,使用中语盲文在线平台提供的器具,将网罗到的中词句子调治为"全音"盲文。
此后,为了模拟信得过宇宙中盲文使用者不祥声调的情况,作家识别出这些盲文中代表声调的部分,并就地去除了其中 90% 的声调,创建 Chinese-Braille-10per-Tone 以反应试验宇宙中中语盲文的使用情况。
数据按照 8:1:1 的比例被分散为老成集、考证集和测试集。
老成身手方面,作家使用 RetinaNet 来实行盲文 OCR 任务,将盲文图像调治为数字盲笔墨符。
接着,接管课程学习战略——即简易单到复杂地安排演习任务,分三个阶段微调了多谈话 Transformer 模子 mT5:
第一阶段:使用 Chinese-Braille-Full-Tone 数据集行动老成的浅近部分,让模子学习基本的翻译法则。这个数据皆集的盲文包含完满的声调信息。
第二阶段:使用 Chinese-Braille-No-Tone 数据集,让模子在莫得声调信息的情况下,学会笔据落魄文运筹帷幄正确的中笔墨符。
第三阶段:使用 Chinese-Braille-10per-Tone 数据集,让模子更好地合乎本色运用场景。
实验抑制高慢,在考证集和测试集上,该模子的 BLEU 得分分别达到了 62.4 和 62.3,权贵普及了盲文翻译的准确度。
论文作家一经放出了形状 Demo,抑制是酱婶的,感兴致的小伙伴们不错戳文末衔接自行测试:
(正确谜底:不外,关于我方外向的特性,埃托奥说,"这等于信得过的我,我不会为此转换。)
该形状是在吴悠高三时完成。张铭教化高慢,他刻下已参预康奈尔大学就读诡计机和生物医药工程专科。
论文致谢中提到,吴悠主如果在张铭教化博士生、论文第二作家袁野的同样下完成了这项参谋。
张铭,北京大学诡计机学院教化,博士生导师,参谋限制包括文本挖掘、常识图谱、图神经集会和诡计机培植参谋等。她相助发表的科研学术论文曾获 ICML 2014 最好论文、ICDM 2022 最好论文提名等荣誉。Google Scholar 高慢,她的论文援用量接近 2 万,h 指数为 48。
NeurIPS 高中生赛谈
NeurIPS 是本年刚设的"高中生赛谈",主要搜集"机器学习的社会影响"标的的论文。
公告是这么写的:
提交形状必须讲明十足由高中生作家孤独完成的责任。但愿每个提交的形状都能隆起高慢积极的社会影响,八成使用机器学习产生积极社会影响的后劲。
详备来说,等于允许高中生们找外部导师来相助完成形状,但必须把导师以及相助者的孝敬,和高中生作家的孝敬区分开来。
公告中还法则了,作家需要提交高中在读解说,系数补充材料均应十足由作家完成,包括视频、Demo、海报、网站或源代码。
值得一提的是,其他顶会也有积极宣战和影响高中生的趋势。
比如,CVPR 的作念法是和高中相助,开展 CV 限制的专科讲座等课外步履。
论文地址:
https://arxiv.org/abs/2407.06048
Demo 地址:
https://vision-braille.com/twitter 巨屌