聚搜云(www.gzjcsc123.com)是上海聚搜信息技術(shù)有限公司旗下品牌,坐落于魔都上海,服務(wù)于全球、2019年成為阿里云代理商生態(tài)合作伙伴。與阿里云代理商、騰訊云、華為云、西部數(shù)碼、美橙互聯(lián)、AWS亞馬遜云國際站代理商、聚搜云,長期戰(zhàn)略合作的計(jì)劃!阿里云國際站代理商專業(yè)的云服務(wù)商!
近日,阿里云機(jī)器學(xué)習(xí)平臺(tái)PAI與華東師范大學(xué)高明教授團(tuán)隊(duì)合作的論文《結(jié)構(gòu)感知的稀疏注意力Transformer模型SASA》被頂會(huì) SIGIR 2022錄取。論文主導(dǎo)通過引入稀疏自注意力的方式來提高Transformer模型處理長序列的效率和性能,并提出了結(jié)合代碼語言和結(jié)構(gòu)特性的面向長代碼序列的Transformer模型性能優(yōu)化方法。
SIGIR是人工智能領(lǐng)域智能信息檢索方向頂級(jí)國際會(huì)議,涉及搜索引擎、推薦系統(tǒng)等多個(gè)方向,該會(huì)議曾推動(dòng)了面向搜索的排序模型、基于深度學(xué)習(xí)的推薦算法等人工智能領(lǐng)域的核心創(chuàng)新,在學(xué)術(shù)和工業(yè)界都有巨大的影響力。此次入選意味著阿里云機(jī)器學(xué)習(xí)平臺(tái)PAI自研的稀疏注意力Transformer模型達(dá)到了業(yè)界先進(jìn)水平,獲得了國際學(xué)者的認(rèn)可,展現(xiàn)了中國機(jī)器學(xué)習(xí)系統(tǒng)技術(shù)創(chuàng)新在國際上的競爭力。
那么SASA主要解決了什么問題?基于Transformer的模型在self-attention模塊的復(fù)雜度隨序列長度呈次方增長,多數(shù)編程預(yù)訓(xùn)練語言模型(Programming-based Pretrained Language Models, PPLM)采用序列截?cái)嗟姆绞教幚泶a序列,從而導(dǎo)致上下文信息缺失。
針對(duì)以上問題,SASA設(shè)計(jì)了四種稀疏注意力模式,包括:sliding window attention,global attention,Top-k attention,AST-aware attention,在一定程度上將計(jì)算復(fù)雜度與序列長度解耦。其中sliding window和Top-k模式基于局部上下文和重要的attention交互學(xué)習(xí)表示,抽象語法樹(AST)模式引入代碼的結(jié)構(gòu)特性,與序列上下文信息相互補(bǔ)足,global attention通過與序列中所有token進(jìn)行交互來獲取全局信息。對(duì)比CodeBERT,GraphCodeBERT等方法,SASA在多個(gè)長代碼任務(wù)上取得最佳效果,同時(shí)也降低了內(nèi)存和計(jì)算復(fù)雜度。
SASA技術(shù)將在開源框架EasyNLP中集成,給PAI的NLP開發(fā)者提供基于稀疏注意力機(jī)制的長序列自然語言處理能力。機(jī)器學(xué)習(xí)平臺(tái)PAI面向企業(yè)客戶級(jí)開發(fā)者,提供輕量化、高性價(jià)比的云原生機(jī)器學(xué)習(xí),涵蓋PAI-DSW交互式建模、PAI-Designer可視化建模、PAI-DLC分布式訓(xùn)練到PAI-EAS模型在線部署的全流程。
論文信息
EasyNLP開源地址:https://github.com/alibaba/EasyNLP
論文鏈接:https://arxiv.org/abs/2205.13730
論文名字
Understanding Long Programming Languages with Structure-Aware Sparse Attention. SIGIR 2022
論文作者
劉婷婷,汪誠愚,陳岑,高明,周傲英
