阿里云代運(yùn)維:什么是阿里云批量計(jì)算,有什么作用?
批量計(jì)算(BatchCompute)是一種適用于大規(guī)模并行批處理作業(yè)的分布式云服務(wù)。BatchCompute 可支持海量作業(yè)并發(fā)規(guī)模,系統(tǒng)自動(dòng)完成資源管理、作業(yè)調(diào)度和數(shù)據(jù)加載,并按實(shí)際使用量計(jì)費(fèi)。
通俗的講,就是您可以提交一個(gè)任意的計(jì)算機(jī)程序,讓它在阿里云的多個(gè) VM 實(shí)例上同時(shí)運(yùn)行,然后把結(jié)果寫入到指定的持久化存儲(chǔ)位置(如阿里云對(duì)象存儲(chǔ) OSS 或者文件存儲(chǔ) NAS),然后您可以去指定的位置查看結(jié)果。
批量計(jì)算功能特性
1. 提交作業(yè)
用戶使用工具(如 SDK,命令行工具等)向 BatchCompute 提交作業(yè),BatchCompute 使用用戶指定的鏡像(如:ubuntu)啟動(dòng)虛擬機(jī)(VM), 在虛擬機(jī)中運(yùn)行用戶程序, 運(yùn)行完成后釋放虛擬機(jī)(VM)。
BatchCompute 中使用 OSS 作為持久化存儲(chǔ)。您可以在程序運(yùn)行完成時(shí)將結(jié)果數(shù)據(jù)保存到 OSS 中。在批量計(jì)算中,也可以通過文件接口的方式訪問 OSS 上的數(shù)據(jù),請(qǐng)參閱 OSS 掛載功能。
BatchCompute 程序默認(rèn)運(yùn)行在 VM 中,也支持 Docker容器。 也就是說,您可以自定義 ECS 鏡像或者使用 Docker,在鏡像中安裝自己需要的任何軟件,用來運(yùn)行您的任何程序。
作業(yè)描述
用戶需要提交一個(gè)作業(yè)(Job)描述 JSON 文件到批量計(jì)算服務(wù),該 JSON 文件中詳細(xì)描述了需要執(zhí)行哪些程序(支持多個(gè)程序),運(yùn)行哪些程序需要啟動(dòng)多少臺(tái)機(jī)器,機(jī)器的規(guī)格(內(nèi)存和CPU等),運(yùn)行日志打印到哪里,完成后結(jié)果輸出到哪里等。
一個(gè)作業(yè)(Job)包含多個(gè)任務(wù)(Task), 按照您指定 DAG 描述的順序執(zhí)行。
每個(gè)任務(wù)定義了使用哪個(gè)鏡像,使用什么實(shí)例規(guī)格,運(yùn)行哪個(gè)程序,需要多少臺(tái)機(jī)器運(yùn)行,還有結(jié)果存儲(chǔ)在哪里等。
2. 管理我的作業(yè)
您可以使用工具(控制臺(tái),命令行工具等),查看我提交的作業(yè),可以停止,重啟,或刪除作業(yè)。 查看各個(gè)任務(wù)的情況,各個(gè)實(shí)例(VM 實(shí)例)的情況和日志。下圖是控制臺(tái)的作業(yè)管理界面:
3. 使用集群
由于每次運(yùn)行程序前需要啟動(dòng)虛擬機(jī),會(huì)占用一定的時(shí)間(一般幾分鐘左右),遇到忙時(shí)有可能申請(qǐng)不到資源(虛擬機(jī)被其他客戶使用了),您提交作業(yè)后可能需要等待一段時(shí)間才能運(yùn)行。
如果您想要提高運(yùn)行效率,可以先創(chuàng)建好集群,指定需要的虛擬機(jī)數(shù)量(比如:5臺(tái))和鏡像ID,BatchCompute 會(huì)為您分配好機(jī)器并啟動(dòng),這些機(jī)器會(huì)一直處于運(yùn)行狀態(tài),一旦您提交作業(yè)上來,就可以直接運(yùn)行,效率較高。
4. 自定義鏡像
您提交作業(yè)或者創(chuàng)建集群時(shí),可以使用批量計(jì)算官方提供的鏡像,也可以使用自定義鏡像。自定義鏡像的好處是,可以自己安裝需要的軟件。
阿里云(www.aliyun.com)創(chuàng)立于2009年,是全球領(lǐng)先的云計(jì)算及人工智能科技公司,為200多個(gè)國(guó)家和地區(qū)的企業(yè)、開發(fā)者和政府機(jī)構(gòu)提供服務(wù)。2017年1月阿里云成為奧運(yùn)會(huì)全球指定云服務(wù)商。2017年8月阿里巴巴財(cái)報(bào)數(shù)據(jù)顯示,阿里云付費(fèi)云計(jì)算用戶超過100萬。阿里云致力于以在線公共服務(wù)的方式,提供安全、可靠的計(jì)算和數(shù)據(jù)處理能力,讓計(jì)算和人工智能成為普惠科技。阿里云在全球18個(gè)地域開放了49個(gè)可用區(qū)(了解全球基礎(chǔ)設(shè)施),為全球數(shù)十億用戶提供可靠的計(jì)算支持。此外,阿里云為全球客戶部署200多個(gè)飛天數(shù)據(jù)中心,通過底層統(tǒng)一的飛天操作系統(tǒng),為客戶提供全球獨(dú)有的混合云體驗(yàn)。
認(rèn)識(shí)阿里云數(shù)據(jù)智能
數(shù)據(jù)智能是阿里云研發(fā)的超級(jí)智能,用突破性的技術(shù),解決社會(huì)和商業(yè)中的棘手問題。目前已具備智能語音交互、圖像/視頻識(shí)別、機(jī)器學(xué)習(xí)、情感分析等技能, 數(shù)據(jù)智能的核心能力在于多維感知、全局洞察、實(shí)時(shí)決策、持續(xù)進(jìn)化在復(fù)雜局面下快速做出最優(yōu)決定。針對(duì)各行各業(yè),阿里云的科學(xué)家對(duì)數(shù)據(jù)智能進(jìn)行專項(xiàng)訓(xùn)練,研發(fā)出了城市大腦、工業(yè)大腦、醫(yī)療大腦、環(huán)境大腦等,在各行各業(yè)成為人類的強(qiáng)大助手。
阿里云飛天系統(tǒng)
飛天(Apsara)是由阿里云自主研發(fā)、服務(wù)全球的超大規(guī)模通用計(jì)算操作系統(tǒng)。 它可以將遍布全球的百萬級(jí)服務(wù)器連成一臺(tái)超級(jí)計(jì)算機(jī),以在線公共服務(wù)的方式為社會(huì)提供計(jì)算能力。 從PC互聯(lián)網(wǎng)到移動(dòng)互聯(lián)網(wǎng)到萬物互聯(lián)網(wǎng),互聯(lián)網(wǎng)成為世界新的基礎(chǔ)設(shè)施。飛天希望解決人類計(jì)算的規(guī)模、效率和安全問題。飛天的革命性在于將云計(jì)算的三個(gè)方向整合起來:提供足夠強(qiáng)大的計(jì)算能力,提供通用的計(jì)算能力,提供普惠的計(jì)算能力。 飛天誕生于2009年2月,目前為全球200多個(gè)國(guó)家和地區(qū)的創(chuàng)新創(chuàng)業(yè)企業(yè)、政府、機(jī)構(gòu)等提供服務(wù)。
選擇云服務(wù)器ECS,您可以輕松構(gòu)建具有以下優(yōu)勢(shì)的計(jì)算資源:
無需自建機(jī)房,無需采購(gòu)以及配置硬件設(shè)施。
分鐘級(jí)交付,快速部署,縮短應(yīng)用上線周期。
快速接入部署在全球范圍內(nèi)的數(shù)據(jù)中心和BGP機(jī)房。
成本透明,按需使用,支持根據(jù)業(yè)務(wù)波動(dòng)隨時(shí)擴(kuò)展和釋放資源。
提供GPU和FPGA等異構(gòu)計(jì)算服務(wù)器、彈性裸金屬服務(wù)器以及通用的x86架構(gòu)服務(wù)器。
支持通過內(nèi)網(wǎng)訪問其他阿里云服務(wù),形成豐富的行業(yè)解決方案,降低公網(wǎng)流量成本。
提供虛擬防火墻、角色權(quán)限控制、內(nèi)網(wǎng)隔離、防病毒攻擊及流量監(jiān)控等多重安全方案。
提供性能監(jiān)控框架和主動(dòng)運(yùn)維體系。
提供行業(yè)通用標(biāo)準(zhǔn)API,提高易用性和適用性。
