Google Cloud ได้เปิดตัวบริการใหม่ที่ชื่อว่า Hypercompute Cluster ซึ่งเป็นโครงสร้างพื้นฐานที่ออกแบบมาเพื่อรองรับการปรับใช้และดูแลคลัสเตอร์ขนาดใหญ่ที่ประกอบด้วยเครื่องเสมือน (VM) ที่ปรับแต่งสำหรับตัวเร่งความเร็ว (accelerator) โดยเฉพาะ เพื่อรองรับงาน AI ขนาดใหญ่ที่ต้องการประสิทธิภาพสูง ความเสถียร และความพร้อมใช้งานสูง
คุณสมบัติหลักของ Hypercompute Cluster ได้แก่:
- การจัดสรรทรัพยากรตัวเร่งความเร็วอย่างหนาแน่น: เครื่องโฮสต์จะถูกจัดสรรให้อยู่ใกล้กันทางกายภาพ และเชื่อมต่อด้วยเครือข่ายที่มีความหน่วงต่ำ เพื่อเพิ่มประสิทธิภาพการทำงานของเครือข่าย
- การจัดตารางงานที่คำนึงถึงโทโพโลยี: ให้ข้อมูลโทโพโลยีในระดับโหนดและคลัสเตอร์ เพื่อใช้ในการวางตำแหน่งงานอย่างเหมาะสม
- การควบคุมการบำรุงรักษาขั้นสูง: ผู้ใช้สามารถควบคุมการบำรุงรักษา VM ภายในบล็อกของทรัพยากรได้อย่างเต็มที่ เพื่อลดการหยุดชะงักของงาน
- การผสานรวมกับระบบจัดการงาน: คลัสเตอร์นี้ถูกออกแบบมาให้ผสานรวมกับระบบจัดการงาน เช่น Google Kubernetes Engine (GKE) และ Slurm เพื่อความสะดวกในการจัดการ
- เครื่องมือสำหรับการปรับใช้ การตรวจสอบ และการวินิจฉัย: มีเครื่องมือสำหรับการปรับใช้คลัสเตอร์ การตรวจสอบ และการรายงานปัญหา เพื่อช่วยลดภาระในการจัดการคลัสเตอร์
สำหรับผู้ที่สนใจเรียนรู้เพิ่มเติมเกี่ยวกับการสร้างสภาพแวดล้อม High Performance Computing (HPC) บน Google Cloud