অ্যাকশনে NVIDIA Mellanox MQM8790-HS2F: RDMA/HPC/AI ক্লাস্টারের জন্য লো-ল্যাটেন্সি ইন্টারকানেক্ট অপ্টিমাইজেশন
April 10, 2026
একটি দ্রুত বর্ধনশীল এআই গবেষণা সংস্থা একটি পরিচিত সমস্যার সম্মুখীন হচ্ছিল: তাদের ২০০+ জিপিইউ ক্লাস্টার, যা বৃহৎ ভাষা মডেল প্রশিক্ষণ এবং আণবিক গতিবিদ্যা সিমুলেশনের জন্য ব্যবহৃত হত, সেখানে কাজের সমাপ্তির সময় অপ্রত্যাশিতভাবে পরিবর্তিত হচ্ছিল। শক্তিশালী কম্পিউট নোড থাকা সত্ত্বেও, বিদ্যমান ১০০Gb/s ইথারনেট ফ্যাব্রিক টেল ল্যাটেন্সি স্পাইক, ইনকাস্ট প্যাটার্নের অধীনে প্যাকেট ড্রপ এবং ঐতিহ্যবাহী TCP/IP স্ট্যাক প্রক্রিয়াকরণের কারণে উচ্চ CPU ওভারহেডের সম্মুখীন হচ্ছিল। দলটির এমন একটি সমাধানের প্রয়োজন ছিল যা ধারাবাহিক সাব-মাইক্রোসেকেন্ড ল্যাটেন্সি সরবরাহ করতে পারে, জিপিইউ ডাইরেক্টের জন্য আরডিএমএ (RDMA) সম্পূর্ণরূপে সমর্থন করতে পারে এবং ফোর্কলিফ্ট আপগ্রেড ছাড়াই স্কেল করতে পারে। উপলব্ধ বিকল্পগুলি মূল্যায়ন করার পর, তারা তাদের পরবর্তী প্রজন্মের ক্লাস্টার ফ্যাব্রিকের মূল ভিত্তি হিসাবে মাইনিকো (NVIDIA Mellanox) MQM8790-HS2F নির্বাচন করেছে।
সংস্থাটি একটি দ্বি-স্তরীয় ফ্যাট-ট্রি টপোলজিতে MQM8790-HS2F ইনফিনিব্যান্ড সুইচ স্থাপন করেছে, যা ১২৮টি কম্পিউট নোড (প্রতিটি NVIDIA ConnectX-6 HDR অ্যাডাপ্টার সহ) এবং ৪টি স্টোরেজ নোডকে সংযুক্ত করেছে। ২০০Gb/s HDR গতিতে চালিত এর ৪০টি QSFP56 পোর্ট সহ, একটি একক ১৬Tb/s নন-ব্লকিং সুইচিং ক্ষমতা সরবরাহ করেছে—যা দুটি লিগ্যাসি ইথারনেট সুইচ প্রতিস্থাপন করার জন্য যথেষ্ট এবং ক্যাবলিং জটিলতা কমিয়েছে। স্থাপনটি MQM8790-HS2F 200Gb/s HDR 40-port QSFP56 এর আরডিএমএ (RDMA) এবং জিপিইউডিরেক্ট (GPUDirect) এর জন্য নেটিভ সমর্থন ব্যবহার করেছে, যা সিপিইউ হস্তক্ষেপ ছাড়াই বিভিন্ন সার্ভারের জিপিইউগুলির মধ্যে সরাসরি মেমরি অ্যাক্সেস সক্ষম করেছে।
মূল বাস্তবায়নের বিবরণের মধ্যে অন্তর্ভুক্ত ছিল:
- অ্যাডাপ্টিভ রাউটিং যা হট স্পটগুলি দূর করে একাধিক পথের উপর স্বয়ংক্রিয়ভাবে ট্র্যাফিক ভারসাম্য বজায় রাখে।
- ইন-নেটওয়ার্ক রিডাকশনের জন্য SHARPv3 (Scalable Hierarchical Aggregation and Reduction Protocol), যা অল-রিডিউস (All-Reduce) অপারেশনগুলিকে ২.৫ গুণ পর্যন্ত ত্বরান্বিত করে।
- সুইচ স্তরে কনজেশন কন্ট্রোল, যা লসি ইথারনেট পরিবেশে সাধারণ হেড-অফ-লাইন ব্লকিং প্রতিরোধ করে।
ক্রয়ের আগে, ইঞ্জিনিয়ারিং টিম MQM8790-HS2F ডেটাশিট এবং MQM8790-HS2F স্পেসিফিকেশন পর্যালোচনা করেছে তাদের বিদ্যমান মেলানক্স কেবল এবং ট্রান্সসিভারগুলির সাথে সামঞ্জস্যতা নিশ্চিত করার জন্য। MQM8790-HS2F সামঞ্জস্যপূর্ণ ইকোসিস্টেম—যার মধ্যে এইচডিআর অপটিক্যাল এবং কপার কেবল অন্তর্ভুক্ত—তাদের পূর্ববর্তী ইন্টারকানেক্ট বিনিয়োগের ৪০% পুনরায় ব্যবহার করার অনুমতি দিয়েছে, যা আপগ্রেডের বাধা উল্লেখযোগ্যভাবে কমিয়েছে।
MQM8790-HS2F-ভিত্তিক ফ্যাব্রিক-এ স্থানান্তরিত হওয়ার পর, সংস্থাটি তিন ধরণের উন্নতির নথিভুক্ত করেছে:MQM8790-HS2F মূল্য গড় এম্পিআই পিং-পং ল্যাটেন্সি ২.১µs (ইথারনেট RoCE) থেকে ০.৮২µs-এ নেমে এসেছে, যেখানে টেল ল্যাটেন্সি কার্যত নির্মূল হয়েছে।
- জব থ্রুপুট: ডিস্ট্রিবিউটেড ট্রেনিং জবগুলি (NCCL-ভিত্তিক) কম যোগাযোগ ওভারহেড এবং SHARPv3 ত্বরণের কারণে ৩৭% দ্রুত সম্পন্ন হয়েছে।
- সিপিইউ অফলোড: ইনফিনিব্যান্ডের উপর আরডিএমএ (RDMA) নেটওয়ার্কিংয়ের জন্য সিপিইউ ব্যবহার প্রায় ১৫% থেকে ২% এর নিচে কমিয়েছে, যা কম্পিউটেশনের জন্য কোরগুলি মুক্ত করেছে।
- একটি ১২৮-জিপিইউ অল-টু-অল কমিউনিকেশন বেঞ্চমার্কে, MQM8790-HS2F ইনফিনিব্যান্ড সুইচ সমাধান
পূর্ববর্তী ইথারনেট ফ্যাব্রিকের তুলনায় ১.২% লস সহ ১১২Gb/s এর তুলনায় প্রতি পোর্টে ১৯৮Gb/s শূন্য প্যাকেট লস সহ বজায় রেখেছে। একই দল দ্বারা চালিত আর্থিক সিমুলেশনের জন্য, জব পরিবর্তনশীলতা ৭৮% হ্রাস পেয়েছে, যা কঠোর এসএলএ (SLA) এবং অনুমানযোগ্য রানটাইম সক্ষম করেছে।সারসংক্ষেপ ও পূর্বাভাস: একটি ভবিষ্যৎ-প্রমাণ বিনিয়োগএই বাস্তব-বিশ্বের স্থাপন প্রমাণ করে যে
কেবল একটি স্পেসিফিকেশন শিট হিরো নয়—এটি প্রোডাকশন এইচপিসি (HPC) এবং এআই (AI) ওয়ার্কলোডগুলির জন্য বাস্তব সুবিধা প্রদান করে। ২০০Gb/s এইচডিআর থ্রুপুট, ৪০টি উচ্চ-ঘনত্বের পোর্ট এবং উন্নত ইন-নেটওয়ার্ক কম্পিউটিংয়ের সংমিশ্রণ জব সমাপ্তির সময় এবং অপারেশনাল ওভারহেড উভয়ই হ্রাস করে ক্লাস্টার অর্থনীতিকে রূপান্তরিত করে। আইটি নেতাদের জন্য যারা কর্মক্ষমতা লাভের বিপরীতে MQM8790-HS2F মূল্য মূল্যায়ন করছেন, এই কেস স্টাডি কেবল কম্পিউট দক্ষতা উন্নতির উপর ভিত্তি করে ১২ মাসের কম আরওআই (ROI) নির্দেশ করে।সংস্থাটি তাদের জিপিইউ সংখ্যা ৪০০+ নোডে দ্বিগুণ করার পরিকল্পনা করার সাথে সাথে, তারা একটি নন-ব্লকিং ফ্যাট-ট্রি আর্কিটেকচার বজায় রাখার জন্য অতিরিক্ত MQM8790-HS2F বিক্রয়ের জন্য
ইউনিটগুলির জন্য বাজেট করেছে। এইচডিআর (HDR) এবং ইডিআর (EDR) গতির মিশ্রণ করার সুইচের ক্ষমতা পুরানো অ্যাডাপ্টারগুলি ধীরে ধীরে প্রতিস্থাপিত হওয়ার সাথে সাথে একটি মসৃণ মাইগ্রেশন পথ নিশ্চিত করে। পরবর্তী প্রজন্মের আরডিএমএ (RDMA)-কেন্দ্রিক ক্লাস্টার ডিজাইনকারী স্থপতিদের জন্য, NVIDIA Mellanox MQM8790-HS2F একটি প্রমাণিত, প্রোডাকশন-রেডি ব্যাকবোন সরবরাহ করে যা বিভাগীয় এআই গবেষণা থেকে এক্সাস্কেল সুপারকম্পিউটিং পর্যন্ত স্কেল করে।

