NVIDIA Mellanox MCX556A-ECAT এর কার্যকারিতা: RDMA/RoCE অতি-স্বল্প ল্যাটেন্সি এবং সার্ভার থ্রুপুট ব্রেকথ্রু সক্ষম করে

April 23, 2026

সর্বশেষ কোম্পানির খবর NVIDIA Mellanox MCX556A-ECAT এর কার্যকারিতা: RDMA/RoCE অতি-স্বল্প ল্যাটেন্সি এবং সার্ভার থ্রুপুট ব্রেকথ্রু সক্ষম করে

বিতরণকৃত স্টোরেজ, উচ্চ-পারফরম্যান্স কম্পিউটিং (এইচপিসি) এবং এআই প্রশিক্ষণ ক্লাস্টারগুলিতে নেটওয়ার্ক লেটেন্সি এবং সিপিইউ ওভারহেড দীর্ঘকাল ধরে সার্বের সামগ্রিক দক্ষতা সীমাবদ্ধ করে।একটি বড় আকারের ক্লাউড সার্ভিস প্রদানকারীর সাম্প্রতিক বাস্তবায়ন দেখায় যে কিভাবেএনভিডিয়া মেলানক্স এমসিএক্স৫৫৬এ-ইসিএটিRDMA এবং RoCE প্রযুক্তির মাধ্যমে এই চ্যালেঞ্জগুলি মোকাবেলা করে, আউটপুট এবং বিলম্ব হ্রাস উভয়ই পরিমাপযোগ্য লাভ প্রদান করে।

পটভূমি ও চ্যালেঞ্জ

গ্রাহক একটি মাল্টি-পেটাবাইট Ceph স্টোরেজ ক্লাস্টার পরিচালনা করে যা হাজার হাজার ভার্চুয়াল মেশিনকে সমর্থন করে।স্ট্যান্ডার্ড টিসিপি/আইপি ব্যবহার করে তাদের ২৫ জিবিই অবকাঠামো উচ্চ সিপিইউ ব্যবহার (স্টোরেজ নোডে ৬০% এর বেশি) এবং পিক লোডের সময় অসঙ্গতিপূর্ণ বিলম্বের কারণে ভুগছিল. ব্যাকআপ উইন্ডো প্রায়ই আট ঘন্টা অতিক্রম করে, এবং এআই প্রশিক্ষণ কাজ I / O স্টল সম্মুখীন. দল একটি সমাধান প্রয়োজন যা CPU হস্তক্ষেপ কমাতে পারে, কম বিলম্ব,এবং একটি সম্পূর্ণ অবকাঠামো overhaul ছাড়া স্কেল. পর্যালোচনা করার পরMCX556A-ECAT ডেটা শীটএবং তুলনাMCX556A-ECAT স্পেসিফিকেশন, তারা নির্বাচিতMCX556A-ECATমূল আপগ্রেড উপাদান হিসেবে।

সমাধান ও বাস্তবায়ন

স্থাপত্যের কেন্দ্রবিন্দু ছিলMCX556A-ECAT ইথারনেট অ্যাডাপ্টার কার্ড, একটি ডুয়াল-পোর্ট 100GbE অ্যাডাপ্টার যা PCIe 3.0/4.0 x16 সমর্থন করে।MCX556A-ECAT ConnectX অ্যাডাপ্টার PCIe নেটওয়ার্ক কার্ড, এটি বিদ্যমান পাতার মেরুদণ্ডের টপোলজি জুড়ে RoCE v2 সক্ষম করেছে।

  • পুরানো 25GbE অ্যাডাপ্টারের সাথে প্রতিস্থাপনMCX556A-ECAT৪০টি স্টোরেজ নোড এবং ১৫০টি কম্পিউটিং নোড।
  • হার্ডওয়্যার অফলোডগুলি সক্ষম করাঃ ডাটা অখণ্ডতার জন্য NVMe over Fabrics (NVMe-oF), GPUDirect RDMA, এবং T10-DIF।
  • ক্ষতিহীন RoCE পরিবহনের জন্য অগ্রাধিকার প্রবাহ নিয়ন্ত্রণ (PFC) এবং উন্নত ট্রান্সমিশন নির্বাচন (ETS) কনফিগার করা।
  • পরীক্ষা করাMCX556A-ECAT সামঞ্জস্যপূর্ণবিদ্যমান মেলানক্স স্পেকট্রাম সুইচ এবং QSFP28 অপটিক্সের সাথে স্থিতি।

পুরো স্থাপনার জন্য দুই সপ্তাহান্তে সময় লেগেছে, কম্পিউটার ওয়ার্কলোডের জন্য লাইভ মাইগ্রেশন ব্যবহার করে শূন্য ডাউনটাইম।

ফলাফল ও উপকারিতা

প্রয়োগের পরে পরিমাপগুলি মূল পরিমাপগুলির মধ্যে নাটকীয় উন্নতি প্রকাশ করেছে। নিম্নলিখিত টেবিলটি আগে / পরে তুলনা সংক্ষিপ্ত করেঃ

মেট্রিক আগে (25GbE TCP/IP) পরে (MCX556A-ECAT RoCE সহ) উন্নতি
স্টোরেজ নোড সিপিইউ ব্যবহার ৬২% ১৮% ↓ ৭১%
গড় বিলম্ব (৪ কে র্যান্ডম রিড) ৪৫০ μs ৪২ μs ↓ ৯০.৭%
সমষ্টিগত ক্লাস্টার থ্রুপুট ৩৮ গিগাবাইট/সেকেন্ড 172 গিগাবাইট/সেকেন্ড ↑ ৩৫৩%
ব্যাকআপ উইন্ডোর সময়কাল 8.৫ ঘন্টা 1.৮ ঘন্টা ↓ ৭৯%

সংখ্যা ছাড়াও, ইঞ্জিনিয়ারিং টিম রিপোর্ট করেছে যে RDMA উল্লেখযোগ্যভাবে jitter হ্রাস করেছে, "tail latency" স্পাইকগুলি দূর করেছে যা পূর্বে এআই প্রশিক্ষণ চেকপয়েন্টগুলিকে আঘাত করেছিল।MCX556A-ECAT ইথারনেট অ্যাডাপ্টার কার্ড সমাধান, কার্ডটি অন্তর্নির্মিত টেলিমেট্রি এবং ঘনত্বের বিজ্ঞপ্তির মাধ্যমে ত্রুটি সমাধানকেও সহজতর করেছে।MCX556A-ECAT মূল্যকর্মক্ষমতা লাভের বিরুদ্ধে, গ্রাহক CPU কোর সঞ্চয় এবং দ্রুত ব্যাচ কাজ সমাপ্তি থেকে নয় মাসের মধ্যে ROI অর্জন।বিক্রির জন্য MCX556A-ECATএকাধিক চ্যানেল অংশীদারদের মাধ্যমে, এই কর্মক্ষমতা স্তরটি মাঝারি স্তরের উদ্যোগের জন্যও অ্যাক্সেসযোগ্য করে তোলে।

সংক্ষিপ্ত বিবরণ এবং প্রত্যাশা

এই কর্মসূচি প্রমাণ করে যে,MCX556A-ECATআপনি বিতরণকৃত ডাটাবেস, এইচপিসি সিমুলেশন বা এনভিএম-ওএফ স্টোরেজ চালাচ্ছেন কিনা,এনভিডিয়া মেলানক্স এমসিএক্স৫৫৬এ-ইসিএটিএই অ্যাডাপ্টারের চারপাশে নির্মিত সমাধানগুলি পুরানো টিসিপি / আইপি স্ট্যাকগুলিকে ছাড়িয়ে যাবে।বিস্তারিত পরিকল্পনা, কর্মকর্তা উল্লেখ করুনMCX556A-ECAT ডেটা শীটঅথবা সমাধান স্থপতিদের সাথে পরামর্শ করুন যাচাই করতেMCX556A-ECAT সামঞ্জস্যপূর্ণআপনার নির্দিষ্ট পরিবেশের জন্য কনফিগারেশন।