NVIDIA Mellanox MCX556A-ECAT প্রযুক্তিগত সমাধান: কম-লেটেন্সি ট্রান্সপোর্ট এবং সার্ভার থ্রুপুট অপ্টিমাইজেশনের জন্য RDMA/RoCE
April 23, 2026
এই প্রযুক্তিগত হোয়াইট পেপারটি নেটওয়ার্ক আর্কিটেক্ট, প্রি-সেলস ইঞ্জিনিয়ার এবং অপারেশন ম্যানেজারদের জন্য তৈরি করা হয়েছে। এটি NVIDIA Mellanox MCX556A-ECAT সার্ভার অ্যাডাপ্টারের উপর আলোকপাত করে এবং RDMA ও RoCE প্রযুক্তি ব্যবহার করে উচ্চ-পারফরম্যান্স, কম-লেটেন্সি ডেটা সেন্টার নেটওয়ার্ক তৈরির জন্য একটি পদ্ধতিগত কাঠামো সরবরাহ করে।
আধুনিক ডেটা সেন্টার ওয়ার্কলোড—যেমন ডিস্ট্রিবিউটেড স্টোরেজ (Ceph, Lustre), ইন-মেমরি ডেটাবেস (Redis, Aerospike), এবং এআই ট্রেনিং ফ্রেমওয়ার্ক—উভয়ই উচ্চ থ্রুপুট এবং সাব-মিলিসেকেন্ড লেটেন্সি দাবি করে। ঐতিহ্যবাহী TCP/IP স্ট্যাক উল্লেখযোগ্য সিপিইউ ওভারহেড, কনটেক্সট সুইচিং এবং ডেটা কপি তৈরি করে, যা নেটওয়ার্ক গতি 100Gb/s এবং তার বেশি হলে বাধা সৃষ্টি করে। পরবর্তী প্রজন্মের পরিকাঠামোর জন্য মূল প্রয়োজনীয়তাগুলির মধ্যে রয়েছে: সিপিইউ অফলোড (হোস্ট প্রসেসরের ব্যবহার হ্রাস), অতি-কম এবং অনুমানযোগ্য লেটেন্সি (বিশেষ করে টেইল লেটেন্সির জন্য), স্টোরেজ প্রোটোকলের জন্য লসলেস ট্রান্সপোর্ট (NVMe-oF, iSER), এবং বিদ্যমান ইথারনেট পরিকাঠামোর সাথে নির্বিঘ্ন একীকরণ। MCX556A-ECAT সরাসরি এই প্রতিটি প্রয়োজনীয়তা পূরণ করে।
প্রস্তাবিত আর্কিটেকচারটি RoCE (RDMA over Converged Ethernet) ট্রান্সপোর্টের জন্য কনফিগার করা লসলেস ইথারনেট সহ একটি দ্বি-স্তরীয় লিফ-স্পাইন টপোলজি গ্রহণ করে। সমস্ত কম্পিউট এবং স্টোরেজ নোড MCX556A-ECAT ইথারনেট অ্যাডাপ্টার কার্ড দিয়ে সজ্জিত, যা 100GbE QSFP28 লিঙ্কের মাধ্যমে লিফ সুইচগুলির সাথে সংযুক্ত। স্পাইন সুইচগুলি লিফ-লেয়ার ট্র্যাফিক একত্রিত করে, নন-ব্লকিং কোর ব্যান্ডউইথ সরবরাহ করে। মূল আর্কিটেকচার নীতিগুলির মধ্যে রয়েছে:
- কন্ট্রোল এবং ডেটা প্লেনের পৃথকীকরণ: RoCEv2 UDP/IP-তে RDMA এনক্যাপসুলেট করে, যা লেয়ার ৩ সীমানা জুড়ে রাউটিংয়ের অনুমতি দেয়।
- প্রিঅরিটি ফ্লো কন্ট্রোল (PFC): RDMA ট্র্যাফিক ক্লাসগুলির জন্য লসলেস আচরণ সক্ষম করে।
- উন্নত ট্রান্সমিশন সিলেকশন (ETS): লেটেন্সি-সংবেদনশীল ফ্লোগুলির জন্য ব্যান্ডউইথ নিশ্চিত করে।
- কনজেশন নোটিফিকেশন: এন্ড-টু-এন্ড ফ্লো কন্ট্রোলের জন্য DCQCN (Data Center Quantized Congestion Notification) ব্যবহার করে।
আর্কিটেকচারটি বেয়ার-মেটাল এবং ভার্চুয়ালাইজড উভয় পরিবেশকে সমর্থন করে, যেখানে SR-IOV ভার্চুয়াল ফাংশনগুলির সরাসরি VM-এ পাসথ্রু সরবরাহ করে।
একটি MCX556A-ECAT ConnectX অ্যাডাপ্টার PCIe নেটওয়ার্ক কার্ড হিসাবে, এই অ্যাডাপ্টারটি সমাধানের ভিত্তি হিসাবে কাজ করে। এর হার্ডওয়্যার-ভিত্তিক অফলোড ইঞ্জিন কার্নেলকে বাইপাস করে, সরাসরি মেমরি-টু-মেমরি ডেটা স্থানান্তর সক্ষম করে। গুরুত্বপূর্ণ বৈশিষ্ট্যগুলির মধ্যে রয়েছে:
| বৈশিষ্ট্য | সুবিধা |
|---|---|
| ডুয়াল-পোর্ট 100GbE (200Gb/s পর্যন্ত সমষ্টিগত) | ব্যান্ডউইথ-ক্ষুধার্ত ওয়ার্কলোডগুলির জন্য লিনিয়ার থ্রুপুট স্কেলিং |
| RoCEv2 সমর্থন সহ RDMA | সাব-মাইক্রোসেকেন্ড লেটেন্সি, জিরো সিপিইউ কপি |
| NVMe-oF এবং GPUDirect অফলোড | ত্বরান্বিত স্টোরেজ এবং এআই ট্রেনিং পাইপলাইন |
| হার্ডওয়্যার T10-DIF, IPsec, TLS | এন্ড-টু-এন্ড ডেটা অখণ্ডতা এবং নিরাপত্তা |
| SR-IOV, VirtIO ত্বরণ | ভার্চুয়ালাইজড পরিবেশে প্রায়-নেটিভ পারফরম্যান্স |
দলগুলি যারা MCX556A-ECAT ডেটাশিট এবং MCX556A-ECAT স্পেসিফিকেশন পর্যালোচনা করছে, তারা লক্ষ্য করবে যে অ্যাডাপ্টারটি PCIe 3.0 এবং 4.0 (x16) উভয়কেই সমর্থন করে, বিদ্যমান সার্ভারগুলির সাথে পশ্চাৎ সামঞ্জস্যতা নিশ্চিত করে এবং পরবর্তী প্রজন্মের প্ল্যাটফর্মগুলিতে একটি মাইগ্রেশন পথ সরবরাহ করে।
একটি মাঝারি আকারের ক্লাস্টারের (২০০ নোড পর্যন্ত) জন্য একটি রেফারেন্স স্থাপনা নিচে বর্ণনা করা হয়েছে। MCX556A-ECAT প্রতিটি সার্ভারের PCIe স্লটে ইনস্টল করা হয়, রিডান্ডেন্সি এবং ব্যান্ডউইথ অ্যাগ্রিগেশনের জন্য ডুয়াল-পোর্ট সংযোগ সহ।
- ফিজিক্যাল টপোলজি: দুটি স্পাইন সুইচ, চারটি লিফ সুইচ। প্রতিটি লিফ সমস্ত স্পাইনের সাথে সংযুক্ত (ফুল মেশ)। প্রতিটি সার্ভার দুটি লিফের সাথে সংযুক্ত (অ্যাক্টিভ-অ্যাক্টিভ বন্ডিং)।
- RoCE কনফিগারেশন: RoCE ট্র্যাফিকের জন্য ডেডিকেটেড VLAN। DSCP-ভিত্তিক QoS মার্কিং (যেমন, RDMA-এর জন্য DSCP 46)। প্রায়োরিটি ৩-এ PFC সক্ষম।
- বাফার ব্যবস্থাপনা: রাউন্ড-ট্রিপ টাইম এবং লিঙ্কের দূরত্বের উপর ভিত্তি করে প্রতি পোর্টে লসলেস হেডরুম বাফার কনফিগার করুন।
- অ্যাড্রেসিং: RDMA ইন্টারফেসগুলির জন্য স্ট্যাটিক আইপি অ্যাসাইনমেন্ট বা DHCP রিজার্ভেশন ব্যবহার করুন। এন্ড-টু-এন্ড জম্বো ফ্রেম (MTU 9000) নিশ্চিত করুন।
২০০ নোডের বাইরে স্কেলিং: একটি সুপার-স্পাইন স্তর যুক্ত করুন এবং একাধিক পডের জুড়ে লেয়ার ২ এক্সটেনশনের জন্য BGP-EVPN স্থাপন করুন। যোগ্য বিক্রেতাদের (যেমন, Mellanox, FS.com) থেকে MCX556A-ECAT সামঞ্জস্যপূর্ণ অপটিক্স এবং কেবলগুলি যাচাই করুন। বড় আকারের সংগ্রহের জন্য MCX556A-ECAT মূল্য মূল্যায়ন করার সময়, সুইচ এবং অপটিক্স সহ বান্ডিল মূল্য বিবেচনা করুন।
একটি RoCE-ভিত্তিক ফ্যাব্রিকের কার্যকর পরিচালনার জন্য প্রোঅ্যাকটিভ মনিটরিং এবং বিশেষায়িত সরঞ্জাম প্রয়োজন:
- পারফরম্যান্স মনিটরিং: লিঙ্ক পরিসংখ্যান (BER, FEC ত্রুটি) এর জন্য
mlxlinkএবংethtoolব্যবহার করুন। NVIDIA-এর MCX556A-ECAT ইথারনেট অ্যাডাপ্টার কার্ড সমাধান PCM (Performance Counters Monitor) এর মাধ্যমে টেলিমেট্রি অন্তর্ভুক্ত করে। - কনজেশন সনাক্তকরণ: সুইচ টেলিমেট্রি (যেমন, Mellanox SNMP MIBs) ব্যবহার করে ECN-মার্ক করা প্যাকেট এবং PFC পজ ফ্রেমগুলি নিরীক্ষণ করুন। উচ্চ পজ ফ্রেম হার বাফার চাপ নির্দেশ করে।
- ফার্মওয়্যার ও ড্রাইভার ব্যবস্থাপনা: NVIDIA OFED থেকে সর্বশেষ সংস্করণগুলিতে নিয়মিত আপডেট করুন। ফার্মওয়্যার বৈধতার জন্য
mstflintব্যবহার করুন। - সাধারণ ট্রাবলশুটিং: RDMA সংযোগ ব্যর্থতার জন্য, MTU সামঞ্জস্য, VLAN সদস্যপদ এবং DSCP-to-CoS ম্যাপিংগুলি যাচাই করুন। ডিভাইস স্টেট পরীক্ষা করতে
ibdev2netdevএবংrdma link showব্যবহার করুন। - অপ্টিমাইজেশন টিপস: ওয়ার্কলোডের উপর ভিত্তি করে DCQCN প্যারামিটারগুলি (আলফা, বিটা, রেট ইনক্রিজ টাইমার) টিউন করুন। স্টোরেজ ওয়ার্কলোডগুলির জন্য, কমপ্লিশন কিউ ডেপথ বাড়ান। এআই ট্রেনিংয়ের জন্য, GPUDirect RDMA সক্ষম করুন এবং মেমরি পিন করুন।
ক্ষমতা পরিকল্পনার জন্য, থার্মাল এবং পাওয়ার স্পেসিফিকেশন (সাধারণ 15W) এর জন্য MCX556A-ECAT ডেটাশিট দেখুন। অ্যাডাপ্টারটি অনুমোদিত পরিবেশকদের মাধ্যমে ব্যাপকভাবে MCX556A-ECAT বিক্রয়ের জন্য উপলব্ধ, যার মধ্যে স্পেয়ার স্টক প্রোগ্রামও রয়েছে।
MCX556A-ECAT তিনটি মাত্রায় পরিমাপযোগ্য মান সরবরাহ করে: পারফরম্যান্স(অ্যাপ্লিকেশন লেটেন্সি 90% পর্যন্ত হ্রাস, 4x থ্রুপুট বৃদ্ধি), দক্ষতা(70% সিপিইউ অফলোড, প্রতি Gb/s কম পাওয়ার), এবং মোট মালিকানা ব্যয়(একত্রিত পরিকাঠামো, সার্ভারের সংখ্যা হ্রাস, শীতলীকরণ খরচ হ্রাস)। NVIDIA Mellanox MCX556A-ECAT কে RoCE-ভিত্তিক সমাধানের অংশ হিসাবে স্থাপনকারী সংস্থাগুলি ওয়ার্কলোড তীব্রতার উপর নির্ভর করে 6-12 মাসের মধ্যে ROI আশা করতে পারে। এআই, এইচপিসি, বা সফ্টওয়্যার-ডিফাইন্ড স্টোরেজ গ্রহণকারী পরবর্তী প্রজন্মের ডেটা সেন্টারগুলির জন্য, এই অ্যাডাপ্টারটি একটি প্রমাণিত, স্কেলযোগ্য ভিত্তি উপস্থাপন করে। শুরু করতে, একটি MCX556A-ECAT ডেটাশিট অনুরোধ করুন এবং আপনার সুইচ বিক্রেতার সাথে MCX556A-ECAT সামঞ্জস্যপূর্ণ কনফিগারেশনগুলি যাচাই করুন।

