NVIDIA Mellanox MCX653106A-HDAT সার্ভার অ্যাডাপ্টার টেকনিক্যাল হোয়াইট পেপার

April 30, 2026

NVIDIA Mellanox MCX653106A-HDAT সার্ভার অ্যাডাপ্টার টেকনিক্যাল হোয়াইট পেপার

এই প্রযুক্তিগত হোয়াইট পেপারটি নেটওয়ার্ক আর্কিটেক্ট, প্রাক বিক্রয় প্রকৌশলী এবং অপারেশন ম্যানেজারদের জন্য। এটি উচ্চ-কার্যকারিতা,কম বিলম্বিত ডেটা সেন্টার নেটওয়ার্ক ব্যবহার করেএনভিআইডিআইএ মেলানক্স এমসিএক্স 653106 এ-এইচডিএটিসার্ভার এনআইসি, আরডিএমএ/আরওসিই পরিবহন এবং পরিমাপযোগ্য সার্ভার থ্রুপুট লাভের উপর দৃষ্টি নিবদ্ধ করে।

1. প্রকল্পের পটভূমি এবং প্রয়োজনীয়তা বিশ্লেষণ

আধুনিক ডেটা সেন্টার ওয়ার্কলোডগুলি NVMe-oF স্টোরেজ ফ্যাব্রিক, বিতরণকৃত এআই প্রশিক্ষণ, উচ্চ-ফ্রিকোয়েন্সি ট্রেডিং এবং রিয়েল-টাইম বিশ্লেষণ সহ নেটওয়ার্ক অবকাঠামোর উপর চরম চাহিদা রাখে।ঐতিহ্যগত টিসিপি/আইপি স্ট্যাক প্রসেসিং তিনটি মৌলিক বোতল ঘাঁটি চালু করে: উচ্চ সিপিইউ ওভারহেড (প্রায়শই কোর চক্রের 50% ছাড়িয়ে যায়), কার্নেল বাইপাস সীমাবদ্ধতার কারণে পরিবর্তনশীল বিলম্ব এবং প্রোটোকল প্রসেসিং ওভারহেড থেকে কার্যকর থ্রুপুট হ্রাস।সংস্থাগুলির এমন একটি সমাধান প্রয়োজন যা অ্যাপ্লিকেশন লজিকের জন্য সিপিইউ সংস্থানগুলি মুক্ত করার সময় সাব-মাইক্রোসেকেন্ড লেটেন্সির সাথে লাইন-রেট ব্যান্ডউইথ সরবরাহ করেপ্রধান প্রয়োজনীয়তা হ'ল হার্ডওয়্যার-অফলোডড আরডিএমএ, ক্ষতিহীন রোসিই পরিবহন, বিদ্যমান ইথারনেট ফ্যাব্রিকগুলির সাথে নির্বিঘ্নে সংহতকরণ,এবং মনিটরিং এবং সমস্যা সমাধানের জন্য ব্যাপক অপারেশনাল টুলস.

2. সামগ্রিক নেটওয়ার্ক ও সিস্টেম আর্কিটেকচার ডিজাইন

প্রস্তাবিত আর্কিটেকচারটি RoCE পরিবহনের জন্য অপ্টিমাইজড একটি দ্বি-স্তরীয় ক্লস (স্পিন-লেফ) টপোলজি গ্রহণ করে।উন্নত ট্রান্সমিশন নির্বাচন) RDMA ট্র্যাফিকের জন্য ক্ষতিহীন আচরণ নিশ্চিত করতে কনফিগার করা হয়েছে. স্পাইন সুইচগুলি ফ্যাব্রিক জুড়ে যে কোনও যোগাযোগকে অবরুদ্ধ করতে সক্ষম করে। প্রতিটি কম্পিউটিং এবং স্টোরেজ নোডের মধ্যেMCX653106A-HDAT ইথারনেট অ্যাডাপ্টার কার্ড, যা সক্রিয়-সক্রিয় বন্ডিংয়ে কনফিগার করা ডুয়াল 100GbE পোর্টের মাধ্যমে পাতার সুইচগুলিতে সংযুক্ত হয়।আর্কিটেকচারটি নিয়মিত টিসিপি / আইপি ট্র্যাফিক থেকে আরডিএমএ ট্র্যাফিককে পৃথক করে (পিএফসি সক্ষম সহ উত্সর্গীকৃত অগ্রাধিকার সারি) (সেরা প্রচেষ্টা সারি)ভিএলএএন বিভাজন আরডিএমএ ডোমেনগুলিকে বিচ্ছিন্ন করে যখন রুটিং প্রয়োজনীয় হলে ক্রস-সাবনেট যোগাযোগ পরিচালনা করে।

3. NVIDIA Mellanox MCX653106A-HDAT এর ভূমিকা ও মূল বৈশিষ্ট্য

দ্যMCX653106A-HDAT ConnectX অ্যাডাপ্টার PCIe নেটওয়ার্ক কার্ডএই সমাধানের ভিত্তি হিসেবে কাজ করে। PCIe 4.0 x16 হোস্ট ইন্টারফেসের সাথে ConnectX-6 আর্কিটেকচারে নির্মিত,এটি ডুয়াল-পোর্ট 100GbE (বা একক-পোর্ট 200GbE) এর মাধ্যমে RDMA ওয়ার্কলোডের অধীনে sub-600ns বিলম্বের সাথে সরবরাহ করেএই নকশায় ব্যবহৃত মূল বৈশিষ্ট্যগুলির মধ্যে রয়েছেঃ

  • হার্ডওয়্যার RDMA & RoCE অফলোডঃRDMA ক্রিয়াগুলির সম্পূর্ণ অফলোড, ডেটা চলাচলের জন্য হোস্ট সিপিইউর জড়িততা দূর করে। উভয় RoCE v1 এবং v2 সমর্থন করে।
  • এনভিএম-ওএফ এক্সিলারেটর:হার্ডওয়্যার লজিক যা NVMe কমান্ডগুলিকে ত্বরান্বিত করে, সফটওয়্যার লক্ষ্যগুলির তুলনায় স্টোরেজ অ্যাক্সেসের বিলম্বকে 80% এরও বেশি হ্রাস করে।
  • প্রোগ্রামযোগ্য ডেটা পাথ (ASAP2):নমনীয় প্যাকেট প্রক্রিয়াকরণ এবং ওভারলে নেটওয়ার্কগুলির অফলোড সক্ষম করে (ভিএক্সএলএএন, জেনেভা) ।
  • মাল্টি-হোস্ট এবং জিপিইউ ডাইরেক্ট আরডিএমএঃএআই ক্লাস্টারগুলির জন্য সিপিইউ হস্তক্ষেপ ছাড়াই নোড জুড়ে জিপিইউগুলির মধ্যে সরাসরি পিয়ার-টু-পিয়ার যোগাযোগ।
  • টেলিমেট্রি ও জ্যাম কন্ট্রোলঃহার্ডওয়্যার-ভিত্তিক ফ্লো মনিটরিং, ইসিএন মার্কিং, এবং গতিশীল হার সীমাবদ্ধকরণ।

ইঞ্জিনিয়াররা রিভিউ করছেনMCX653106A-HDAT ডেটা শীটস্ট্যান্ডার্ড এবং ওসিপি ৩.০ ফর্ম ফ্যাক্টর উভয়ের জন্য সমর্থন, বিস্তৃত অপারেটিং সিস্টেম কভারেজ (এমএলএনএক্স_ওএফইডি, উইন্ডোজ, ইএসএক্সআই সহ লিনাক্স বিতরণ) এবং বিস্তৃত সার্ভার সামঞ্জস্যের লক্ষ্য রাখবে।MCX653106A-HDAT স্পেসিফিকেশনএছাড়াও 75W সর্বোচ্চ শক্তি খরচ এবং 0 °C থেকে 55 °C পর্যন্ত অপারেটিং তাপমাত্রা নিশ্চিত করুন, উচ্চ ঘনত্বের স্থাপনার জন্য উপযুক্ত।

4. ডিপ্লয়মেন্ট এবং স্কেলিং সুপারিশ (টপোলজি সহ)

স্থাপনার ধাপে ধাপে পদ্ধতি অনুসরণ করা হয়। একটি সাধারণ দুই-র্যাক পাইলট টপোলজি নীচে চিত্রিত করা হয়ঃ

উপাদান কনফিগারেশন পরিমাণ
গণনা/স্টোরেজ নোড ডুয়াল সকেট ইন্টেল/এএমডি, ২৫৬ জিবি+ র্যাম, এনভিএমই ড্রাইভ 16
নোড প্রতি এনআইসি MCX653106A-HDAT(দুই-পোর্ট 100GbE) 16
পাতার সুইচ Mellanox SN3700 (32x 100GbE, DCB সক্ষম) 2
মেরুদণ্ডের পরিবর্তন মেলানক্স এসএন৩৭০০ (১০০ জিবিই আপলিংক) ১ (ছাড়ার জন্য ২ পর্যন্ত স্কেল)

মোতায়েনের ধাপ:

  1. ধাপ ১ ঃ বৈধতাঃনিশ্চিত করুনMCX653106A-HDAT সামঞ্জস্যপূর্ণসার্ভার, সুইচ ফার্মওয়্যার, এবং অপারেটিং সিস্টেম কার্নেল সংস্করণ ব্যবহার করুনMCX653106A-HDAT ডেটা শীট.
  2. ধাপ ২ঃ ড্রাইভার ইনস্টলেশনঃসমস্ত নোড জুড়ে MLNX_OFED ড্রাইভার প্যাকেজ (সর্বনিম্ন সংস্করণ 5.8) স্থাপন করুন। RDMA এবং RoCE কার্নেল মডিউলগুলি সক্ষম করুন।
  3. ধাপ ৩ √ কাপড়ের কনফিগারেশনঃপাতা সুইচগুলিতে পিএফসি (আরডিএমএর জন্য অগ্রাধিকার 3) এবং ইটিএস সক্ষম করুন। জাম্বো ফ্রেম সমর্থনের জন্য এমটিইউ 9000 কনফিগার করুন।
  4. ধাপ ৪ ∙ RoCE সেটআপঃপ্রতিটি কনফিগার করুনMCX653106A-HDAT ইথারনেট অ্যাডাপ্টার কার্ডRoCE v2 (রুটযোগ্য) বা v1 (নন-রুটযোগ্য) দিয়ে। IPv4 অ্যাড্রেসিং সহ RoCE v2 এ GID মোড সেট করুন।
  5. ধাপ ৫ ঃ যাচাইকরণঃব্যান্ডউইথ এবং বিলম্বিততা যাচাই করার জন্য নোডগুলির মধ্যে ib_write_bw এবং ib_send_lat পরীক্ষা চালান।পারফেকচারএবংmlnx_perf.

16 নোডের বাইরে স্কেল করার জন্য, 128 নোড পর্যন্ত সমর্থনকারী অতিরিক্ত স্পাইন সুইচগুলির সাথে একটি স্পাইন-লেফ টোপোলজিতে রূপান্তর।MCX653106A-HDAT ইথারনেট অ্যাডাপ্টার কার্ড সমাধানফ্যাব্রিক পুনরায় কনফিগারেশন ছাড়াই রৈখিকভাবে স্কেল করে, কারণ RoCE একাধিক পথ জুড়ে লোড বিতরণের জন্য ECMP ব্যবহার করে।

5অপারেশন, মনিটরিং, সমস্যা সমাধান ও অপ্টিমাইজেশান

RDMA/RoCE পরিবেশে কার্যকর অপারেশন বিশেষ সরঞ্জাম প্রয়োজন। নিম্নলিখিত অনুশীলনগুলি সুপারিশ করা হয়ঃ

  • ট্র্যাজেজি সনাক্তকরণঃসুইচ টেলিমেট্রি (যেমন, মেলানোক্স শার্প) ব্যবহার করে পোর্ট প্রতি পিএফসি প্যাউজ ফ্রেমগুলি পর্যবেক্ষণ করুন। উচ্চতর প্যাউজ হারগুলি ইনকাস্ট বা মাইক্রো-বার্স্টগুলি নির্দেশ করে যা প্রবাহ নিয়ন্ত্রণ টিউনিং প্রয়োজন।
  • পারফরম্যান্স বেসলাইনঃব্যবহারএমএলএক্স৫সিএমডিএবংইথুল -Sপ্রতি সারিতে RDMA কাউন্টার সংগ্রহ করতে. আউট-অফ-অর্ডার সমাপ্তি এবং retransmissions ট্র্যাক.
  • ইসিএন এবং ডিসিকিউসিএন টিউনিংঃসুইচগুলিতে এক্সপ্লিশিট কনজেসন নোটিফিকেশন (ইসিএন) সক্ষম করুন এবং স্যুইচগুলিতে ডায়নামিক কনজেসন কন্ট্রোল (ডিসিকিউসিএন) পরামিতিগুলি কনফিগার করুনMCX653106A-HDATড্রাইভার (যেমন,dcqcn_r_ai=৪০,dcqcn_r_hai=১০) ।
  • লগ বিশ্লেষণঃপর্যালোচনা/var/log/messagesRDMA সংযোগ ব্যর্থতার জন্য (উদাহরণস্বরূপ, ¢mlx5_core: QP ¢ তৈরি করতে ব্যর্থ হয়েছে) । GID সূচকগুলি শেষ পয়েন্টগুলির মধ্যে মেলে তা যাচাই করুন।
  • ফার্মওয়্যার আপডেটঃনিয়মিত এনআইসি ফার্মওয়্যার আপডেট করুনএমএলএক্সএফএম ম্যানেজার.MCX653106A-HDAT স্পেসিফিকেশনফার্মওয়্যার বেসলাইন xx সুপারিশ করুন।36.১০১০ বা তার পরে সর্বোত্তম RoCE পারফরম্যান্সের জন্য।
  • সক্ষমতা পরিকল্পনাঃঅনুমানকারী সংস্থাগুলির জন্যMCX653106A-HDAT দামএবংবিক্রির জন্য MCX653106A-HDATভলিউম ডিসকাউন্ট, RDMA ট্র্যাফিকের জন্য প্রকল্পের বৃদ্ধির হার এবং প্ল্যান লিফ স্যুইচ ওভারসাবস্ক্রিপশন অনুপাত (সাধারণত স্টোরেজ ফ্যাব্রিকগুলির জন্য 3: 1) ।

একটি সাধারণ ত্রুটি সমাধানের দৃশ্যকল্পঃ শূন্য প্যাকেট ক্ষতির সাথে একমুখী উচ্চ বিলম্ব প্রায়শই ভুল কনফিগার করা ইসিএন থ্রেশহোল্ড বা অসমতার পিএফসি সেটিংস নির্দেশ করে।mlnx_qosসমস্ত নেটওয়ার্ক উপাদান জুড়ে ট্রাস্ট মোড এবং ডিএসসিপি-প্রাথমিকতা ম্যাপিং যাচাই করা।

6. সংক্ষিপ্ত বিবরণ এবং মূল্য মূল্যায়ন

দ্যএনভিআইডিআইএ মেলানক্স এমসিএক্স 653106 এ-এইচডিএটিসার্ভার এনআইসি উচ্চ-কার্যকারিতা RDMA/RoCE নেটওয়ার্ক স্থাপন করার জন্য একটি উত্পাদন-প্রস্তুত ভিত্তি প্রদান করে। এই প্রযুক্তিগত সমাধানটি একাধিক মাত্রায় পরিমাপযোগ্য মান সরবরাহ করেঃ

  • পারফরম্যান্সঃসাব-মাইক্রোসেকেন্ড লেটেন্সি সহ প্রতি অ্যাডাপ্টারে 200 গিগাবাইট / সেকেন্ড পর্যন্ত থ্রুপুট, স্কেল-আউট স্টোরেজ এবং বিতরণ কম্পিউটিং ওয়ার্কলোডকে সক্ষম করে যা পূর্বে টিসিপি ওভারহেড দ্বারা সীমাবদ্ধ ছিল।
  • কার্যকারিতা:হার্ডওয়্যার অফলোডগুলি নেটওয়ার্ক সম্পর্কিত সিপিইউ খরচ > 50% থেকে 15% এর নিচে হ্রাস করে, অ্যাপ্লিকেশন প্রক্রিয়াকরণের জন্য কোরগুলি মুক্ত করে।
  • টিসিওঃদ্যMCX653106A-HDAT ইথারনেট অ্যাডাপ্টার কার্ড সমাধানএকটি প্রদত্ত থ্রুপুট লক্ষ্যের জন্য প্রয়োজনীয় নোড সংখ্যা হ্রাস করে, মূলধন এবং অপারেটিং ব্যয় হ্রাস করে।MCX653106A-HDAT দাম, শুধুমাত্র দক্ষতা বৃদ্ধি থেকে 9-12 মাসের রিটার্ন পিরিয়ড বিবেচনা করুন।
  • ভবিষ্যতের প্রস্তুতিঃপিসিআইই 5.0 (পিছিয়ে সামঞ্জস্যপূর্ণ) এবং ডোকা মাধ্যমে প্রোগ্রামযোগ্যতার জন্য সমর্থন বিনিয়োগের সুরক্ষা নিশ্চিত করে কারণ ডেটা সেন্টারের গতি 200/400GbE এ স্থানান্তরিত হয়।

আরডিএমএ এর পূর্ণ সম্ভাবনাকে উন্মোচন করার সময় এই সমাধানটি বিদ্যমান ইথারনেট অপারেশনগুলিতে নির্বিঘ্নে সংহত করে।MCX653106A-HDAT ডেটা শীটবিস্তারিত যান্ত্রিক অঙ্কন, টাইমিং ডায়াগ্রাম, এবং উন্নত বৈশিষ্ট্য বিবরণ জন্য।MCX653106A-HDAT দামএবংবিক্রির জন্য MCX653106A-HDATলিড সময়, যোগাযোগ অনুমোদিত NVIDIA Mellanox বিতরণ অংশীদারদের.