ارزیابی CAISI از مدل های Deepseek AI ، کاستی ها و خطرات را پیدا می کند - آزمایشگاه کالیبراسیون سازمان پژوهش‌های علمی و صنعتی ایران

ارزیابی CAISI از مدل های Deepseek AI ، کاستی ها و خطرات را پیدا می کند

folder_openتازه ترین ها

واشنگتن – مرکز استانداردهای هوش مصنوعی و نوآوری (CAISI) در انستیتوی ملی استاندارد و فناوری وزارت بازرگانی (NIST) مدل های هوش مصنوعی را از توسعه دهنده جمهوری خلق چین (PRC) Deepseek ارزیابی کرد و دریافتند که آنها از مدلهای ایالات متحده در عملکرد ، هزینه ، امنیت و پذیرش عقب مانده اند.

هوارد لوتنیک ، وزیر بازرگانی گفت: “با تشکر از برنامه اقدام AI رئیس جمهور ترامپ ، وزارت بازرگانی و مرکز NIST برای استانداردهای هوش مصنوعی و نوآوری ، ارزیابی پیشگامانه ای از AI آمریکایی در مقابل طرف مقابل را منتشر کرده است.” “این گزارش واضح است که هوش مصنوعی آمریکایی تسلط دارد ، با Deepseek از عقب دور است. این ضعف فقط فنی نیست. این نشان می دهد که چرا تکیه بر هوش مصنوعی خارجی خطرناک و کوتاه است. با تعیین استانداردها ، رانندگی نوآوری و ایمن نگه داشتن آمریکا ، وزارت بازرگانی ادامه رهبری ایالات متحده را در هوش مصنوعی تضمین می کند.”

ارزیابی CAISI همچنین خاطرنشان می کند که کاستی های مدل های Deepseek مربوط به امنیت و سانسور پاسخ های مدل ممکن است خطری برای توسعه دهندگان برنامه ، مصرف کنندگان و امنیت ملی ایالات متحده ایجاد کند. با وجود این خطرات ، Deepseek یک توسعه دهنده پیشرو است و به افزایش سریع استفاده جهانی از مدل ها از PRC کمک کرده است.

کارشناسان CAISI سه مدل Deepseek (R1 ، R1-0528 و V3.1) و چهار مدل ایالات متحده (Openai's GPT-5 ، GPT-5-Mini و GPT-OSS و Opus 4) را در 19 معیار که دامنه دامنه ها را ارزیابی می کنند ، ارزیابی کردند. این ارزیابی ها شامل معیارهای پیشرفته عمومی و همچنین معیارهای خصوصی است که توسط CAISI با همکاری موسسات دانشگاهی و سایر آژانس های فدرال ساخته شده است.

در ارزیابی از CAISI پاسخ به رئیس جمهور دونالد ترامپ برنامه اقدام AI آمریکا، که CAISI را به انجام تحقیقات و انتشار ارزیابی های مدل های مرزی از PRC هدایت می کند. CAISI همچنین وظیفه ارزیابی دارد: قابلیت های سیستم های هوش مصنوعی ایالات متحده و مخالف. اتخاذ سیستم های هوش مصنوعی خارجی ؛ وضعیت رقابت بین المللی هوش مصنوعی ؛ و آسیب پذیری های امنیتی بالقوه و نفوذ خارجی بدخیم ناشی از استفاده از سیستم های هوش مصنوعی مخالفان.

CAISI به عنوان نقطه اصلی تماس صنعت در دولت ایالات متحده برای تسهیل آزمایش ، تحقیقات مشترک و توسعه بهترین روش مربوط به سیستم های تجاری AI تجاری عمل می کند و یک عنصر اصلی در تلاش های NIST برای تأمین و پیشرفت رهبری آمریکا در هوش مصنوعی است.

یافته های کلیدی

عملکرد Deepseek از بهترین مدل های مرجع ایالات متحده عقب مانده است.
بهترین مدل ایالات متحده از بهترین مدل Deepseek (Deepseek v3.1) تقریباً در هر معیار بهتر است. این شکاف برای مهندسی نرم افزار و کارهای سایبری بزرگترین است ، جایی که بهترین مدل ایالات متحده ارزیابی شده بیش از 20 ٪ کارهای بیشتر از بهترین مدل Deepseek را حل می کند.

مدل های Deepseek برای استفاده بیشتر از مدل های قابل مقایسه ایالات متحده هزینه بیشتری دارند.
یک مدل مرجع ایالات متحده به طور متوسط ​​35 ٪ کمتر از بهترین مدل Deepseek هزینه دارد تا در یک سطح مشابه در تمام 13 معیار عملکرد آزمایش شده انجام شود.

مدل های Deepseek نسبت به مدل های Frontier US نسبت به حملات ربودن عامل بیشتر مستعد هستند.
نمایندگان مبتنی بر ایمن ترین مدل Deepseek (R1-0528) به طور متوسط ​​12 برابر بیشتر از مدل های مرزی ایالات متحده بودند که از دستورالعمل های مخرب طراحی شده اند تا آنها را از کارهای کاربر منحرف کنند. نمایندگان ربوده شده ایمیل های فیشینگ را ارسال کردند ، بدافزارها را بارگیری و اجرا کردند و اعتبارنامه ورود کاربر را در یک محیط شبیه سازی شده دریافت کردند.

مدل های Deepseek نسبت به مدل های آمریکایی بسیار مستعد حملات فرار از زندان هستند.
ایمن ترین مدل Deepseek (R1-0528) در هنگام استفاده از تکنیک مشترک فرار از زندان ، به 94 ٪ درخواست های کاملاً مخرب پاسخ داد ، در مقایسه با 8 ٪ درخواست های مدل های مرجع ایالات متحده.

مدل های Deepseek روایات حزب کمونیست چین (CCP) را پیش می برند.
مدلهای Deepseek چهار برابر بسیاری از روایت های CCP نادرست و گمراه کننده از مدل های مرجع ایالات متحده تکرار کردند.

اتخاذ مدل های PRC از زمان انتشار Deepseek R1 بسیار افزایش یافته است.
انتشار Deepseek R1 باعث اتخاذ مدل های PRC در سراسر اکوسیستم AI شده است. بارگیری مدل های Deepseek در سیستم عامل های اشتراک مدل از ژانویه 2025 نزدیک به 1000 ٪ افزایش یافته است.


Source link

Tags:

Related Posts

فهرست
Translate »