اثبات ریاضی NIST از انتقال به مدل امنیتی مانیتور و به‌روزرسانی مداوم برای سیستم‌های هوش مصنوعی پشتیبانی می‌کند - آزمایشگاه کالیبراسیون سازمان پژوهش‌های علمی و صنعتی ایران

اثبات ریاضی NIST از انتقال به مدل امنیتی مانیتور و به‌روزرسانی مداوم برای سیستم‌های هوش مصنوعی پشتیبانی می‌کند

folder_openتازه ترین ها

شخصی روی لپ‌تاپ پشت گرافیک‌های نیمه شفاف شناور مربوط به هوش مصنوعی، کد کامپیوتر و اسکن مغز تایپ می‌کند.

اعتبار:

TippaPatt/Shutterstock

آیا می‌توانیم هوش مصنوعی را در برابر دشمنانی که می‌خواهند فناوری را به سمت اهداف شوم بپیچانند غیرقابل نفوذ کنیم؟ اگرچه هوش مصنوعی یکی از جدیدترین فناوری‌ها است، اما پاسخ این سوال نزدیک به یک قرن قدمت دارد.

هرچه تلاش کنیم، هرگز نمی‌توانیم هوش مصنوعی را با استفاده از مدل‌های امنیتی مرسوم غیرقابل حمله کنیم. در مجله معتبر امنیت و حریم خصوصی IEEE، Apostol Vassilev، دانشمند ارشد در موسسه ملی استاندارد و فناوری (NIST)، اثبات ریاضی این بیانیه را بر اساس کار منتشر شده در سال 1931 توسط منطق‌دان مشهور کورت گودل منتشر کرده است. او قضایای ناتمامی نشان داد که محدودیت‌هایی برای آنچه می‌توان در یک سیستم ساخته شده بر اساس تعداد محدودی از قوانین اثبات کرد، وجود دارد.

نرده‌های محافظی که بر رفتار هوش مصنوعی حاکم است، دقیقاً چنین سیستمی هستند، و یکی از پیامدهای اثبات آن این است که همیشه راهی برای ترغیب یک سیستم هوش مصنوعی به نادیده گرفتن قوانینش وجود خواهد داشت – فقط باید آن را پیدا کرد.

واسیلیف، نویسنده این مدرک و متخصص در این زمینه گفت: «یکی از ارکان هوش مصنوعی مسئول این است که شما می‌خواهید فناوری امن باشد. یادگیری ماشینی متخاصم. “شما می خواهید که در برابر حملات خصمانه مقاومت کند و فقط آنچه را که شما می خواهید انجام دهد، نه آنچه که یک مهاجم ممکن است بخواهد. آنچه این شواهد نشان می دهد این است که هیچ مجموعه محدودی از نرده های محافظ وجود ندارد که به طور جهانی در برابر درخواست های دشمنان قوی باشد.”

شرکت‌هایی که هوش مصنوعی را توسعه می‌دهند اغلب اذعان می‌کنند که ابزارهایی که ایجاد می‌کنند پتانسیل آسیب رساندن به دنیای فیزیکی را دارند، بنابراین محدودیت‌هایی را ایجاد می‌کنند که هدفشان جلوگیری از تولید محتوای ممنوعه مانند دیپ‌فیک، بدافزار یا دستورالعمل‌هایی برای ساخت سلاح‌های بیولوژیکی یا داروهای غیرقانونی است. اگر از سیستم خواسته شود چنین محتوایی تولید کند، نرده‌های محافظ باید مشکل را علامت‌گذاری کنند و از رعایت آن خودداری کنند.

با این حال، این محدودیت ها بی خطا نیستند. مهاجمان می‌توانند با ایجاد اعلان‌هایی که باعث می‌شود هوش مصنوعی به طور ناخواسته مکانیسم‌های امتناع خود را دور بزند، از آنها فرار کنند. هوش مصنوعی «جیل بریک» موفقیت‌آمیز آن را از نرده‌های حفاظ خارج می‌کند که منجر به خطرات دنیای واقعی مانند حملات سایبری، نقض اطلاعات و پیام‌های فیشینگ بسیار شخصی‌شده می‌شود.

اثبات اصلی گودل امیدهای چندین ریاضیدان برجسته را که در اوایل قرن بیستم تلاش می‌کردند از مجموعه کوچکی از گزاره‌های اساسی یا بدیهیات، یک «نظریه همه چیز» ریاضی ایجاد کنند، بر باد داد. آنها استدلال کردند که با مجموعه ای از بدیهیات اولیه که به خوبی انتخاب شده اند، می توان همه ایده ها را در هر شاخه ای از ریاضیات اثبات کرد.

واسیلوف گفت: “گودل به این رویا پایان داد.” او نشان داد که نمی‌توانید مجموعه‌ای محدود از گزاره‌ها داشته باشید و نظریه‌ای ایجاد کنید که کامل و سازگار بدون تناقض باشد.

در مورد هوش مصنوعی، “مجموعه متناهی عبارات” گروهی از نرده های محافظ است که طراح هوش مصنوعی ایجاد می کند تا هوش مصنوعی را از انجام کارهای ناخواسته باز دارد. صرف نظر از اینکه چقدر خوب در نظر گرفته شده اند، اثبات واسیلوف نشان می دهد که همیشه راه هایی برای تحریک هوش مصنوعی وجود خواهد داشت که می تواند باعث نادیده گرفتن این قوانین شود. این فقط موضوع پیدا کردن اعلان مناسب است.

واسیلوف می گوید: «منطق گودل در اینجا کاربرد دارد. “شما هرگز نمی توانید ادعا کنید که در برابر همه حملات سریع خصمانه قوی هستید. همیشه یک اعلان وجود خواهد داشت که به طور بالقوه می تواند زیرساخت های دفاعی را که در اطراف سیستم هوش مصنوعی خود ایجاد کرده اید دور زده و شکست دهد.”

خوشبختانه برای مدافعان، این نظریه ریاضی جدید فضایی را برای سخت‌تر کردن سیستم‌های هوش مصنوعی مستقر شده تا حدی می‌گذارد که بهره‌برداری از آنها آسان نباشد. اثبات Vassilev هیچ دستور العملی برای مهاجمان در مورد چگونگی یافتن اکسپلویت های جدید ارائه نمی دهد.

واسیلیف می گوید: «شما مهاجم را مجبور می کنید به دنبال چیزی بگردد که متخصصان امنیتی «سوءاستفاده های روز صفر» می نامند، که مشکلاتی در سیستم هستند که هیچ کس جز شما از آن اطلاعی ندارد. هکرها معمولاً وقتی این آسیب‌پذیری‌ها را پیدا می‌کنند از آن‌ها سوء استفاده می‌کنند. و اگر چنین آسیب‌پذیری را در سیستم یک شرکت پیدا کنند، معمولاً مدت کوتاهی طول می‌کشد تا کسی از آن در سیستم دیگری که همان ضعف را دارد سوء استفاده کند.»

واسیلوف گفت، چنین اکسپلویت‌های روز صفر برای نرم‌افزارهای قطعی سنتی یافتن و اجرا آسان نبوده است. اغلب آنها به منابع دشمنان به اندازه دولت ملت نیاز دارند. واسیلوف گفت، مشکل دوران هوش مصنوعی این است که ما از زبان انسانی به عنوان ورودی سیستم استفاده می کنیم. پیچیدگی و غنای زبان، بررسی انطباق مبتنی بر مجموعه محدودی از قوانین را بی‌نهایت مبهم می‌سازد. تعداد راه‌هایی که دشمنان می‌توانند نیت مضر را در دید آشکار پنهان کنند، عملاً نامحدود است.

پس ما چه کار کنیم؟ Vassilev رویکردی را ارائه می‌کند که مشکل را به طور کامل حل نمی‌کند، اما رویکردی که موفقیت در جیلبریک کردن یک هوش مصنوعی را برای درخواست‌های متخاصم دشوارتر می‌کند.

این رویکرد دارای سه عنصر است: کار مداوم توسط “تیم های قرمز” که به دنبال کشف پیام های متخاصم جدید قبل از مهاجمان واقعی هستند. به‌روزرسانی‌های مستمر که نرده‌های محافظ هوش مصنوعی را در برابر درخواست‌های متخاصم تازه کشف‌شده سخت‌تر می‌کند. و انعطاف‌پذیری عملیاتی که محدودیت تأثیر و بازیابی سریع را در اولویت قرار می‌دهد، نه در صورت وقوع سوءاستفاده.

او گفت: “هدف رسیدن به وضعیتی است که هزینه یافتن سوء استفاده های جدید از منابع مهاجمان بیشتر باشد.” شما نمی توانید در ریاضیات از گودل فرار کنید، و در هوش مصنوعی احتمالاً نمی توانید یک سیستم هوش مصنوعی مانند یک LLM را اصلاح کنید. و سپس انتظار داشته باشید برای همیشه خوب باشید شما باید متعهد به جستجوی مداوم برای نقاط ضعف باشید و از مهاجمان جلوتر باشید. هدف رسیدن به یک تعادل اقتصادی جدید است که در آن تلاش برای شکستن سیستم هوش مصنوعی شما از نظر مالی برای مهاجمان ممنوع است. ممکن است گران باشد، اما این هزینه حتی جزئی از امنیت است که باید به سازمان‌ها اجازه دهد تا مزایای هوش مصنوعی را به حداکثر برسانند و در عین حال خطرات را به حداقل برسانند.


مقاله: Apostol Vassilev، امنیت و تراز هوش مصنوعی قوی: یک تلاش سیزیفی؟ امنیت و حریم خصوصی IEEE مه 2026. DOI: 10.1109/MSEC.2026.3678214


Source link

Tags:

Related Posts

فهرست
Translate »