اعتبار: TippaPatt/Shutterstock
آیا میتوانیم هوش مصنوعی را در برابر دشمنانی که میخواهند فناوری را به سمت اهداف شوم بپیچانند غیرقابل نفوذ کنیم؟ اگرچه هوش مصنوعی یکی از جدیدترین فناوریها است، اما پاسخ این سوال نزدیک به یک قرن قدمت دارد.
هرچه تلاش کنیم، هرگز نمیتوانیم هوش مصنوعی را با استفاده از مدلهای امنیتی مرسوم غیرقابل حمله کنیم. در مجله معتبر امنیت و حریم خصوصی IEEE، Apostol Vassilev، دانشمند ارشد در موسسه ملی استاندارد و فناوری (NIST)، اثبات ریاضی این بیانیه را بر اساس کار منتشر شده در سال 1931 توسط منطقدان مشهور کورت گودل منتشر کرده است. او قضایای ناتمامی نشان داد که محدودیتهایی برای آنچه میتوان در یک سیستم ساخته شده بر اساس تعداد محدودی از قوانین اثبات کرد، وجود دارد.
نردههای محافظی که بر رفتار هوش مصنوعی حاکم است، دقیقاً چنین سیستمی هستند، و یکی از پیامدهای اثبات آن این است که همیشه راهی برای ترغیب یک سیستم هوش مصنوعی به نادیده گرفتن قوانینش وجود خواهد داشت – فقط باید آن را پیدا کرد.
واسیلیف، نویسنده این مدرک و متخصص در این زمینه گفت: «یکی از ارکان هوش مصنوعی مسئول این است که شما میخواهید فناوری امن باشد. یادگیری ماشینی متخاصم. “شما می خواهید که در برابر حملات خصمانه مقاومت کند و فقط آنچه را که شما می خواهید انجام دهد، نه آنچه که یک مهاجم ممکن است بخواهد. آنچه این شواهد نشان می دهد این است که هیچ مجموعه محدودی از نرده های محافظ وجود ندارد که به طور جهانی در برابر درخواست های دشمنان قوی باشد.”
شرکتهایی که هوش مصنوعی را توسعه میدهند اغلب اذعان میکنند که ابزارهایی که ایجاد میکنند پتانسیل آسیب رساندن به دنیای فیزیکی را دارند، بنابراین محدودیتهایی را ایجاد میکنند که هدفشان جلوگیری از تولید محتوای ممنوعه مانند دیپفیک، بدافزار یا دستورالعملهایی برای ساخت سلاحهای بیولوژیکی یا داروهای غیرقانونی است. اگر از سیستم خواسته شود چنین محتوایی تولید کند، نردههای محافظ باید مشکل را علامتگذاری کنند و از رعایت آن خودداری کنند.
با این حال، این محدودیت ها بی خطا نیستند. مهاجمان میتوانند با ایجاد اعلانهایی که باعث میشود هوش مصنوعی به طور ناخواسته مکانیسمهای امتناع خود را دور بزند، از آنها فرار کنند. هوش مصنوعی «جیل بریک» موفقیتآمیز آن را از نردههای حفاظ خارج میکند که منجر به خطرات دنیای واقعی مانند حملات سایبری، نقض اطلاعات و پیامهای فیشینگ بسیار شخصیشده میشود.
اثبات اصلی گودل امیدهای چندین ریاضیدان برجسته را که در اوایل قرن بیستم تلاش میکردند از مجموعه کوچکی از گزارههای اساسی یا بدیهیات، یک «نظریه همه چیز» ریاضی ایجاد کنند، بر باد داد. آنها استدلال کردند که با مجموعه ای از بدیهیات اولیه که به خوبی انتخاب شده اند، می توان همه ایده ها را در هر شاخه ای از ریاضیات اثبات کرد.
واسیلوف گفت: “گودل به این رویا پایان داد.” او نشان داد که نمیتوانید مجموعهای محدود از گزارهها داشته باشید و نظریهای ایجاد کنید که کامل و سازگار بدون تناقض باشد.
در مورد هوش مصنوعی، “مجموعه متناهی عبارات” گروهی از نرده های محافظ است که طراح هوش مصنوعی ایجاد می کند تا هوش مصنوعی را از انجام کارهای ناخواسته باز دارد. صرف نظر از اینکه چقدر خوب در نظر گرفته شده اند، اثبات واسیلوف نشان می دهد که همیشه راه هایی برای تحریک هوش مصنوعی وجود خواهد داشت که می تواند باعث نادیده گرفتن این قوانین شود. این فقط موضوع پیدا کردن اعلان مناسب است.
واسیلوف می گوید: «منطق گودل در اینجا کاربرد دارد. “شما هرگز نمی توانید ادعا کنید که در برابر همه حملات سریع خصمانه قوی هستید. همیشه یک اعلان وجود خواهد داشت که به طور بالقوه می تواند زیرساخت های دفاعی را که در اطراف سیستم هوش مصنوعی خود ایجاد کرده اید دور زده و شکست دهد.”
خوشبختانه برای مدافعان، این نظریه ریاضی جدید فضایی را برای سختتر کردن سیستمهای هوش مصنوعی مستقر شده تا حدی میگذارد که بهرهبرداری از آنها آسان نباشد. اثبات Vassilev هیچ دستور العملی برای مهاجمان در مورد چگونگی یافتن اکسپلویت های جدید ارائه نمی دهد.
واسیلیف می گوید: «شما مهاجم را مجبور می کنید به دنبال چیزی بگردد که متخصصان امنیتی «سوءاستفاده های روز صفر» می نامند، که مشکلاتی در سیستم هستند که هیچ کس جز شما از آن اطلاعی ندارد. هکرها معمولاً وقتی این آسیبپذیریها را پیدا میکنند از آنها سوء استفاده میکنند. و اگر چنین آسیبپذیری را در سیستم یک شرکت پیدا کنند، معمولاً مدت کوتاهی طول میکشد تا کسی از آن در سیستم دیگری که همان ضعف را دارد سوء استفاده کند.»
واسیلوف گفت، چنین اکسپلویتهای روز صفر برای نرمافزارهای قطعی سنتی یافتن و اجرا آسان نبوده است. اغلب آنها به منابع دشمنان به اندازه دولت ملت نیاز دارند. واسیلوف گفت، مشکل دوران هوش مصنوعی این است که ما از زبان انسانی به عنوان ورودی سیستم استفاده می کنیم. پیچیدگی و غنای زبان، بررسی انطباق مبتنی بر مجموعه محدودی از قوانین را بینهایت مبهم میسازد. تعداد راههایی که دشمنان میتوانند نیت مضر را در دید آشکار پنهان کنند، عملاً نامحدود است.
پس ما چه کار کنیم؟ Vassilev رویکردی را ارائه میکند که مشکل را به طور کامل حل نمیکند، اما رویکردی که موفقیت در جیلبریک کردن یک هوش مصنوعی را برای درخواستهای متخاصم دشوارتر میکند.
این رویکرد دارای سه عنصر است: کار مداوم توسط “تیم های قرمز” که به دنبال کشف پیام های متخاصم جدید قبل از مهاجمان واقعی هستند. بهروزرسانیهای مستمر که نردههای محافظ هوش مصنوعی را در برابر درخواستهای متخاصم تازه کشفشده سختتر میکند. و انعطافپذیری عملیاتی که محدودیت تأثیر و بازیابی سریع را در اولویت قرار میدهد، نه در صورت وقوع سوءاستفاده.
او گفت: “هدف رسیدن به وضعیتی است که هزینه یافتن سوء استفاده های جدید از منابع مهاجمان بیشتر باشد.” شما نمی توانید در ریاضیات از گودل فرار کنید، و در هوش مصنوعی احتمالاً نمی توانید یک سیستم هوش مصنوعی مانند یک LLM را اصلاح کنید. و سپس انتظار داشته باشید برای همیشه خوب باشید شما باید متعهد به جستجوی مداوم برای نقاط ضعف باشید و از مهاجمان جلوتر باشید. هدف رسیدن به یک تعادل اقتصادی جدید است که در آن تلاش برای شکستن سیستم هوش مصنوعی شما از نظر مالی برای مهاجمان ممنوع است. ممکن است گران باشد، اما این هزینه حتی جزئی از امنیت است که باید به سازمانها اجازه دهد تا مزایای هوش مصنوعی را به حداکثر برسانند و در عین حال خطرات را به حداقل برسانند.
مقاله: Apostol Vassilev، امنیت و تراز هوش مصنوعی قوی: یک تلاش سیزیفی؟ امنیت و حریم خصوصی IEEE مه 2026. DOI: 10.1109/MSEC.2026.3678214
Source link
