محققان در آزمایشگاه آمازون ترفند تازه ای را که به دستکاری مدل های هوش مصنوعی برای اقدامات خرابکارانه منجر می شود شناسایی کردند.
به گزارش خبرگزار غرب نیوز به نقل از اینترستینگ اینجینیرینگ، پژوهشگران آزمایشگاه هوش مصنوعی آمازون (AWS) دریافته اند که مدل های بزرگ زبانی مانند چت جی پی تی را می توان به راحتی برای ارایه اطلاعات مضر یا غیراخلاقی دستکاری کرد.
محققان با انتشار مقاله ای نشان دادند که مدل های بزرگ زبانی را می توان فریب داد تا پاسخ های ممنوعه ارایه کنند و در عین حال روش هایی را برای مقابله با این مشکل پیشنهاد کنند. با وجود تلاش هایی که برای جلوگیری از آن انجام شد، محققان دریافتند که نشانه های صوتی ساده به راحتی الگو های طراحی شده برای جلوگیری از پاسخگویی به سوالات خطرناک یا غیرقانونی در سیستم های هوش مصنوعی را دور می زنند.
این ترفند محدودیت های تعیین شده توسط سازندگان مدل های بزرگ زبانی را دور زد. مدل های آنها که بر روی داده های گفتگو با دستورالعمل های گفتاری آموزش دیده اند، در پاسخگویی به سوالات گفتاری برتری دارند و در معیار های ایمنی و مفید بودن بیش از 80 درصد امتیاز کسب می کنند.
پیشنهاد محققان این بود که سازندگان مدل های زبانی می توانند با وارد کردن نویز تصادفی در ورودی صدا، کاربران را از دور زدن اقدامات حفاظتی خود بازدارند. نویز به اطلاعات مبهم و غیرمنتظره ای گفته می شود که در داده های یک مدل وارد می شوند، اختلال ایجاد می کنند و نمی توان آنها را نادیده گرفت.
محققان از جملات تاکیدی ساده در یک مدل استفاده کردند و سپس سوال اصلی را تکرار کردند و باعث شدند آن مدل محدودیت های خود را نادیده بگیرد. آنها دریافتند که بسته به سطح دسترسی، می توانند انواع مدل های بزرگ زبانی را به درجات مختلف دور بزنند. در گذشته، محققان مختلف با موفقیت، پنج مدل بزرگ زبانی را با استفاده از زبان انگلیسی هیپنوتیز کردند و نشان دادند که چگونه هکرها، چه ماهر و چه غیر ماهر، می توانند بدون رخنه اطلاعاتی مدل های بزرگ زبانی را وادار به انجام کار های خرابکارانه کنند.
محققان در یکی از آزمایش ها، مدل های بزرگ زبانی شرکت آی بی ام (IBM) را به تولید کد های مخرب تشویق کردند و دریافتند که برخی از آن حملات قبلاً هم به مدل های هوش مصنوعی انجام شده است. با این حال، تیم آی بی ام گزارش کرد که این حملات به مشکل بزرگی تبدیل نخواهند شد، زیرا مدل های هوش مصنوعی می توانند امنیت سایبری خود را بهبود دهند.
آیا شما به دنبال کسب اطلاعات بیشتر در مورد "ترفند دستکاری مدل های هوش مصنوعی شناسایی شد" هستید؟ با کلیک بر روی فرهنگ و هنر، ممکن است در این موضوع، مطالب مرتبط دیگری هم وجود داشته باشد. برای کشف آن ها، به دنبال دسته بندی های مرتبط بگردید. همچنین، ممکن است در این دسته بندی، سریال ها، فیلم ها، کتاب ها و مقالات مفیدی نیز برای شما قرار داشته باشند. بنابراین، همین حالا برای کشف دنیای جذاب و گسترده ی محتواهای مرتبط با "ترفند دستکاری مدل های هوش مصنوعی شناسایی شد"، کلیک کنید.