راهی جدید برای حفظ حریم داده‌ها

محققان یک روش حریم شخصی ابداع کرده‌اند که در عین حفظ عملکرد مدل یادگیری ماشین، از داده‌های حساس محافظت می‌کند

به گزارش از «ام آی تی نیوز»، تصور کنید که یک گروه از دانشمندان یک مدل یادگیری ماشین ابداع کرده است که از تصاویر اسکن ریه می‌تواند پیش بینی کند که آیا یک بیمار مبتلا به سرطان است یا نه. آنها می‌خواهند این مدل را در بیمارستان های جهان به اشتراک بگذارند.

اما یک مشکل وجود دارد. این دانشمندان برای اینکه به مدل یادگیری ماشین یاد بدهند که چگونه سرطان را پیش بینی کند،‌ میلیون ها تصویر واقعی از اسکن ریه را به آن نشان دادند که به این فرایند آموزش گفته می‌شود. این داده‌های حساس که اکنون کدگذاری و وارد کارهای داخلی مدل شده است، می‌تواند بطور بالقوه توسط یک کارگزار بدخواه استخراج شود. دانشمندان می توانند با افزودن «نویز» از این کار جلوگیری کنند اما این اختلال ها از میزان صحت کار مدل کم می‌کند و بنابراین هر چه نویز کمتر باشد، بهتر است.

محققان دانشگاه «ام آی تی» تکنیکی ابداع کرده اند که کاربر را قادر می سازد تا بطور بالقوه کمترین میزان ممکن نویز را اضافه کند و در عین حال همچنان تضمین کند که داده‌های حساس حفاظت می‌شوند.

این محققان یک معیار اندازه‌گیری جدید برای حریم خصوصی ابداع کردند که نام آن را «حریم خصوصی احتمالا تقریبا صحیح» (PAC) گذاشته اند و چهارچوبی بر اساس این معیار ساخته اند که می تواند بطور اتوماتیک میزان حداقل نویز مورد نیاز برای اضافه کردن را مشخص کند. مضاف بر اینکه این مدل نیازمند دانشی درباره کارهای داخلی آن مدل یا فرایند آموزش آن نیست که این مساله موجب می شود کاربرد آن برای انواع مختلف مدل ها آسان‌تر باشد.

در چندین مورد، محققان نشان دادند که مقدار نویز مورد نیاز برای محافظت از داده‌های حساس با استفاده از حریم خصوصی PAC‌ بسیار کمتر از رویکردهای دیگر است. این می تواند به مهندسان کمک کند تا مدل های یادگیری ماشینی ابداع کنند که داده‌های آموزشی را پنهان کرده و در عین حال صحت کار را در محیط ها و شرایط جهان واقعی حفظ کند.

خروج از نسخه موبایل