امنیت و حریم خصوصی در یادگیری فدرال – جمعبندی
یادگیری فدرال یکی از روشهای نوظهور در یادگیری ماشین است که مبنا و فرض آن یادگیری مدل هدف بصورت غیرمتمرکز و توسط طرفهای مشارکت کننده در طرح یادگیری است که در این صورت دادههای آموزشی نیز بصورت محلی باقی میمانند و از ارسال آنها به سمت سرور متمرکز جلوگیری به عمل میآید. با این حال این فناوری نوظهور نیز از حملات و آسیبهای امنیتی مصون نبوده و مورد توجه بسیاری از محققان در خصوص ارائه راهکاری برای حفظ حریم خصوصی دادههای کاربرانی که در این طرح وجود داشته و مدل یادگیری ماشین در حال آموزش بر اساس این دادهها میباشد، قرار گرفته است.
در دو مقاله قبلی به دو مورد از روشهای حفظ حریم خصوصی دادهها در محیطهای یادگیری فدرال اشاره گردید و مشکلات آنها نیز بطور مختصر مورد بررسی قرار گرفت. یکی از روشهای حفظ حریم خصوصی در یادگیری فدرال، استفاده از حریم خصوصی تفاضلی بود. این روش به این گونه عمل میکند که سعی دارد با استفاده از اضافه کردن مقدار ثابتی نویز، بر اساس فرمول مورد استفاده، به دادههای آموزشی، از استنتاج و نشت منشا دادهها جلوگیری کند. در واقع مدلهای یادگیری ماشین در فاز آموزش دادههای آموزشی را به خاطر میسپارند و زمانی که تبدیل به مدل نهایی شدند، با استفاده از پرسوجوهای مختلف امکان نشت این دادهها را برای مهاجم میسر میکنند. مشکل این روش هزینهی بالای محاسباتی برای طرفین شرکت کننده در طرح یادگیری فدرال بود.
یکی دیگر از طرحهای پیشنهاد شده برای حفظ حریم خصوصی دادهها در محیطهای یادگیری فدرال، محدود کردن دسترسی کاربران نهایی و یا مشارکت کنندگان به تنها اطلاعات مورد نیاز آنها میباشد. به عنوان نمونه کاربران نهایی که تنها از طریق ارسال پرسوجو به مدل هدف و دریافت پاسخ از آن با مدل ارتباط دارند، نیازی به دانستن و دسترسی به دادههای آموزشی و یا حتی پارامترهای آموزشی مدل ندارند. مشکل این روش نیز ایدهآل بودن آن است. چرا که در محیطهای واقعی امکان محدودیت کامل دسترسی به اطلاعات وجود ندارد. به عنوان نمونه طرفهای مشارکت کننده در طرح یادگیری فدرال در هر حالتی به برخی از دادههای آموزشی دسترسی خواهند داشت.