امنیت و حریم خصوصی در یادگیری فدرال

امنیت و حریم خصوصی در یادگیری فدرال

 

      یادگیری فدرال یا همان Federated Learning چیست؟

بر خلاف روش‌های سنتی یادگیری ماشین که نیاز دارد داده‌های آموزشی در یک جا جمع‌آوری شوند، این شیوه می‌تواند از منابع توزیع شده داده برای یادگیری بهره ببرد. به عبارتی به جایِ آوردن حجم عظیمی از داده‌ها از منابع مختلف، یک مدل از آن به مرکز اصلی فرستاده می‌شود. مدل‌های یادگیری ماشین معمولا هنگامی که برای داده‌های با مقیاس بزرگ و دنیای واقعی به کار گرفته می‌شوند، با چالش‌های مهمی نظیر ذخیره‌سازی غیرمتمرکز داده، هزینه ایجاد و نگهداری یک مخزن داده مرکزی، تاخیر بالا در انتقال داده‌ها به مخزن و حفظ حریم خصوصی رو‌به‌رو هستند. یادگیری فدرال پارادایم جدیدی را برای آموزش مکرر مدل‌های یادگیری ماشین با استفاده از داده‌های توزیع شده ارائه می‌دهد که در هر تکرار، طرف‌های مشارکت کننده یک مدل جهانی را بر روی داده‌های محلی خود آموزش می‌دهند. با این کار طرف‌های محلی، بروزرسانی‌های پارامترهای مدل‌های محلی خود را به یک سرور تجمیع ارسال کرده و سپس این پارامترها در مدل جهانی گنجانده می‌شوند. پس از آن مدل جهانی به روز شده و دوباره برای تکرار بعدی آموزش، با طرف‌های محلی به اشتراک گذاشته می‌شوند. شایستگی این رویکرد در چندین کاربرد دنیای واقعی از جمله طبقه‌بندی تصاویر، مدل‌سازی زبان و مراقبت‌های بهداشتی مورد توجه قرار گرفته است.

یکی از کاربردهای پر رنگ یادگیری فدرال در حوزه مراقبت‌های بهداشتی می‌باشد، جایی که داده‌ها مملو از اطلاعات شخصی و بسیار حساس بیماران می‌باشد و روش تجزیه و تحلیل داده‌ها باید با الزامات قانونی مطابقت داشته باشد. بنابراین با استفاده از این شیوه‌ی نوین آموزش مدل‌های یادگیری ماشین با استفاده از داده‌های توزیع شده و آموزش مکرر مدل جهانی، شاید بتوان گامی در جهت حفظ حریم خصوصی داده‌ها به ویژه در محیط‌های مراقبت‌های بهداشتی برداشت.

اگرچه یادگیری فدرال به عنوان گامی نزدیک‌تر به حفظ حریم خصوصی داده‌ها در نظر گرفته می‌شود، اما همچنان می‌تواند در برابر حملات مختلفی مانند استنتاج و یا بازسازی، آسیب‌پذیر باشند. به عنوان نمونه، با شروع حملات استنتاج، مهاجم می‌تواند استنباط کند که آیا از داده‌های یک فرد برای آموزش مدل استفاده شده است یا خیر. همچنین به عنوان نمونه‌ای دیگر در حمله بازسازی، هدف مهاجم بازسازی مجموعه داده آموزشی از روی پارامترهای مدل می‌باشد.

در مقاله‌ی بعد چالش‌های دیگر امنیت و حفظ حریم خصوصی داده‌ها در یادگیری فدرال به ویژه در محیط‌های مراقبت‌های بهداشتی را بررسی می‌کنیم.