مایکروسافت نسخه جدیدی از مدل زبانی کوچک Phi-3 خود را معرفی کرد که Phi-3-vision نام دارد. این نسخه جدید میتواند به تصاویر نگاه کند و درباره آن اطلاعاتی به شما ارائه کند.
Phi-3-vision یک مدل چندوجهی است (به این معنی که میتواند هم متن و هم تصاویر را درک کند) و بهترین استفاده را در گوشیهای موبایل ارائه میکند. مایکروسافت میگوید Phi-3-vision که اکنون بهصورت پیشنمایش عرضه شده است، یک مدل 4.2 میلیارد پارامتری است که میتواند وظایف استدلال بصری کلی مانند پرسیدن سؤال در مورد نمودارها یا تصاویر را انجام دهد.
البته Phi-3-vision به مراتب بسیار کوچکتر از سایر مدلهای هوش مصنوعی متمرکز بر تصویر مانند DALL-E یا Stable Diffusion است. برخلاف آن مدلها، Phi-3-vision توانایی تولید تصویر ندارد، اما میتواند محتوای یک تصویر را درک کند و آن را برای کاربر تجزیهوتحلیل کند.
مایکروسافت در ماه آوریل Phi-3 را با عرضه Phi-3-mini، کوچکترین مدل این خانواده با 3.8 میلیارد پارامتر معرفی کرد. خانواده Phi-3 دو عضو دیگر نیز دارد: Phi-3-small (7 میلیارد پارامتر) و Phi-3-medium (14 میلیارد پارامتر).
Phi-3-vision اکنون بهصورت پیش نمایش در دسترس است و درباره زمان عرضه جهانی آن اطلاعاتی وجود ندارد. سایر اعضای این خانواده نیز از طریق کتابخانه مدل Azure در دسترس هستند.