ادراک و فهم برای هوش مصنوعی چه معنایی دارد؟

درک داده‌ها برای هوش مصنوعی راحت و آسان به نظر می‌رسد، اما طراحی آزمونی درست و مناسب برای محک‌زدن دانش این ماشین‌ها کار سختی است.

احتمالاً شما هم با سیستم واتسون شرکت آی‌بی‌ام آشنا هستید؛ در سال ۲۰۱۰ ادعا می‌شد این سیستم قابلیت درک زبان طبیعی با همهٔ ریزه‌کاری‌ها و پیچیدگی‌های آن را دارد، اما بعداً واتسون در زمینه ایجاد انقلابی در پزشکی با استفاده از هوش مصنوعی ناکام ماند و این شکست نشان داد که توانایی ظاهری آشنایی با زبان، با درک واقعی زبان انسانی تفاوت دارد.

مدت‌هاست که درک زبان‌های طبیعی جزء اهداف اصلی تحقیقات حوزهٔ هوش مصنوعی محسوب می‌شود. در ابتدا محققان سعی داشتند هر آنچه که یک سیستم برای درک داستان‌های جدید، ماجراهای ساختگی یا هر نوشتهٔ دیگری نیاز دارد را از طریق کدنویسی مهیا کنند. آنطور که تجربه واتسون نشان داد این روش بیهوده است – در واقع نمی‌توان همه حقایق، قواعد و فرضیات مورد نیاز برای درک متن را نوشت. اخیراً یک رویکرد جدید در این زمینه ایجاد شده است. بر اساس این رویکرد به جای ایجاد یک دانش صریح در سیستم، ما اجازه می‌دهیم که خود سیستم صرفاً با هضم انبوهی از متون نوشته شده و یادگرفتن از نحوهٔ پیش‌بینی کلمات، زبان را یاد بگیرد. نتیجه این رویکرد چیزی است که محققان به آن مدل زبان می‌گویند. چنین مدل‌هایی اگر مثل مدل GPT-3 شرکت OpenAI بر اساس شبکه‌های عصبی بزرگ ساخته شوند، می‌توانند نوشته‌هایی شبیه انسان (یا حتی شعر) خلق کنند و استدلال‌های زبانی پیچیده‌ای را انجام دهند.

اما آیا GPT-3 – که با استفاده از متن هزاران سایت، کتاب و دایرة المعارف آموزش داده شده – نسبت به واتسون برتری دارد؟ آیا واقعاً این سیستم زبانی که تولید می‌کند و ظاهراً درباره آن استدلال می‌کند را درک می‌کند؟ این یکی از موضوعات مورد اختلاف در جامعه تحقیقات هوش مصنوعی است. چنین مباحثی قبلاً بیشتر بین فلاسفه مطرح بود اما در دههٔ اخیر هوش مصنوعی حباب آکادمیک آن شکسته و وارد دنیای واقعی شده، در نتیجه اگر درک درستی نسبت به این جهان نداشته باشد، می‌تواند پیامدهایی واقعی و گاهی اوقات فاجعه‌بار ایجاد کند. در یک مطالعه مشخص شد که سیستم واتسون آی‌بی‌ام چندین درمان غلط و ناامن را توصیه می‌کند. مطالعهٔ دیگری نشان داد که سیستم ترجمه ماشینی گوگل هنگام ترجمهٔ دستورالعمل‌های پزشکی برای بیماران غیرانگلیسی زبان اشتباهات مهمی دارد.

چگونه می‌توانیم در عمل درک یک ماشین را مشخص کنیم؟

در سال ۱۹۵۰ آلن تورینگ که از پیشگامان علوم کامپیوتری است سعی کرد با استفاده از یکی از اختراعات مشهورش به اسم بازی تقلید (که امروزه به آن آزمون تورینگ گفته می‌شود)، به این سوال پاسخ دهد. در این تست یک ماشین و یک انسان وجود دارند که هر دو از دید مخفی شده‌اند و سعی دارند فقط با گفتگو با یک داور انسانی، او را متقاعد کنند که انسان هستند. اگر داور نتواند تشخیص دهد که کدامیک از این دو انسان هستند در این صورت به گفته تورینگ می‌توان گفت که چنین ماشینی متفکر است و در واقع قدرت درک دارد.

اما متأسفانه تورینگ میل انسان‌ها به فریب خوردن از ماشین‌ها را دست کم گرفته بود. حتی چت‌بات‌های ساده‌ای مثل الیزای جوزف ویزنباوم که در دهه ۶۰ میلادی طراحی شد تا نقش یک روان‌درمانگر را بازی کند نیز باعث شد که کاربران تصور کنند با یک موجود دارای درک صحبت می‌کنند، حتی با این‌که می‌دانستند طرف مقابلشان در گفتگو یک ماشین است.

بعدها، سه دانشمند کامپیوتر به نام‌های هکتور لوسک، ارنست دیویس و لئورا مورگنشترن یک آزمون هدفمندتر را پیشنهاد دادند به نام چالش طرح وینوگراد. این تست بین جامعهٔ هوش مصنوعی به عنوان یکی از بهترین روش‌های ارزیابی درک ماشین مورد پذیرش قرار گرفته است (البته در ادامه خواهیم دید که کاملا بی‌نقص نیست). طرح وینوگراد که نام آن بر اساس نام محققی به اسم تری وینوگراد انتخاب شده متشکل از چند جفت جمله است که دقیقاً یک کلمه با هم تفاوت دارند و بعد از هر کدام یک علامت سوال قرار دارد. برای مثال، به موارد زیر دقت کنید.

مثال اول
- جمله ۱: من آب را از بطری داخل فنجان ریختم تا وقتی که پر باشد.
  - سوال: چه چیزی پر باشد، بطری یا فنجان؟
- جمله ۲: من آب را از بطری داخل فنجان ریختم تا وقتی که خالی باشد.
  - سوال: چه چیزی خالی باشد، بطری یا فنجان؟
- مثال دوم
  - جمله ۱: عموی جو هنوز هم می‌تواند او را در تنیس شکست دهد، هر چند او ۳۰ سال پیرتر است.
    - سوال: چه کسی پیرتر است، جو یا عموی جو؟
  - جمله ۲: عموی جو هنوز هم می‌تواند او را در تنیس شکست دهد، هر چند او ۳۰ سال جوان‌تر است.
    - سوال: چه کسی جوان‌تر است، جو یا عموی جو؟

در هر مثال جمله تفاوت یک کلمه‌ای مورد نظر می‌تواند مفهوم را تغییر دهد. دادن پاسخ صحیح به این سوالات مستلزم داشتن درک کافی است. طرح‌های وینوگراد دقیقاً برای آزمودن چنین درکی طراحی شده اند و آسیب پذیری آزمون تورینگ در برابر ترفندهای چت بات یا قضاوت‌های غیرقابل اعتماد انسانی را کاهش می‌دهند. به ویژه، نویسندگان آن چند صد طرح ابداع کرده اند که معتقدند ضد گوگل هستند یعنی ماشین مورد نظر نباید بتواند از جستجوی گوگل (یا هر چیزی شبیه آن) برای پیدا کردن پاسخ درست سوالات استفاده کند.

در سال ۲۰۱۶ یک مسابقه برای این طرح‌ها برگزار شد که طرح برنده در آن تنها برای 58 درصد از جملات حدس درستی داشت – نتیجه‌ای که از حدس‌زدن ساده چندان بهتر نبود. اورن اتزیونی یکی از محققان برتر حوزه هوش مصنوعی می‌گوید: «وقتی هوش مصنوعی قادر به تشخیص این نباشد که کلمهٔ «آن» در یک جمله به چه چیزی اشاره دارد، آن‌وقت به‌سختی می‌توان باور کرد که روزی کل دنیا را تصاحب کند.»

اما به‌دلیل ظهور مدل‌های زبانی شبکه عصبی عظیم، توانایی برنامه‌های هوش مصنوعی برای حل طرح‌های وینوگراد به‌سرعت رو به افزایش است. در یکی از مقالات سال 2020 OpenAI اعلام شد که GPT-3 در یک مجموعه معیار از طرح‌های وینوگراد برای حدود 90 درصد از جملات تشخیص درستی داشته است. حتی سایر مدل‌های زبانی پس از آموزش اختصاصی برای انجام این کارها عملکردی بهتر داشته اند. در حال حاضر مدل‌های زبانی شبکه عصبی برای یک مجموعه خاص از طرح‌های وینوگراد که جزء یک رقابت درک زبان توسط هوش مصنوعی به نام SuperGLUE هستند، به دقت ۹۷ درصد رسیده اند. این دقت با دقت انسانی برابری می‌کند. اما آیا این یعنی مدل‌های زبانی مبتنی بر شبکه عصبی به قدرت تشخیصی شبیه انسان رسیده‌اند؟

نه لزوماً! با وجود همهٔ تلاش‌های سازندگان طرح‌های وینوگراد این طرح‌ها در برابر جستجوی گوگل مقاوم نیستند. این چالش‌ها هم مثل بسیاری دیگر از آزمون‌های فعلی که برای محک زدن درک هوش مصنوعی از زبان انجام می‌شوند به گونه‌ای طراحی شده‌اند که شبکه‌های عصبی گاهی اوقات می‌توانند از یکسری میان‌بر خاص برای رسیدن به پاسخ استفاده کنند تا حتی بدون داشتن درک کامل و درست هم به جواب برسند. مثلاً این جمله را در نظر بگیرید: «ماشین اسپورت از کامیون رد شد چون اون سریع تر حرکت می‌کرد» و «ماشین اسپورت از کامیون عبور کرد چون اون کندتر حرکت می‌کرد.» یک مدل زبانی که با استفاده از مجموعه‌ای عظیم از جملات انگلیسی آموزش دیده باشد ارتباط بین ماشین اسپورت و سریع و کامیون و کند را درک می‌کند، درنتیجه می‌تواند صرفاً بر اساس این ارتباطات و نه براساس درک خاصی که از این جمله دارد به پاسخ صحیح برسد. مشخص شده که برای خیلی از طرح‌های وینوگراد مورد استفاده در مسابقه SuperGLUE امکان چنین ارتباط‌دهی آماری‌ای وجود دارد.

گروهی از محققان مؤسسه هوش مصنوعی آلن تصمیم گرفتند که به جای استفاده از طرح‌های وینوگراد برای آزمودن درک، مشکلات آنها را حل کنند. این گروه در سال ۲۰۱۹ مجموعه‌ای بسیار بزرگتر از طرح‌های وینوگراد به نام WinoGrande را ابداع کردند. WinoGrande به جای چند صد نمونه، حاوی ۴۴ هزار جمله است. محققان برای جمع آوری این تعداد نمونه از پلتفرم محبوب Mechanical Turk آمازون استفاده کردند که برای جمع‌سپاری کارها استفاده می‌شود. از اشخاص خواسته شد که چند جفت جمله شامل تعدادی قیود خاص بنویسد تا مجموعه موردنظر حاوی موضوعات متنوع باشد، اما هر جمله در هر جفت از جملات می‌توانست در بیشتر از یک کلمه با بقیه تفاوت داشته باشد. سپس محققان سعی کردند با استفاده از یک روش هوش مصنوعی نسبتاً ساده، جملاتی را که امکان استفاده از میانبرهای آماری برای آنها وجود داشت، حذف کنند. همانطور که انتظار می‌رفت جملات باقیمانده منجر به ایجاد چالش بسیار سخت تری نسبت به مجموعه وینوگراد اصلی شدند. در این آزمون‌ها انسان‌ها باز هم امتیاز بسیار خوبی کسب می‌کردند اما مدل‌های زبانی شبکه عصبی که در آزمون اصلی عملکردی در حد انسان داشتند در مجموعه WinoGrande امتیاز بسیار کمتری کسب کردند. ظاهراً این چالش جدید مشکلات طرح‌های وینوگراد را برای محک زدن درک رفع می‌کند – به این شرط که جملات با دقت انتخاب شده باشند تا امکان جستجوی گوگل آنها وجود نداشته باشد.

اما یک شگفتی دیگر هم در راه بود. ظرف تقریباً دو سالی که از انتشار مجموعه WinoGrande می‌گذرد، مدل‌های زبانی شبکه عصبی بسیار عظیم‌تر شده‌اند و هر چقدر این مدل‌ها بزرگتر می‌شوند، توانایی آنها برای امتیاز گرفتن در این چالش جدید هم بیشتر می‌شود. در حال حاضر بهترین برنامه‌ها که با استفاده از چندین ترابایت متن و سپس با هزاران نمونه از WinoGrande آموزش داده شده‌اند، به دقت ۹۰ درصدی نزدیک شده‌اند (دقت انسان‌ها حدود ۹۴ درصد است). این ارتقای کارایی بیشتر ناشی از افزایش اندازه مدل‌های زبانی مبتنی بر شبکه عصبی و مجموعه داده‌های آموزشی آنها است.

آیا این شبکه‌های روبه‌رشد بالاخره می‌توانند به عقل و ادارکی شبیه انسان برسند؟ باز هم باید گفت که بعید است! نتایج مشاهده شده در آزمون WinoGrande هم ایرادهای مهمی دارند. مثلاً از آنجایی که انتخاب این جملات وابسته به کارمندان پلتفرم Mechanical Turk آمازون بوده، کیفیت و انسجام نوشته کاملاً ناهمگون است. همچنین روش‌های هوش مصنوعی ساده که برای برای حذف کردن جملات غیرمقاوم استفاده می‌شوند، در برابر گوگل چندان قوی نیستند؛ بنابراین ممکن است قادر به تشخیص همه میان‌برهای آماری ممکن برای یک شبکه عصبی عظیم نباشد. یکی از مطالعات صورت گرفته پس از این تحقیق نشان داد که مدل‌های زبانی مبتنی بر شبکه عصبی که با چنین جفت جمله‌هایی آموزش دیده باشند (و باید هر دو را درست تشخیص دهند) نسبت به انسان‌ها دقت بسیار کمتری دارند، در نتیجه دقت ۹۰ درصدی که پیش از این به آن اشاره شد، اهمیت چندانی ندارد.

اما ماجراهای وینوگراد چه درسی به ما می‌دهد؟ مهم‌ترین درس این است که در اغلب مواقع به‌سختی می‌توان از روی عملکرد سیستم‌های هوش مصنوعی در یک چالش خاص قضاوت کرد که این سیستم‌ها، قادر به درک زبانی (یا داده‌های دیگر) که پردازش می‌کنند، هستند یا خیر. حالا ما می‌دانیم که شبکه‌های عصبی در اغلب مواقع – به جای استفاده از ادراکی شبه‌انسانی – برای رسیدن به عملکرد خیلی خوب در تست‌های وینوگراد و آزمون‌های مهم دیگر درک زبان، از میانبرهای آماری استفاده می‌کنند.

به نظر من مسئله اصلی این است که درک زبان مستلزم درک جهان است و ماشینی که تنها با زبان کار کرده به چنین درکی نمی‌رسد. مثلاً به درک چنین جمله‌ای فکر کنید: “ماشین اسپورت از کامیون پیشی گرفت چون اون آرامتر حرکت می‌کرد.” برای درک این جمله باید با ماشین اسپورت و کامیون آشنا باشید و اینکه ماشین‌ها می‌توانند از هم سبقت بگیرند، خودروها اشیایی هستند که در دنیای فیزیکی وجود داشته و فعالیت می‌کنند و انسان‌ها بر اساس میل خودشان آنها را حرکت می‌دهند.

همه این اطلاعات از جمله اطلاعاتی هستند که تقریباً همه ما انسان‌ها داریم اما چنین اطلاعاتی در ماشین‌ها تعبیه نشده‌اند و بعید است که در متن آموزشی یک مدل زبانی تعبیه شده باشند. بعضی از دانشمندان علوم شناختی معتقدند که انسان‌ها برای درک و یادگیری زبان متکی بر دانش غریزی و پیش‌زبانی درباره فضا، زمان و بسیاری دیگر از خصوصیات مهم جهان هستند. اگر بخواهیم که ماشین‌ها هم مثل انسان‌ها در زمینه زبان انسانی به مهارت برسند اول باید به‌نحوی، اصول ابتدایی که انسان‌ها با آنها به دنیا می‌آیند را به آنها بدهیم و ارزیابی درک ماشین‌ها را از ارزیابی درک آنها درباره این اصول شروع کنیم که به نام دانش متافیزیک نوزادان شناخته می‌شود.

آموزش دادن و ارزیابی ماشین‌ها از نظر هوش سطح نوزادی نسبت به آنچه برای سیستم‌های هوش مصنوعی مثل واتسون و GPT-3 انجام شده، یک گام رو به عقب محسوب می‌شود اما اگر هدف ما رسیدن به درکی واقعی و قابل اطمینان باشد، احتمالاً این روش تنها راه دستیابی هوش مصنوعی به این سطحی است که بفهمد کلمهٔ این در یک جمله به چه چیزی اشاره دارد؛ همچنین هر چیز دیگری که برای درک این مورد نیاز است.

آخرین مطالب

14 واقعیت جالب درباره ترن‌های هوایی

مصاحبه با مدیرعامل سابق گوگل اریک اشمیت درباره تجربه همکاری با استیو جابز، نحوه برخورد با انتقادات و سبک مدیریت او

چگونه برند و شخصیت هنری خود را بسازیم؟

ادراک و فهم برای هوش مصنوعی چه معنایی دارد؟

چگونه می‌توانیم در عمل درک یک ماشین را مشخص کنیم؟

مطالب مشابه

جنبش بی‌کد قدرت هوش مصنوعی را در اختیار همه مردم قرار می‌دهد.

آیا چین می‌تواند در صنعت هوش مصنوعی پیشگام جهان شود؟

رونق هوش مصنوعی: درس‌هایی از تاریخ

لگو چگونه از داده‌ها و هوش مصنوعی استفاده می‌کند؟

تفاوت میان حرف زدن و فکر کردن

مروری بر پاسخ بیل گیتس به سوالات کاربران درباره تغییرات اقلیمی، هوش مصنوعی و غیره

موضوعات

همکاری

دیوند