درک دادهها برای هوش مصنوعی راحت و آسان به نظر میرسد، اما طراحی آزمونی درست و مناسب برای محکزدن دانش این ماشینها کار سختی است.
احتمالاً شما هم با سیستم واتسون شرکت آیبیام آشنا هستید؛ در سال ۲۰۱۰ ادعا میشد این سیستم قابلیت درک زبان طبیعی با همهٔ ریزهکاریها و پیچیدگیهای آن را دارد، اما بعداً واتسون در زمینه ایجاد انقلابی در پزشکی با استفاده از هوش مصنوعی ناکام ماند و این شکست نشان داد که توانایی ظاهری آشنایی با زبان، با درک واقعی زبان انسانی تفاوت دارد.
مدتهاست که درک زبانهای طبیعی جزء اهداف اصلی تحقیقات حوزهٔ هوش مصنوعی محسوب میشود. در ابتدا محققان سعی داشتند هر آنچه که یک سیستم برای درک داستانهای جدید، ماجراهای ساختگی یا هر نوشتهٔ دیگری نیاز دارد را از طریق کدنویسی مهیا کنند. آنطور که تجربه واتسون نشان داد این روش بیهوده است – در واقع نمیتوان همه حقایق، قواعد و فرضیات مورد نیاز برای درک متن را نوشت. اخیراً یک رویکرد جدید در این زمینه ایجاد شده است. بر اساس این رویکرد به جای ایجاد یک دانش صریح در سیستم، ما اجازه میدهیم که خود سیستم صرفاً با هضم انبوهی از متون نوشته شده و یادگرفتن از نحوهٔ پیشبینی کلمات، زبان را یاد بگیرد. نتیجه این رویکرد چیزی است که محققان به آن مدل زبان میگویند. چنین مدلهایی اگر مثل مدل GPT-3 شرکت OpenAI بر اساس شبکههای عصبی بزرگ ساخته شوند، میتوانند نوشتههایی شبیه انسان (یا حتی شعر) خلق کنند و استدلالهای زبانی پیچیدهای را انجام دهند.
اما آیا GPT-3 – که با استفاده از متن هزاران سایت، کتاب و دایرة المعارف آموزش داده شده – نسبت به واتسون برتری دارد؟ آیا واقعاً این سیستم زبانی که تولید میکند و ظاهراً درباره آن استدلال میکند را درک میکند؟ این یکی از موضوعات مورد اختلاف در جامعه تحقیقات هوش مصنوعی است. چنین مباحثی قبلاً بیشتر بین فلاسفه مطرح بود اما در دههٔ اخیر هوش مصنوعی حباب آکادمیک آن شکسته و وارد دنیای واقعی شده، در نتیجه اگر درک درستی نسبت به این جهان نداشته باشد، میتواند پیامدهایی واقعی و گاهی اوقات فاجعهبار ایجاد کند. در یک مطالعه مشخص شد که سیستم واتسون آیبیام چندین درمان غلط و ناامن را توصیه میکند. مطالعهٔ دیگری نشان داد که سیستم ترجمه ماشینی گوگل هنگام ترجمهٔ دستورالعملهای پزشکی برای بیماران غیرانگلیسی زبان اشتباهات مهمی دارد.
چگونه میتوانیم در عمل درک یک ماشین را مشخص کنیم؟
در سال ۱۹۵۰ آلن تورینگ که از پیشگامان علوم کامپیوتری است سعی کرد با استفاده از یکی از اختراعات مشهورش به اسم بازی تقلید (که امروزه به آن آزمون تورینگ گفته میشود)، به این سوال پاسخ دهد. در این تست یک ماشین و یک انسان وجود دارند که هر دو از دید مخفی شدهاند و سعی دارند فقط با گفتگو با یک داور انسانی، او را متقاعد کنند که انسان هستند. اگر داور نتواند تشخیص دهد که کدامیک از این دو انسان هستند در این صورت به گفته تورینگ میتوان گفت که چنین ماشینی متفکر است و در واقع قدرت درک دارد.
اما متأسفانه تورینگ میل انسانها به فریب خوردن از ماشینها را دست کم گرفته بود. حتی چتباتهای سادهای مثل الیزای جوزف ویزنباوم که در دهه ۶۰ میلادی طراحی شد تا نقش یک رواندرمانگر را بازی کند نیز باعث شد که کاربران تصور کنند با یک موجود دارای درک صحبت میکنند، حتی با اینکه میدانستند طرف مقابلشان در گفتگو یک ماشین است.
بعدها، سه دانشمند کامپیوتر به نامهای هکتور لوسک، ارنست دیویس و لئورا مورگنشترن یک آزمون هدفمندتر را پیشنهاد دادند به نام چالش طرح وینوگراد. این تست بین جامعهٔ هوش مصنوعی به عنوان یکی از بهترین روشهای ارزیابی درک ماشین مورد پذیرش قرار گرفته است (البته در ادامه خواهیم دید که کاملا بینقص نیست). طرح وینوگراد که نام آن بر اساس نام محققی به اسم تری وینوگراد انتخاب شده متشکل از چند جفت جمله است که دقیقاً یک کلمه با هم تفاوت دارند و بعد از هر کدام یک علامت سوال قرار دارد. برای مثال، به موارد زیر دقت کنید.
- مثال اول
- جمله ۱: من آب را از بطری داخل فنجان ریختم تا وقتی که پر باشد.
- سوال: چه چیزی پر باشد، بطری یا فنجان؟
- جمله ۲: من آب را از بطری داخل فنجان ریختم تا وقتی که خالی باشد.
- سوال: چه چیزی خالی باشد، بطری یا فنجان؟
- مثال دوم
- جمله ۱: عموی جو هنوز هم میتواند او را در تنیس شکست دهد، هر چند او ۳۰ سال پیرتر است.
- سوال: چه کسی پیرتر است، جو یا عموی جو؟
- جمله ۲: عموی جو هنوز هم میتواند او را در تنیس شکست دهد، هر چند او ۳۰ سال جوانتر است.
- سوال: چه کسی جوانتر است، جو یا عموی جو؟
- جمله ۱: عموی جو هنوز هم میتواند او را در تنیس شکست دهد، هر چند او ۳۰ سال پیرتر است.
- جمله ۱: من آب را از بطری داخل فنجان ریختم تا وقتی که پر باشد.
در هر مثال جمله تفاوت یک کلمهای مورد نظر میتواند مفهوم را تغییر دهد. دادن پاسخ صحیح به این سوالات مستلزم داشتن درک کافی است. طرحهای وینوگراد دقیقاً برای آزمودن چنین درکی طراحی شده اند و آسیب پذیری آزمون تورینگ در برابر ترفندهای چت بات یا قضاوتهای غیرقابل اعتماد انسانی را کاهش میدهند. به ویژه، نویسندگان آن چند صد طرح ابداع کرده اند که معتقدند ضد گوگل هستند یعنی ماشین مورد نظر نباید بتواند از جستجوی گوگل (یا هر چیزی شبیه آن) برای پیدا کردن پاسخ درست سوالات استفاده کند.
در سال ۲۰۱۶ یک مسابقه برای این طرحها برگزار شد که طرح برنده در آن تنها برای 58 درصد از جملات حدس درستی داشت – نتیجهای که از حدسزدن ساده چندان بهتر نبود. اورن اتزیونی یکی از محققان برتر حوزه هوش مصنوعی میگوید: «وقتی هوش مصنوعی قادر به تشخیص این نباشد که کلمهٔ «آن» در یک جمله به چه چیزی اشاره دارد، آنوقت بهسختی میتوان باور کرد که روزی کل دنیا را تصاحب کند.»
اما بهدلیل ظهور مدلهای زبانی شبکه عصبی عظیم، توانایی برنامههای هوش مصنوعی برای حل طرحهای وینوگراد بهسرعت رو به افزایش است. در یکی از مقالات سال 2020 OpenAI اعلام شد که GPT-3 در یک مجموعه معیار از طرحهای وینوگراد برای حدود 90 درصد از جملات تشخیص درستی داشته است. حتی سایر مدلهای زبانی پس از آموزش اختصاصی برای انجام این کارها عملکردی بهتر داشته اند. در حال حاضر مدلهای زبانی شبکه عصبی برای یک مجموعه خاص از طرحهای وینوگراد که جزء یک رقابت درک زبان توسط هوش مصنوعی به نام SuperGLUE هستند، به دقت ۹۷ درصد رسیده اند. این دقت با دقت انسانی برابری میکند. اما آیا این یعنی مدلهای زبانی مبتنی بر شبکه عصبی به قدرت تشخیصی شبیه انسان رسیدهاند؟
نه لزوماً! با وجود همهٔ تلاشهای سازندگان طرحهای وینوگراد این طرحها در برابر جستجوی گوگل مقاوم نیستند. این چالشها هم مثل بسیاری دیگر از آزمونهای فعلی که برای محک زدن درک هوش مصنوعی از زبان انجام میشوند به گونهای طراحی شدهاند که شبکههای عصبی گاهی اوقات میتوانند از یکسری میانبر خاص برای رسیدن به پاسخ استفاده کنند تا حتی بدون داشتن درک کامل و درست هم به جواب برسند. مثلاً این جمله را در نظر بگیرید: «ماشین اسپورت از کامیون رد شد چون اون سریع تر حرکت میکرد» و «ماشین اسپورت از کامیون عبور کرد چون اون کندتر حرکت میکرد.» یک مدل زبانی که با استفاده از مجموعهای عظیم از جملات انگلیسی آموزش دیده باشد ارتباط بین ماشین اسپورت و سریع و کامیون و کند را درک میکند، درنتیجه میتواند صرفاً بر اساس این ارتباطات و نه براساس درک خاصی که از این جمله دارد به پاسخ صحیح برسد. مشخص شده که برای خیلی از طرحهای وینوگراد مورد استفاده در مسابقه SuperGLUE امکان چنین ارتباطدهی آماریای وجود دارد.
گروهی از محققان مؤسسه هوش مصنوعی آلن تصمیم گرفتند که به جای استفاده از طرحهای وینوگراد برای آزمودن درک، مشکلات آنها را حل کنند. این گروه در سال ۲۰۱۹ مجموعهای بسیار بزرگتر از طرحهای وینوگراد به نام WinoGrande را ابداع کردند. WinoGrande به جای چند صد نمونه، حاوی ۴۴ هزار جمله است. محققان برای جمع آوری این تعداد نمونه از پلتفرم محبوب Mechanical Turk آمازون استفاده کردند که برای جمعسپاری کارها استفاده میشود. از اشخاص خواسته شد که چند جفت جمله شامل تعدادی قیود خاص بنویسد تا مجموعه موردنظر حاوی موضوعات متنوع باشد، اما هر جمله در هر جفت از جملات میتوانست در بیشتر از یک کلمه با بقیه تفاوت داشته باشد. سپس محققان سعی کردند با استفاده از یک روش هوش مصنوعی نسبتاً ساده، جملاتی را که امکان استفاده از میانبرهای آماری برای آنها وجود داشت، حذف کنند. همانطور که انتظار میرفت جملات باقیمانده منجر به ایجاد چالش بسیار سخت تری نسبت به مجموعه وینوگراد اصلی شدند. در این آزمونها انسانها باز هم امتیاز بسیار خوبی کسب میکردند اما مدلهای زبانی شبکه عصبی که در آزمون اصلی عملکردی در حد انسان داشتند در مجموعه WinoGrande امتیاز بسیار کمتری کسب کردند. ظاهراً این چالش جدید مشکلات طرحهای وینوگراد را برای محک زدن درک رفع میکند – به این شرط که جملات با دقت انتخاب شده باشند تا امکان جستجوی گوگل آنها وجود نداشته باشد.
اما یک شگفتی دیگر هم در راه بود. ظرف تقریباً دو سالی که از انتشار مجموعه WinoGrande میگذرد، مدلهای زبانی شبکه عصبی بسیار عظیمتر شدهاند و هر چقدر این مدلها بزرگتر میشوند، توانایی آنها برای امتیاز گرفتن در این چالش جدید هم بیشتر میشود. در حال حاضر بهترین برنامهها که با استفاده از چندین ترابایت متن و سپس با هزاران نمونه از WinoGrande آموزش داده شدهاند، به دقت ۹۰ درصدی نزدیک شدهاند (دقت انسانها حدود ۹۴ درصد است). این ارتقای کارایی بیشتر ناشی از افزایش اندازه مدلهای زبانی مبتنی بر شبکه عصبی و مجموعه دادههای آموزشی آنها است.
آیا این شبکههای روبهرشد بالاخره میتوانند به عقل و ادارکی شبیه انسان برسند؟ باز هم باید گفت که بعید است! نتایج مشاهده شده در آزمون WinoGrande هم ایرادهای مهمی دارند. مثلاً از آنجایی که انتخاب این جملات وابسته به کارمندان پلتفرم Mechanical Turk آمازون بوده، کیفیت و انسجام نوشته کاملاً ناهمگون است. همچنین روشهای هوش مصنوعی ساده که برای برای حذف کردن جملات غیرمقاوم استفاده میشوند، در برابر گوگل چندان قوی نیستند؛ بنابراین ممکن است قادر به تشخیص همه میانبرهای آماری ممکن برای یک شبکه عصبی عظیم نباشد. یکی از مطالعات صورت گرفته پس از این تحقیق نشان داد که مدلهای زبانی مبتنی بر شبکه عصبی که با چنین جفت جملههایی آموزش دیده باشند (و باید هر دو را درست تشخیص دهند) نسبت به انسانها دقت بسیار کمتری دارند، در نتیجه دقت ۹۰ درصدی که پیش از این به آن اشاره شد، اهمیت چندانی ندارد.
اما ماجراهای وینوگراد چه درسی به ما میدهد؟ مهمترین درس این است که در اغلب مواقع بهسختی میتوان از روی عملکرد سیستمهای هوش مصنوعی در یک چالش خاص قضاوت کرد که این سیستمها، قادر به درک زبانی (یا دادههای دیگر) که پردازش میکنند، هستند یا خیر. حالا ما میدانیم که شبکههای عصبی در اغلب مواقع – به جای استفاده از ادراکی شبهانسانی – برای رسیدن به عملکرد خیلی خوب در تستهای وینوگراد و آزمونهای مهم دیگر درک زبان، از میانبرهای آماری استفاده میکنند.
به نظر من مسئله اصلی این است که درک زبان مستلزم درک جهان است و ماشینی که تنها با زبان کار کرده به چنین درکی نمیرسد. مثلاً به درک چنین جملهای فکر کنید: “ماشین اسپورت از کامیون پیشی گرفت چون اون آرامتر حرکت میکرد.” برای درک این جمله باید با ماشین اسپورت و کامیون آشنا باشید و اینکه ماشینها میتوانند از هم سبقت بگیرند، خودروها اشیایی هستند که در دنیای فیزیکی وجود داشته و فعالیت میکنند و انسانها بر اساس میل خودشان آنها را حرکت میدهند.
همه این اطلاعات از جمله اطلاعاتی هستند که تقریباً همه ما انسانها داریم اما چنین اطلاعاتی در ماشینها تعبیه نشدهاند و بعید است که در متن آموزشی یک مدل زبانی تعبیه شده باشند. بعضی از دانشمندان علوم شناختی معتقدند که انسانها برای درک و یادگیری زبان متکی بر دانش غریزی و پیشزبانی درباره فضا، زمان و بسیاری دیگر از خصوصیات مهم جهان هستند. اگر بخواهیم که ماشینها هم مثل انسانها در زمینه زبان انسانی به مهارت برسند اول باید بهنحوی، اصول ابتدایی که انسانها با آنها به دنیا میآیند را به آنها بدهیم و ارزیابی درک ماشینها را از ارزیابی درک آنها درباره این اصول شروع کنیم که به نام دانش متافیزیک نوزادان شناخته میشود.
آموزش دادن و ارزیابی ماشینها از نظر هوش سطح نوزادی نسبت به آنچه برای سیستمهای هوش مصنوعی مثل واتسون و GPT-3 انجام شده، یک گام رو به عقب محسوب میشود اما اگر هدف ما رسیدن به درکی واقعی و قابل اطمینان باشد، احتمالاً این روش تنها راه دستیابی هوش مصنوعی به این سطحی است که بفهمد کلمهٔ این در یک جمله به چه چیزی اشاره دارد؛ همچنین هر چیز دیگری که برای درک این مورد نیاز است.