مسابقه برای ترجمه صداهای حیوانات به زبان انسان
انتشار: دی 02، 1403
بروزرسانی: 03 تیر 1404

مسابقه برای ترجمه صداهای حیوانات به زبان انسان


در سال 2025 ما شاهد استفاده از هوش مصنوعی و یادگیری ماشینی برای ایجاد پیشرفت واقعی در درک ارتباطات حیوانات خواهیم بود و به این سوال پاسخ می دهیم که تا زم، که ما وجود داریم انسان ها را متحیر کرده است: "حیوانات به یکدیگر چه می گویند؟" اخیر جایزه کو،-،یتلارائه جوایز نقدی تا نیم میلیون دلار برای دانشمند، که «کد را ش،ته اند» نشانه ای از اطمینان صعودی است که پیشرفت های فناوری اخیر در یادگیری ماشینی و مدل های زبان بزرگ (LLM) این هدف را در اختیار ما قرار می دهد.

بسیاری از گروه های تحقیقاتی سال ها بر روی الگوریتم هایی کار می کنند تا صداهای حیوانات را درک کنند. برای مثال، پروژه Ceti، قطارهای کلیک نهنگ های اسپرم و آهنگ های گوژپشت را رمزگشایی کرده است. این ابزارهای یادگیری ماشین مدرن به مقادیر بسیار زیادی داده نیاز دارند و تا به حال، چنین مقادیری از داده های با کیفیت بالا و دارای حاشیه نویسی من، وجود نداشته است.

LLM هایی مانند ChatGPT را در نظر بگیرید که داده های آموزشی در دسترس آنها است که شامل کل متن موجود در اینترنت است. چنین اطلاعاتی در مورد ارتباطات حیوانات در گذشته در دسترس نبوده است. این فقط این نیست که مجموعه داده های انس، بسیار بزرگتر از نوع داده هایی است که ما برای حیوانات در طبیعت به آنها دسترسی داریم: بیش از 500 گیگابایت کلمه برای آموزش GPT-3 استفاده شده است، در مقایسه با تنها بیش از 8000 «codas» ” (یا صداسازی) برای تحلیل اخیر پروژه Ceti از ارتباط نهنگ اسپرم.

علاوه بر این، هنگام کار با زبان انس،، ما قبلاً دانستن آنچه گفته می شود ما حتی می د،م که یک کلمه چه چیزی را تشکیل می دهد، که یک مزیت بزرگ نسبت به تفسیر ارتباطات حیوانات است، جایی که دانشمندان به ندرت می دانند که آیا زوزه گرگ خاص، برای مثال، م،ایی متفاوت از زوزه گرگ دیگر دارد یا حتی آیا گرگ ها زوزه را به ،وان یک زوزه در نظر می گیرند. به نوعی شبیه به یک کلمه در زبان انسان است.

با این وجود، سال 2025 پیشرفت های جدیدی را به همراه خواهد داشت، هم در کمیت داده های ارتباطی حیوانات در دسترس دانشمندان و هم در انواع و قدرت الگوریتم های هوش مصنوعی که می توان روی آن داده ها اعمال کرد. ضبط خودکار صداهای حیوانات در دسترس همه گروه های تحقیقاتی علمی قرار گرفته است و دستگاه های ضبط کم هزینه مانند AudioMoth محبوبیت زیادی پیدا کرده است.

مجموعه های داده عظیم اکنون آنلاین می شوند، زیرا ضبط کننده ها را می توان در میدان رها کرد و به صدای گیبون ها در جنگل یا پرندگان در جنگل، 24 ساعته، در مدت زمان طول، گوش داد. مواردی وجود داشت که مدیریت چنین مجموعه داده های عظیمی به صورت دستی غیرممکن بود. اکنون، الگوریتم های تشخیص خودکار جدید مبتنی بر شبکه های عصبی کانولوشنال می توانند هزاران ساعت ضبط را طی کنند، صداهای حیوانات را انتخاب کرده و آنها را به انواع مختلف، با توجه به ویژگی های آ،تیک طبیعی آن ها، دسته بندی کنند.

هنگامی که مجموعه داده های حیوانات بزرگ در دسترس هستند، الگوریتم های تحلیلی جدید به یک امکان تبدیل می شوند، مانند استفاده از شبکه های عصبی عمیق برای یافتن ساختار پنهان در دنباله هایی از صداهای حیوانات، که ممکن است مشابه ساختار م،ادار در زبان انسان باشد.

با این حال، سوال اساسی که همچنان نامشخص است این است که دقیقاً امیدواریم با این صداهای حیوانات چه کنیم؟ برخی از سازمان ها، مانند Interspecies.io، هدف خود را کاملاً واضح تعیین می کنند: «تبدیل سیگنال ها از یک گونه به سیگنال های منسجم برای دیگری». به عبارت دیگر، به ترجمه کنید ارتباط حیوانات به زبان انسان با این حال، ا،ر دانشمندان موافق هستند که حیوانات غیرانسان زبان واقعی خودشان را ندارند – حداقل نه به شکلی که ما انسان ها زبان داریم.

جایزه Coller Dolittle کمی پیچیده تر است و به دنبال راهی برای "ارتباط با یا رمزگشایی ارتباطات یک موجود زنده" است. با در نظر گرفتن این احتمال که حیوانات در واقع زبان قابل ترجمه نداشته باشند، رمزگشایی هدفی کمی جاه طلبانه تر از ترجمه است. امروزه ما نمی د،م که حیوانات چقدر اطلاعات را بین خود انتقال می دهند. در سال 2025، بشریت این پتانسیل را خواهد داشت که از درک ما نه تنها از اینکه حیوانات چقدر می گویند، بلکه دقیقاً چه چیزی به یکدیگر می گویند، جهش کند.



منبع: https://www.wired.com/story/artificial-intelligence-translation-animal-sounds-human-language/