بازگشت به ۳۰ سال قبل – چرا موتور جستوجوهای داخلی پاسخگوی درخواست کاربران نیست؟

موتور جستوجوهای داخلی پس از قطعی‌های مکرر و طولانی مدت اینترنت به یکی از موضوعات بحث‌برانگیز در فضای فناوری ایران تبدیل شده تا جایی که حتی مقامات وزارت ارتباطات نیز بارها نظرات خاص و تقریبا مبالغه‌آمیز در مورد آن‌ها داده‌اند.

تا به امروز در مجموع بیش از دو ماه از ابتدای سال ۱۴۰۴، اینترنت جهانی برای کاربران ایرانی با اختلال یا قطع کامل مواجه بوده و در این میان یکی از چالش‌های اصلی دسترسی به موتور جستوجو کاربردی بوده است؛ کاربران و کسب‌وکارها مدام نیاز خود برای داشتن موتورهای جستوجوی کاربردی که بتواند پاسخگوی نیاز آن‌ها باشد را اعلام کرده‌اند و هم‌زمان مسئولان نیز به شکلی مبالغه‌آمیز از گزینه‌های داخلی مانند «ذره‌بین» و «گردو» سخن به میان آورده‌اند؛ اجبار کاربران برای استفاده از این موتورهای جستوجو در قطعی‌های طولانی مدت ۱۴۰۴ و ۱۴۰۵ تقریبا به همه‌ی کاربران نشان داده که این ابزارها توان نشان دادن نتایج مناسب را ندارند.

از طرف دیگر صاحبان بسیاری از کسب و کارها برای نمایش وب‌سایت خود در نتایج این ابزارها با چالش مواجه شده‌اند و عملاً چیزی به نام SEO یا بهینه‌سازی وب‌سایت‌ها برای این موتورهای جستوجوی داخلی تعریف نشده است. حال سوال کلیدی این است که آیا یک موتور جستوجو داخلی واقعاً می‌تواند نیاز کاربران امروزی را برآورده کند یا اساساً از نظر فنی می‌توان کاربران را صرفا به استفاده از آن‌ها محدود کرد؟ در این مقاله به این سوالات پاسخ خواهیم داد.

تاریخچه‌ی فنی موتورهای جست‌وجو و بررسی عملکرد آن‌ها

برای درک وضعیت فعلی هر موتور جستوجو داخلی باید به عقب برگردیم که در اوایل دهه ۱۹۹۰، سیستم‌های جستجو اساساً دایرکتوری‌های دستی بودند و وب‌سایت‌ها باید توسط انسان ثبت و دسته‌بندی می‌شدند. این مدل محدود، کند و به‌شدت وابسته به نیروی انسانی بود. به عنوان مثال موتور جستوجوی یاهو در اوایل دهه ۱۹۹۰ به عوان شرکت تبلیغاتی از کسب‌وکارها هزینه‌ای را دریافت می‌کرد تا وب‌سایت و نام آن‌ها را به صورت دستی در نتایج جست‌وجوی خود نمایش دهد. البته این موضوع در برخی از موارد پر درخواست و دارای رقابت بالا ممکن بود به صورت مزایده‌ای هم صورت بگیرد.

در سال ۱۹۹۴ نقطه عطفی در این حوزه رخ داد چون موتورهایی مانند WebCrawler و Lycos شروع به استفاده از «خزنده‌ها» کردند. خزنده Crawler یا Spider در حقیقت رباتی است که به‌صورت خودکار صفحات وب را پیمایش می‌کند، لینک‌ها را دنبال می‌کند و داده‌ها را برای ایندکس ذخیره می‌کند. این تحول باعث شد وابستگی به ثبت دستی کاهش پیدا کند.

در سال ۱۹۹۵ با ظهور AltaVista، ایندکس‌سازی در مقیاس بزرگ ممکن شد و از اینجا به بعد، موتورهای جستجو سه جزء کلیدی پیدا کردند که شامل این موارد می‌شدند

خزنده برای جمع‌آوری داده
ایندکس برای ذخیره و سازماندهی
الگوریتم رتبه‌بندی برای نمایش بهترین نتیجه

الگوریتم‌ها نقش تعیین‌کننده‌ای دارند و آن‌ها مشخص می‌کنند کدام صفحه برای یک کوئری خاص مرتبط‌تر است. در ابتدا این الگوریتم‌ها ساده بودند (مثلاً شمارش تکرار کلمات)، اما در سال ۱۹۹۸ با معرفی PageRank، تحلیل لینک‌ها به‌عنوان معیار اعتبار وارد بازی شد.

اما با پیشرفت فناوری، امروزه موتورهای جستجویی مثل گوگل و Bing از ترکیب پیچیده‌ای از موارد زیر استفاده می‌کنند:

پردازش زبان طبیعی (NLP)
یادگیری ماشین
تحلیل رفتار کاربر
درک نیت جستجو (Search Intent)

در نتیجه میان موتور جستوجوهای مدرن و موتور جستوجوهای سنتی سی سال پیش که فاقد این زیرساخت‌ها بودند تفاوت بسیار زیادی هست و اصلا نمی‌توان آن‌ها را با هم مقایسه کرد.

تلاش‌های نافرجام برای ساخت موتور جستوجوی بومی در ایران

اولین تلاش جدی برای ایجاد یک موتور جستوجو داخلی در ایران، پروژه «یوز» بود که در سال ۱۳۹۰ معرفی شد و به‌عنوان «اولین موتور جستجوی ملی» مطرح شد و در زمان خودش از آن تعریف و تمجید بسیار زیادی شد و بودجه‌ای چند ده میلیارد تومانی در زمان خودش به آن اختصاص یافت.

مسئولان وقت ادعا می‌کردند که یوز می‌تواند نیاز کاربران ایرانی را برطرف کند و وابستگی به موتورهای خارجی را کاهش دهد و زیرساخت جستجوی بومی ایجاد کند، اما در عمل مشکلات اساسی زیادی برای آن وجود داشت. ضعف در ایندکس‌سازی واقعی وب، عدم توسعه الگوریتم رتبه‌بندی مستقل و وابستگی به داده‌ها و APIهای خارجی باعث شد تا یوز عملا به یک پروژه شکست خورده تبدیل شود. وابستگی یوز به APIهای خارجی وقتی مشخص شد که در سال ۱۳۹۸ به مدت دو هفته‌ اینترنت قطع شد. کاربران متوجه شدند که موتور جستوجو داخلی یوز عملاً بدون دسترسی به منابع خارجی کارایی ندارد و نتایج آن بسیار محدود و غیرکاربردی است.

در نهایت پروژه یوز به‌تدریج کنار گذاشته شد و در سال ۱۴۰۰ اعلام شد که این موتور جستوجو داخلی از دسترس خارج می‌شود.

موتور جستوجوهای نوین داخلی و اصرار بر کپی‌برداری فناوری ۳۰ سال پیش!

بحث موتورجستوجوهای داخلی برای بار دیگر و پس از قطعی‌های طولانی مدتی که از سال ۱۴۰۴ شاهد آن بوده‌ایم بیشتر داغ شده است، اما بررسی‌ها نشان می‌دهد که بسیاری از نمونه‌های فعلی موتور جستوجو داخلی از نظر معماری به دهه ۱۹۹۰ شباهت دارند تا یک موتور جستوجوی واقعی و مدرن که پاسخگوی درخواست کاربران امروزی باشد. این موضوع به معنای آن‌ است که این نمونه‌های داخلی دارای رابط کاربری ساده هستند و در عین حال به یک دیتابیس محدود وابسته هستند و داده‌های آن‌ها یا دستی وارد شده‌اند یا با روش‌های ابتدایی مثل کش کردن موتور جستوجوهای خارجی مثل گوگل یا Bing یا موارد دیگر جمع‌آوری شده‌اند.

این مدل دقیقاً همان چیزی است که قبل از ظهور خزنده‌های پیشرفته وجود داشت که در چنین ساختاری پوشش وب بسیار محدود است و به‌روزرسانی‌ها کند هستند و نتایج جستجو فاقد عمق و تنوع‌ هستند.

این در حالی است که کاربر امروزی انتظار دارد تا در موتورهای جستوجو نتایج مرتبط در کسری از ثانیه با درک معنایی از کوئری بتوانند پیشنهادهای هوشمندی را به شکلی درست ارائه دهند.

اما یک موتور جستوجو داخلی که فاقد زیرساخت crawling و ranking پیشرفته است، عملاً نمی‌تواند این انتظارات را برآورده کند. نتیجه این می‌شود که تجربه کاربری به‌شدت افت می‌کند و کاربران دوباره به ابزارهای خارجی برمی‌گردند.

برای ساخت یک موتور جستوجوی کامل به چه چیز‌هایی نیاز هست

ساخت یک موتور جستوجو داخلی واقعی نیازمند مجموعه‌ای از زیرساخت‌های پیچیده است:

خزنده‌های پیشرفته (Crawler) که باید بتواند کارهای زیر را انجام دهد:

به صورت خودکار تمامی صفحات وب را پیمایش کند
تغییرات محتوایی و ساختاری وب‌سایت را تشخیص دهد
به‌صورت مداوم به‌روزرسانی انجام دهد

در حقیقت بدون خزنده قوی، اساساً دیتایی برای جستجو وجود ندارد و هر چیزی باید به صورت دستی یا با کپی‌برداری از کش موتور جستوجوهای خارجی برداشت شود.

ایندکس‌سازی باید در مقیاس بزرگ انجام شود:

داده‌های جمع‌آوری‌شده از خزنده‌های موتورهای جستوجو باید با توجه به محتوا و ساختار و ارزش و قدمت وب‌سایت ساختاردهی شوند و سپس بهینه‌سازی و رتبه‌بندی شوند و در نهایت در دیتابیس ذخیره شوند. این پروسه باید به صورت پویا و مداوم رخ دهد و نتایج مدام بر اساس شرایط و تغییرات وب سازگار شود.

در نهایت نیز قابلیت جستجوی سریع داشته باشند تا بتوانند به بهترین شکل محتوایی مناسب با آنچه کاربر درخواست می‌کند را به آن‌ها نشان دهد.

این بخش نیازمند زیرساخت‌های توزیع‌شده Distributed Systems است که عملاً موتورهای جستوجوی ایرانی را میتوان فاقد آن دانست که اگر هم دارند، بسیار در این بخش ضعیف هستند.

الگوریتم رتبه‌بندی به شکل درست در نمونه‌های داخلی وجود ندارد

یک موتور جستوجو داخلی بدون الگوریتم دقیق، عملاً بی‌ارزش است. الگوریتم باید:

ارتباط معنایی را تشخیص دهد
کیفیت محتوا را ارزیابی کند
رفتار کاربران را تحلیل کند

نتیجه‌گیری

مشکل اصلی این نیست که ایده موتور جستوجو داخلی ذاتاً غلط است؛ مشکل در سطح اجرا و درک پیچیدگی آن است. تجربه تاریخی نشان می‌دهد که موتورهای جستجو طی یک مسیر ۳۰ ساله به وضعیت فعلی، با سرمایه‌گذاری عظیم، توسعه الگوریتمی و زیرساختی رسیده‌اند.

نمونه‌های داخلی، چه در گذشته مانند یوز و چه در نسخه‌های جدیدتر، عمدتاً این مسیر را طی نکرده‌اند و در نتیجه عملکرد آن‌ها شبیه به موتورهای اولیه دهه ۹۰ باقی مانده است. تا زمانی که یک موتور جستوجو داخلی نتواند از نظر crawling، indexing و ranking به سطح استاندارد جهانی نزدیک شود، انتظار پاسخگویی به نیاز کاربران امروزی، انتظار واقع‌بینانه‌ای نیست.