یکی از مسائلی که برنامه نویسان ایرانی کم کم دارند به توجه می کنند، ایجاد پایگاههایی جهت دسته بندی و اطلاع رسانی از سایتهای دیگر ایرانی توسط ایجاد Crawl ها هستش . اصولا Crawler ها یک سری رباتهایی هستند که به صورت نرافزاری ایجاد می شوند و کارشان کنترل مرتب محتوای آن سایتهای دیگر و کشیدن اطلاعات مورد نیاز خود از سایتها هستش . البته با بوجود آمدن RSS که دیگر اکثر سایتهای خبری و وبلاگ ها که بیشترین سهم در تولید محتوای بروز در اینترنت را دارند ، دارا هستند ، این کار بسیار ساده تر شده است ، اما در عین حال خیلی از سایتها کماکان دارای این قابلیت نیستند و کشیدن مطالب مورد نیاز از آنها نیاز به برنامه نویسی با الگوریتمهای خاصی دارد که Crawl آنها را تبدیل به یک ربات قدرتمند بکند . کلا کار ساده ای نیست و برنامه نویسان باید اطلاعات عمیقی در مورد ایجاد هوش مصنوعی و مطالب مرتبط با آن داشته باشند تا توسط یک سری الگوریتم های ریاضی بتوانند این ربات ها رو ایجاد کنند .
نمونه خیلی پیشرفته این کار را Google و موتور های جستجوی شبیه به آن انجام می دهند که مرتب این ربات های آنها درون سایتهای اینترنتی گشت و گذار می کنند و محتوای آنها رو Index می کنند و برای جستجو آماده می کنند . نمونه خاص تر آن را مثلا خود news.google.com انجام می دهد که در حقیقت مرتب سایتهای خبری دنیا رو چک می کنه و عناوین مهم خبری رو مرتب از سایتهای مختلف استخراج می کند و در اختیار بازدیدکنندگانی که از آدرسهای همه این سایتها اطلاع ندارند و یا اصولا وقت و حوصله چک کردن همه این سایتها را ندارند ، قرار می دهد .
در مورد زبان فارسی هم جدیدا حرکت های خیلی خوبی شده و نمونه خبری آن که همانند news.google.com در مورد سایتهای خبری فارسی کار می کند با عنوان سرخط راه اندازی شد . پس از مدتی همین کار با عنوان دماسنج در مورد مطالب وبلاگ های فارسی زبان انجام شد . همانند سرخط بعد ها بخش اخبار سایت Parseek به راه افتاد که آن هم عناوین اخبار سایتهای خبری فارسی را قابلیت جستجو در آن در اختیار فارسی زبانان قرار داد . به تازگی هم یکی از همین مدل سایتها به زبان فارسی و انگلیسی با قابلیت های بسیار خوبی با نام Secondnews درست شده است که از امکانات خوبی هم برخوردار است .
به هر حال به نظر من هر مقدار از این سایتها در زمینه های مختلف ایجاد شود باعث راحت شدن کاربران در دسترسی به مطالب مورد نظرشان در سریعترین زمان ممکن می شود و آنقدر موضوعهای کار کردن در این مورد زیاد است که با وجود همین حرکتها همچنان جای بسیار زیادی برای کار وجود دارد ، چراکه تولید محتوای زبان فارسی در اینترنت یک بخش مهمش همین شناساندن آنها و با خبر کردن بقیه از وجود این محتواست که توسط یک چنین کارهایی این کار به راحتی قابل انجام است .a