Archive for June 3rd, 2008

Карта на интернет

Tuesday, June 3rd, 2008

Нещо ме е хванала скуката. Пробвах да уча по Компютърни Архитектури, но резултата беше следобедна дрямка 🙂
Така че за да се измъкна за малко от творческата дупка, упражних малко PHP и регулярни изрази.
Резултата е налице – скрипт, който прави карта на ‘интернет’ 😀
По-точно приема като параметър URL и тръгва по изходящите от там връзки. Изходяща е връзка към домейн различен от домейна на URL-то. Не се следят броя връзки, нито въпросното URL се crawl-ва до всяка под-страница. Така от всеки домейн се преглежда само по едно URL, което означава че картата е далееече от точност 🙂 Ама я си представете от някой голям портал като dir.bg колко връзки навън има… и как се представят графично. За графичното представяне използвам Graphviz.
Вижда се че тук-таме субдомейните се представят като отделни сайтове. Примерно според скрипта idg.bg и www.idg.bg са две различни неща. Това е така, защото субдомейна www наистина може да е съвсем друг сайт 🙂 Скрипта не проверява съдържанието буква по буква за съвпадение.
И естествено целия паяк има ‘ограда’, за да не тръгне да прави наистина карта на Интернет. Това което се вижда е на разстояние до 2 хопа от ivan.tu-plovdiv.info.
Извинявам се на сайтовете, които се виждат вътре за спамопободния трафик към тях.
Ето я й самата карта (не съм си играл с настройките за шарении):
out.jpg

А тук има същата карта, но този път се вижда малко по-далече – на 3 хопа разстояние. Всичко се върти около google, picasa, youtube, myspace… Хмм, виждат се и няколко бъга, които имат нужда оправяне 🙂