Skip to content

Garik-/crawler

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

10 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Сrawler

Поисковой робот, написанный с использованием библиотеки libevent

Usage: crawler [KEY]... DOMAIN-LIST

	-t	таймауты подключения и операций чтения-записи
	-n	количество одновременных запросов (подбирайте сами по % ошибок)
	-o	файл доменов в которых было найдено необохдимое совпадение
	-e	файл доменов проверка которых завершилась с сетевой ошибкой
	-c	продолжить поиск по списку

Example:
$ crawler -n 1000 -o found.csv domains.csv

В данной реализации список доменов должен представлять из себя CSV файл, где первым значением идет имя домена.

c0dedgarik.blogspot.ru;

Если вы хотите запустить процесс, как демон не привязанный к терминалу:

$ setsid cmd >/dev/null 2>&1

##Installation

$ make

P.S.

Существуют и другие более производительные библиотеки, например libev, libuv... Для парсинга HTTP заголовоков рекомендую ознакомится с PicoHTTPParser и qrintf. Если нужен DOM parser советую использовать Gumbo.

About

Asynchronous HTTP client

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published