Разработчики из Performance-marketing агентства Promo.ua анонсировали запуск сервиса, который автоматизирует прохождение графической капчи и облегчит задачу SEO-специалистам, веб мастерам и всем, кто занимается парсингом.
Если ваш бизнес связан с анализом больших объемов данных, вам не обойтись без парсинга и введения капчи. Еще вчера упростить этот процесс казалось невозможным, а сегодня это легко сделать благодаря DeepCaptcha.
DeepCaptcha — возможность обойти защиту Google путем распознавания визуальных ключей, при помощи которых поисковая система «отсеивает» ботов и роботов. Сервис работает на базе обучаемых нейросетей, ориентированных на определенный тип изображений. Вместо человека все делает машина — быстро, качественно и точно. В этой статье мы раскроем суть нового продукта и поговорим о его фишках.
Была ли жизнь до DeepCaptcha?
Проанализируем работу SEO-специалиста: при проверке 10 000 страниц выскакивает до 1000 капч. На расшифровку каждой из них уходит до 30 секунд. Таким образом, более 8 часов тратится впустую — просто на то, чтобы доказать машине, что ты не робот.
До сегодняшнего дня при необходимости парсинга в «промышленных» масштабах вопрос с капчей решался при помощи специальных сервисов. Стандартный алгоритм: пользователь загружает капчу на сервер подрядчика, после чего к работе подключается сотрудник (чаще всего — жители стран третьего мира), который вручную расшифровывает код и отправляет ответ обратно на сервер. Оттуда его и забирает конечный потребитель.
С одной стороны, использование дешевой рабочей силы дает возможность снизить стоимость услуги. С другой — процесс продвигается с задержками, так как скорость работы зависит от количества подключенных онлайн-сотрудников. При этом недобросовестные работники могут саботировать задачу или допускать ошибки, за что сразу же отправляются в бан.
Как это работает
Выяснив ситуацию на рынке, команда специалистов Big Data SEO из агентства Promo.ua решила создать абсолютно новый продукт, который автоматизирует, улучшит качество, удешевит и ускорит процесс разгадывания капчи.
В течение полугода разработчики парсили картинки, распределяли их по категориям и обучали нейронную сеть распознавать каждый тип иллюстрации.
Результатом стал «думающий» автоматизированный сервис, который моментально определяет соответствие картинки (светофора, гидранта, витрины, дорожного знака) и предлагаемого запроса, после чего кликает на нужное изображение. Больше нет лишнего звена в лице наемного работника. Таким образом, потребность использовать для решения задачи ручной труд отпадает.
Процесс происходит в несколько этапов:
- клиент отправляет на сервер ссылку на защищенный капчей сайт и Site Key;
- используя эти параметры, DeepCaptcha заходит на сайт и расшифровывает капчу при помощи искусственных нейросетей;
- готовое решение отправляется на парсер клиента.
Погрешность такого подхода составляет 2%: это происходит из-за того, что в некоторых случаях поисковик может идентифицировать бота и продублировать защиту. В целом, автоматизация помогает удешевить прохождение своеобразного «теста Тьюринга», исключить влияние человеческого фактора и свести к нулю количество забаненных IP.
То, что нужно вашему бизнесу
DeepCaptcha подходит для сервисов автоматизации сбора и анализа данных, также разработка будет полезна маркетинговым агентствам, вебмастерам, SEO-специалистам и всем пользователям программ, применяемых для парсинга (съемщики позиций, кластеризаторы и др.). Главное условие — это должны быть сервисы, которые можно подключить по API.
«Плюшки» от DeepCaptcha
- Возможность масштабирования — одновременный запуск огромного количества потоков парсинга, чего невозможно достичь при использовании ручного труда.
- Работа без перерывов и выходных — сервис обрабатывает большие объемы информации без потери времени и ресурсов.
- Невысокая фиксированная стоимость — в сравнении с аналогами: за 1000 разгаданных вручную капч клиент платит от 2 до 4$, при использовании DeepCaptcha —30 грн.
Дальше — лучше!
Специалисты Promo.ua не собираются останавливаться на достигнутом. Команда ставит перед собой новые амбициозные задачи, для чего постоянно изучает усложняющиеся алгоритмы поисковых систем и возможности нейронных сетей.
На данном этапе разработки услуга нацелена на расшифровку исключительно графической капчи, которая встречается намного чаще, чем другие виды защиты.
Сервис находится на стадии тестирования, в планах команды — усовершенствовать его и выйти на международный рынок. Далее — расширение списка картинок и работа с нейронными сетями других типов, что поможет найти наиболее подходящую для подобных задач модель. А следующим шагом в апгрейде продукта станет распознавание аудиокапчи.