🎯 О чём этот конспект: Разбор связки AI-агента Claude Code с MCP-сервером Firecrawl для превращения любого веб-сайта в чистые данные (Markdown, JSON, CSV). Рассматриваются сценарии глубокого сканирования, извлечения брендинга, создания скриншотов и автоматического маппинга структуры сайта.
👤 Кому будет полезно: Вайбкодерам, разработчикам AI-агентов и специалистам по автоматизации, которым нужно быстро получать качественные данные с веб-страниц без написания сложных парсеров.
✨ Что получите: Готовую инструкцию по настройке MCP-сервера, шаблоны системных промптов для Claude Code и методику извлечения сотен строк структурированных данных (например, вакансий) за один запрос.
1. Настройка Firecrawl MCP в Claude Code
Контекст: Традиционный парсинг требует написания селекторов и обработки динамического контента. Firecrawl решает эту проблему, предоставляя API, который сразу отдает контент в формате, понятном для LLM (Markdown). Интеграция через MCP (Model Context Protocol) позволяет Claude Code самостоятельно выбирать нужные инструменты (scrape, crawl, map) в зависимости от вашей задачи на естественном языке.
Выгода: Экономия часов на написании кода парсеров. Claude сам понимает структуру сайта и извлекает только нужное.
Как применить:
Шаг 1: Получение API ключа — Firecrawl — Зарегистрируйтесь и скопируйте API Key из дашборда.
Шаг 2: Подготовка проекта — [VS Code] — Создайте новую папку и файл .env, куда вставьте свой ключ:
FIRECRAWL_API_KEY=fc-your-api-key-here
Шаг 3: Установка MCP сервера — [Claude Code] — Выполните команду для подключения сервера Firecrawl:
/mcp add firecrawl npx -y @mendable/firecrawl-mcp
Шаг 4: Перезагрузка контекста — [VS Code] — Нажмите Ctrl+Shift+P и выберите Developer: Reload Window, чтобы Claude подтянул новые инструменты.
Результат: Claude Code теперь «видит» интернет и может использовать инструменты firecrawl-scrape, firecrawl-map и firecrawl-crawl.
2. Создание базы знаний для AI-агента (Cheat Sheet)
Контекст: Чтобы AI-агент не ошибался в выборе инструментов, ему нужно предоставить четкую документацию внутри проекта. Создание файла-шпаргалки (Cheat Sheet) помогает Claude понять разницу между простым скрапингом одной страницы и глубоким обходом всего домена.
Выгода: Повышение точности работы агента и снижение расхода токенов за счет правильного выбора метода парсинга.
Как применить:
Шаг 1: Генерация шпаргалки — Попросите Claude создать справочный файл на основе его знаний об MCP сервере:
Создай файл firecrawl-cheatsheet.md. Опиши в нем инструменты: 1. scrape (одна страница), 2. map (структура ссылок), 3. crawl (обход всего сайта), 4. extract (структурированные данные). Добавь блок "Decision Guide": когда какой инструмент использовать.
Шаг 2: Настройка системного промпта — Создайте файл claud.md (или добавьте в существующий), чтобы закрепить роль проекта:
# Scraper Project ContextЭтот проект предназначен для извлечения данных с сайтов.У тебя есть доступ к Firecrawl MCP.Всегда обращайся к firecrawl-cheatsheet.md перед началом работы.Твоя цель: превращать сайты в Markdown, CSV или JSON по запросу пользователя.
Результат: У агента есть «инструкция по эксплуатации» инструментов, что минимизирует галлюцинации.
3. Массовое извлечение структурированных данных в CSV
Контекст: Одной из самых мощных функций является перевод неструктурированного веба в таблицы. В примере разбирается сбор 200 вакансий с сайта по поиску работы. Claude Code автоматически переключается между режимами, если обычный скрапинг не срабатывает (например, пробует встроенный в Firecrawl AI-агент).
Выгода: Получение готового датасета (200+ строк) за 2-3 минуты без ручного копипаста.
Как применить:
Шаг 1: Запрос на сбор данных — Используйте максимально конкретный промпт:
Мне нужно собрать данные о вакансиях с [URL]. Используй Firecrawl для извлечения первых 200 позиций. Мне нужны поля: Название, Компания, Зарплата, Ссылка на подачу, Краткое описание. Сохрани результат в jobs_data.csv.
Шаг 2: Режим планирования — Если задача сложная, перейдите в Plan Mode в Claude Code, чтобы он сначала расписал шаги (сначала map для поиска страниц, затем scrape для каждой).
Шаг 3: Контроль выполнения — Claude сам создаст CSV файл в корне вашего проекта.
Результат: Готовый CSV-файл со всеми нужными полями, очищенный от HTML-мусора.
4. Анализ брендинга и визуальный маппинг сайта
Контекст: Firecrawl умеет извлекать не только текст, но и визуальные составляющие: скриншоты всей страницы, палитру цветов, шрифты и логотипы. Это критично для задач редизайна или конкурентного анализа.
Выгода: Мгновенное получение дизайн-системы любого сайта.
Как применить:
Шаг 1: Запрос на визуальный анализ — Попросите Claude собрать визуальные данные:
Используй Firecrawl, чтобы сделать полный скриншот страницы [URL] и извлечь информацию о брендинге: основные цвета (HEX), шрифты и логотип.
Шаг 2: Маппинг структуры — Если нужно понять архитектуру сайта (какие есть разделы, продукты, категории), используйте инструмент map:
Выполни map для сайта [URL]. Составь иерархический список всех разделов (продукты, блог, контакты, категории) в файле sitemap.md.
Результат: В папке проекта появятся скриншоты (PNG/JPG) и текстовый файл с описанием стилей и структуры сайта.
FAQ
В: Сколько это стоит?
О: У Firecrawl есть бесплатный тариф (500 кредитов). В примере сбор 200 вакансий и анализ нескольких сайтов занял около 30 кредитов (6% лимита). Платные тарифы начинаются от $19/мес и дают больше лимитов и параллельных запросов.
В: Что делать, если сайт защищен от парсинга (Cloudflare и т.д.)?
О: Firecrawl имеет встроенные механизмы обхода защит и ротации прокси. Если обычный scrape не помогает, Claude Code может автоматически попробовать использовать инструмент firecrawl-agent, который работает более "человекоподобно".
В: Можно ли сохранять данные сразу в Google Таблицы?
О: Напрямую через MCP Firecrawl — нет, но так как вы находитесь в Claude Code, вы можете попросить его: "Напиши Python-скрипт, который возьмет созданный CSV и загрузит его в Google Sheets через API".
В: В чем разница между map и crawl?
О: map быстро выдает список всех URL-адресов на сайте для понимания структуры. crawl заходит на каждую страницу и извлекает её полное содержимое (контент), что требует значительно больше времени и кредитов.
В: Обязательно ли использовать VS Code?
О: Claude Code — это CLI-инструмент. Вы можете использовать его в любом терминале, но в связке с VS Code удобнее сразу видеть создаваемые файлы (CSV, Markdown, изображения).
Конспект создан на основе видео «How to Scrape ANY Website with Claude Code (Firecrawl MCP)» канала Nate Bird. Все права на оригинальный материал принадлежат авторам.Источник: https://www.youtube.com/watch?v=4efAzBiTeVo