2026/06/1810 мин чтения

Как написать парсер сайта на Python за 30 минут: промпт для Cursor и готовый код

Соберите данные с любого статического сайта за 30 минут, используя готовый промпт для Cursor/Windsurf и скрипт на requests, BeautifulSoup4 и pandas, который сразу экспортирует в CSV.

Содержание (15)+

All Posts

Автор

Елисавета Наговицына

Предприниматель · Контент-маркетолог · SEO-стратег · AI-продуктолог

2026/06/18

400 000+ органических переходов за 3 месяца. Со-основатель GoBanana (231K пользователей, 12+ млн ₽ без рекламы) и NeuroScribe (65K пользователей). SEO/GEO-стратегии для AI-поисковиков, 1 700+ единиц контента, 17+ реализованных стратегий.

Об авторе →

Читать далее

📢 Новость

Claude Code: новый CLI-агент от Anthropic

Anthropic выпустила Claude Code — терминальный AI-агент для разработчиков. Инструмент работает прямо в командной строке и умеет писать, редактировать и запускать код.

2026/02/27

📝 Конспект

Zcode AI: Полный гид по визуальному интерфейсу для Claude Code и AI-агентов

Узнайте, как использовать Zcode для управления Claude Code, Gemini и Codex в едином GUI. Настройка провайдеров, MCP-серверов и визуальный вайбкодинг.

2026/02/28

📝 Конспект

YouTube-канал с монетизацией из любой точки мира: Пошаговый гайд 2026

Инструкция по созданию YouTube-канала: обход блокировок SMS, настройка расширенных функций через виртуальные номера и правила безопасности для монетизации.

2026/02/28

📝 Конспект

Windsurf Code Maps: Как глубоко понимать архитектуру проекта перед написанием кода

Полный гайд по Windsurf Code Maps, модели Sway 1.5 и Sway Grep. Узнайте, как визуализировать архитектуру кода и ускорить разработку в 13 раз.

2026/02/28

📝 Конспект

Vk Fast Cash Strategy

Аудитория ВКонтакте — это те же люди, что и в Instagram, но 'социальный контракт' площадки другой. Если Instagram — это 'дорогой ресторан' с демонстрацией успеха, то VK — это 'душевная шашлычная'. Здесь не работает глянцевый 'успешный успех

2026/02/28

Библиотека	Задача	Установка
requests	HTTP-запрос к сайту	pip install requests
beautifulsoup4	Парсинг HTML	pip install beautifulsoup4
pandas	Экспорт в CSV/Excel	pip install pandas
lxml	Быстрый HTML-парсер (опционально)	pip install lxml

Библиотека

Задача

Установка

requests

HTTP-запрос к сайту

pip install requests

beautifulsoup4

Парсинг HTML

pip install beautifulsoup4

pandas

Экспорт в CSV/Excel

pip install pandas

lxml

Быстрый HTML-парсер (опционально)

pip install lxml

Напиши парсер на Python используя библиотеки requests, beautifulsoup4 и pandas. Задача: - Парсить сайт: [URL сайта, например https://books.toscrape.com] - Собрать данные: [что собирать, например название книги и цену] - CSS-селекторы элементов: [например .product_pod h3 a для названия, .price_color для цены] - Обработать пагинацию: [да/нет, если да — указать паттерн URL или найти кнопку next] - Сохранить результат в: result.csv Требования: - Добавить заголовок User-Agent в запросы - Обработать ошибки если элемент не найден (вернуть None) - Добавить задержку 1 секунда между запросами - Напечатать прогресс парсинга в консоль Установка зависимостей: pip install requests beautifulsoup4 pandas

import requests from bs4 import BeautifulSoup import pandas as pd import time HEADERS = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36" } BASE_URL = "https://books.toscrape.com/catalogue/" def extract_text(html, selector): """Безопасное извлечение текста — возвращает None вместо ошибки.""" try: return html.select_one(selector).text.strip() except AttributeError: return None def parse_page(url): """Парсит одну страницу и возвращает список словарей.""" response = requests.get(url, headers=HEADERS) soup = BeautifulSoup(response.text, "lxml") items = [] for product in soup.select(".product_pod"): items.append({ "name": extract_text(product, "h3 a"), "price": extract_text(product, ".price_color"), "rating": product.select_one("p")["class"][1] if product.select_one("p") else None }) return items def get_next_page(soup, base_url): """Возвращает URL следующей страницы или None.""" next_btn = soup.select_one("li.next a") if next_btn: return base_url + next_btn["href"] return None def run_parser(start_url): all_data = [] url = start_url page_num = 1 while url: print(f"Парсим страницу {page_num}: {url}") response = requests.get(url, headers=HEADERS) soup = BeautifulSoup(response.text, "lxml") all_data.extend(parse_page(url)) url = get_next_page(soup, BASE_URL) page_num += 1 time.sleep(1) # задержка между запросами return all_data if __name__ == "__main__": data = run_parser("https://books.toscrape.com/catalogue/page-1.html") df = pd.DataFrame(data) df.to_csv("result.csv", index=False, encoding="utf-8-sig") print(f"Готово. Собрано {len(df)} записей -> result.csv")

- Парсить сайт: https://example-shop.ru/catalog - Собрать: название (.product-title) и цену ([data-ui="sale-price"]) - Пагинация: URL паттерн /catalog?page=2, /catalog?page=3

import pandas as pd data = [ {"name": "Товар 1", "price": "1290 руб."}, {"name": "Товар 2", "price": "890 руб."}, ] df = pd.DataFrame(data) # CSV — открывается в любом редакторе df.to_csv("result.csv", index=False, encoding="utf-8-sig") # Excel — если нужен .xlsx df.to_excel("result.xlsx", index=False, engine="openpyxl") print(f"Готово: {len(df)} записей")

Критерий	Cursor	Windsurf
Контекст файла при вопросах	Ctrl+L — AI видит весь файл	Cascade — аналогично
Объяснение кода	Спросите через Ctrl+L	Спросите в Cascade
Расход токенов	Выше	Ниже
Отладка ошибок	Вставьте traceback в чат	Вставьте traceback в чат
Модели	Claude Opus 4.6, GPT-4o	Claude Sonnet 4.6 по умолчанию

Критерий

Cursor

Windsurf

Контекст файла при вопросах

Ctrl+L — AI видит весь файл

Cascade — аналогично

Объяснение кода

Спросите через Ctrl+L

Спросите в Cascade

Расход токенов

Выше

Ниже

Отладка ошибок

Вставьте traceback в чат

Модели

Claude Opus 4.6, GPT-4o

Claude Sonnet 4.6 по умолчанию

Как написать парсер сайта на Python за 30 минут: промпт для Cursor и готовый код

Автор

Читать далее

Как написать парсер сайта на Python за 30 минут: промпт для Cursor и готовый код

Автор

Читать далее

Когда вообще нужен парсер?

Как проверить, можно ли парсить сайт?

Как скопировать CSS-селектор нужного элемента?

Что такое стек requests + BeautifulSoup4 + pandas?

Готовый промпт для Cursor и Windsurf

Готовый код парсера на Python

Как адаптировать промпт под свой сайт?

Как обработать пагинацию и собрать все страницы?

Что делать с ошибками: NoneType, 403, timeout?

Как сохранить данные в CSV или Excel?

Cursor или Windsurf для написания парсера?

Стоит ли использовать Crawl4AI вместо BeautifulSoup?

Итог: что делать прямо сейчас?

FAQ

Глоссарий