apify-ultimate-scraper

bởi apify

Trình thu thập web tự động chọn các Actor tối ưu cho hơn 55 nền tảng bao gồm Instagram, TikTok, YouTube, Facebook, Google Maps và nhiều nền tảng khác. Bao gồm hơn 55 Actor được cấu hình sẵn trên 8 nền tảng chính với hướng dẫn lựa chọn theo từng trường hợp sử dụng cụ thể (tạo khách hàng tiềm năng, khám phá người ảnh hưởng, giám sát thương hiệu, phân tích đối thủ cạnh tranh, nghiên cứu xu hướng). Hỗ trợ ba định dạng đầu ra: hiển thị trò chuyện nhanh, xuất CSV hoặc xuất JSON với giới hạn kết quả có thể tùy chỉnh. Bao gồm các mẫu quy trình làm

npx skills add https://github.com/apify/agent-skills --skill apify-ultimate-scraper

Universal web scraper

AI-driven data extraction from ~100 Actors across 15+ platforms via the Apify CLI.

Rules for every apify command:

  1. Pass --json for machine-readable output (stable across CLI versions).
  2. Pass --user-agent apify-agent-skills/apify-ultimate-scraper for telemetry attribution.
  3. Redirect stderr with 2>/dev/null (stderr contains progress messages that break JSON parsers).

Prerequisites

  • Apify CLI v1.5.0+ (npm install -g apify-cli)
  • Authenticated session (see below)

Authentication

If a CLI command fails with an auth error, authenticate using one of these methods:

  1. OAuth (interactive): apify login (opens browser)
  2. Environment variable: export APIFY_TOKEN=your_token_here
  3. From .env file: source .env (if the file contains APIFY_TOKEN=...)

Generate token: https://console.apify.com/settings/integrations

Workflow

Step 1: Understand goal and select Actor

Identify the target platform and use case. Read references/actor-index.md to find the right Actor.

If the task involves a multi-step pipeline, also read the matching workflow guide:

Task involves...Read
leads, contacts, emails, B2Breferences/workflows/lead-generation.md
competitor, ads, pricingreferences/workflows/competitive-intel.md
influencer, creatorreferences/workflows/influencer-vetting.md
brand, mentions, sentimentreferences/workflows/brand-monitoring.md
reviews, ratings, reputationreferences/workflows/review-analysis.md
SEO, SERP, crawl, content, RAGreferences/workflows/content-and-seo.md
analytics, engagement, performancereferences/workflows/social-media-analytics.md
trends, keywords, hashtagsreferences/workflows/trend-research.md
jobs, recruiting, candidatesreferences/workflows/job-market-and-recruitment.md
real estate, listings, hotelsreferences/workflows/real-estate-and-hospitality.md
price monitoring, e-commerce, productsreferences/workflows/ecommerce-price-monitoring.md
contact enrichment, email extractionreferences/workflows/contact-enrichment.md
knowledge base, RAG, LLM data feedreferences/workflows/knowledge-base-and-rag.md
company research, due diligencereferences/workflows/company-research.md

If no Actor matches in the index, search dynamically:

apify actors search "KEYWORDS" --user-agent apify-agent-skills/apify-ultimate-scraper --json --limit 10 2>/dev/null

From results: items[].username/items[].name (Actor ID), items[].title, items[].stats.totalUsers30Days, items[].currentPricingInfo.pricingModel.

Step 2: Fetch Actor schema and check gotchas

Fetch the input schema dynamically:

apify actors info "ACTOR_ID" --user-agent apify-agent-skills/apify-ultimate-scraper --input --json 2>/dev/null

Also read references/gotchas.md to check for common pitfalls for the selected Actor.

For Actor documentation: apify actors info "ACTOR_ID" --user-agent apify-agent-skills/apify-ultimate-scraper --readme

Step 3: Configure and run

Skip user preferences for simple lookups (e.g., "Nike's follower count"). Go straight to running with quick answer mode.

For larger tasks, confirm output format (quick answer / CSV / JSON) and result count.

Standard run (blocking):

apify actors call "ACTOR_ID" --input-file input.json --user-agent apify-agent-skills/apify-ultimate-scraper --json 2>/dev/null

Prefer --input-file input.json for large or complex inputs. For tiny inputs, inline JSON is acceptable with shell quoting: --input '{"maxItems":10}'.

From output: .id (run ID), .status, .defaultDatasetId, .stats.durationMillis

Fetch results:

apify datasets get-items DATASET_ID --user-agent apify-agent-skills/apify-ultimate-scraper --format json

For CSV: apify datasets get-items DATASET_ID --user-agent apify-agent-skills/apify-ultimate-scraper --format csv

Quick answer mode: Fetch results as JSON, pick top 5, present formatted in chat.

Save to file: Fetch results, use Write tool to save as YYYY-MM-DD_descriptive-name.csv or .json.

Large/long-running scrapes:

apify actors start "ACTOR_ID" --input-file input.json --user-agent apify-agent-skills/apify-ultimate-scraper --json 2>/dev/null

Poll: apify runs info RUN_ID --user-agent apify-agent-skills/apify-ultimate-scraper --json 2>/dev/null (check .status for SUCCEEDED).

Step 4: Deliver results

Report: result count, file location (if saved), key data fields, and links:

  • Dataset: https://console.apify.com/storage/datasets/DATASET_ID
  • Run: https://console.apify.com/actors/runs/RUN_ID

For multi-step workflows: suggest the next pipeline step from the workflow guide.

Troubleshooting

Common errors and pitfalls are documented in references/gotchas.md. Read it before running PPE (pay-per-event) Actors.

Thêm skills từ apify

bug-triage
apify
Phân loại các vấn đề lỗi đang mở trên apify/apify-mcp-server. Phân tích, soạn phản hồi, xin phê duyệt, đăng tải.
official
dig
apify
Kỹ năng linh hoạt để khám phá, lập kế hoạch và xác định thông số công việc trên máy chủ Apify MCP. KHÔNG chỉnh sửa tệp nguồn — kỹ năng này chỉ dành cho việc hiểu và lập kế hoạch.
official
apify-actor-development
apify
Tạo, gỡ lỗi và triển khai các chương trình đám mây không máy chủ để thu thập dữ liệu web, tự động hóa và xử lý dữ liệu. Hỗ trợ các mẫu JavaScript, TypeScript và Python với các thư viện Crawlee, Playwright và Cheerio tích hợp cho việc thu thập dữ liệu qua HTTP và trình duyệt. Bao gồm kiểm thử cục bộ qua apify run với bộ nhớ cách ly, xác thực lược đồ cho đầu vào/đầu ra và triển khai lên nền tảng Apify qua apify push. Yêu cầu xác thực Apify CLI và siêu dữ liệu generatedBy bắt buộc trong .actor/actor.json cho AI...
official
apify-actorization
apify
Chuyển đổi các dự án hiện có thành Apify Actors không máy chủ với tích hợp SDK theo ngôn ngữ cụ thể. Hỗ trợ JavaScript/TypeScript (với Actor.init() / Actor.exit()), Python (trình quản lý ngữ cảnh bất đồng bộ) và bất kỳ ngôn ngữ nào thông qua trình bao bọc CLI. Cung cấp quy trình làm việc có cấu trúc: apify init để tạo khung, áp dụng bao bọc SDK, cấu hình lược đồ đầu vào/đầu ra, kiểm thử cục bộ với apify run, sau đó triển khai với apify push. Bao gồm xác thực lược đồ đầu vào và đầu ra, đóng gói Docker và tùy chọn thanh toán theo sự kiện...
official
apify-audience-analysis
apify
Trích xuất nhân khẩu học đối tượng, mô hình tương tác và dữ liệu hành vi từ Facebook, Instagram, YouTube và TikTok. Hỗ trợ hơn 18 Actor chuyên biệt bao gồm nhân khẩu học người theo dõi, chỉ số tương tác, bình luận và phân tích hồ sơ trên cả bốn nền tảng. Cung cấp ba định dạng đầu ra: hiển thị trò chuyện nhanh, xuất CSV hoặc xuất JSON để phân tích tiếp theo. Yêu cầu mã thông báo Apify và công cụ CLI mcpc; sử dụng tính năng lấy lược đồ động để điều chỉnh đầu vào theo yêu cầu của từng Actor. Bao gồm cấu trúc...
official
apify-brand-reputation-monitoring
apify
Giám sát danh tiếng thương hiệu trên Google Maps, Booking.com, TripAdvisor, Facebook, Instagram, YouTube và TikTok. Hỗ trợ hơn 16 Apify Actor chuyên dụng bao gồm đánh giá, xếp hạng, bình luận và đề cập trên tất cả các nền tảng chính. Định dạng đầu ra linh hoạt: hiển thị kết quả trong chat, xuất ra CSV hoặc lưu dưới dạng JSON để phân tích tiếp theo. Yêu cầu mã thông báo Apify và Node.js 20.6+; sử dụng CLI mcpc để tự động tìm nạp lược đồ Actor và tham số đầu vào. Quy trình làm việc hướng dẫn người dùng chọn nền tảng,...
official
apify-competitor-intelligence
apify
Phân tích đối thủ đa nền tảng qua Apify Actors cho Google Maps, Booking.com, Facebook, Instagram, YouTube và TikTok. Bao gồm hơn 25 Actors chuyên biệt trên bảy nền tảng, mỗi Actor được tối ưu hóa cho các loại phân tích cụ thể: trích xuất dữ liệu doanh nghiệp, so sánh đánh giá, giám sát chiến lược quảng cáo, hiệu suất nội dung và thông tin chi tiết về khán giả. Yêu cầu token Apify, Node.js 20.6+ và công cụ CLI mcpc để tìm nạp lược đồ Actor và chạy phân tích động. Hỗ trợ ba định dạng đầu ra: hiển thị chat nhanh,...
official
apify-content-analytics
apify
Phân tích nội dung đa nền tảng qua Apify Actors cho Instagram, Facebook, YouTube và TikTok. Hỗ trợ hơn 17 Actor chuyên biệt bao gồm bài đăng, reel, story, bình luận, hashtag, người theo dõi và quảng cáo trên cả bốn nền tảng. Tự động lấy lược đồ Actor bằng mcpc CLI để xác định đầu vào cần thiết và trường đầu ra khả dụng. Xuất kết quả dưới ba định dạng: hiển thị nhanh trong chat, xuất CSV hoặc xuất JSON với số lượng kết quả tùy chỉnh. Yêu cầu token Apify trong tệp .env và Node.js 20.6+...
official