Sonny Sangha氏のYouTubeチャンネル「Sonny Sangha」のポッドキャストでは、OxylabsのプロダクトオーナーであるAlexandras氏が、ウェブスクレイピングとデータ収集の未来について語っています。
- Oxylabsの概要と歴史
- Oxylabsは2015年に設立され、ヨーロッパで最も急成長しているウェブスクレイピングソリューションプロバイダーです。
- 当初はデータセンタープロキシプロバイダーとして始まり、長年にわたり住宅用プロキシ、スクレイパーAPIシステム、そして最近では既成のデータセットを提供する総合的なウェブデータ収集ソリューション企業へと成長しました。これは、ユーザーがスクレイピング作業をより簡単に、より高いレベルの抽象化で実行できるようにするという「シンプルさの連鎖」を追求したものです。
- 彼らは、200カ国に1億以上のIPを持つ世界最大の倫理的なプロキシネットワークを保有しています。
- プロキシとは何か、そしてウェブスクレイピングにおけるその役割
- プロキシサーバーは、インターネットトラフィックを中継するサーバーであり、ウェブサイトがリクエストを行うユーザーの実際のIPアドレスではなく、プロキシのIPアドレスを見るようにします。
- ウェブスクレイピングにおいては、単一のIPアドレスからの大量のリクエストがウェブサイトにブロックされるのを避けるために、何百、何千ものプロキシIPにリクエストを分散させ、あたかも多数の異なるユーザーがアクセスしているかのように見せかけます。これは、「リアルユーザーが異なる方向からアクセスしているのを模倣する」ことであり、ウェブスクレイピングを行っている単一の主体を特定されにくくします。
- 倫理と法的側面
- Oxylabsは、「完全なホワイトハッター」として、合法的に、倫理的に行動することを重視しています。
- 住宅用プロキシのIPは、インターネットトラフィックの共有に明示的に同意し、そのサービスに対して報酬を受け取っている一般の人々から供給されています。
- 顧客がプロキシを善良な目的で使用することを保証するため、厳格なKYC(顧客確認)プロセスを実施しています。
- HTTPSプロトコルの特性上、顧客がサービスで何をしているか詳細な情報を見ることはできませんが、アクセス先のドメインレベルで監視し、悪用される可能性のあるウェブサイトへのアクセスを制限しています。
- 彼らは「非公開のウェブデータのスクレイピングは一切行わない」という明確な一線を引いており、ログインが必要なサイトや個人データを保持するサイトからはデータを収集しません。法的枠組みはまだ発展途上であると認識しつつも、合法的な利用事例に基づいて行動しています。
- 成長と差別化の要因
- Oxylabsの成長は、顧客からのフィードバックに耳を傾け、顧客が本当に必要とするものを構築することに強く基づいています。
- 競合が多い市場において、R&Dに多額の投資を行い、独自の知的財産を構築し、特許を取得することで差別化を図っています。
- パンデミック中のビジネスのデジタル化の加速も、彼らのサービスの需要増加に繋がりました。
- エンタープライズ顧客への対応では、サービス安定性と大量の要求に対応できるインフラのスケーリング能力が重要であり、ISO認証を取得することで信頼できるパートナーであることを示しています。
- AIによるウェブスクレイピングの革新:Oxy Copilot
- Oxylabsは、ChatGPTのような生成AI(GenAI)ブーム以前から機械学習を導入していました。
- AIとウェブスクレイピングは、「正のフィードバックループ」の関係にあります。大規模言語モデル(LLMs)はトレーニングにスクレイピングされたデータを使用し、その結果、スクレイピングをより簡単にするモデルが構築されます。
- Oxy Copilotは、ウェブスクレイピングプロセスを大幅に簡素化するためにAIを活用した新しいツールです。
- 従来のLLMが生成するスクレイピングコードは、アンチボット対策などを克服するためのトレーニングデータが不足しているため、実用性に欠けます。また、HTMLごとにLLM APIを使用すると非常に高価で遅いという問題があります。
- Oxy Copilotは、ユーザーがURLと抽出したいデータポイントを自然言語で説明すると、統合コードを生成します。このコードはOxylabsのAPIと連携し、生成された解析ロジックを使用して、高速かつ効率的に構造化データ(価格、タイトル、説明など)を返します。
- これにより、プログラミングの知識が少ないユーザーでも、複雑なウェブサイトから簡単に構造化データを取得できるようになります。例えば、Amazonのようにレイアウトが頻繁に変わるサイトでも、手動でのパーシング作業を大幅に削減できます。
- ウェブスクレイピングとクローリングの違い
- スクレイピングは、単一のHTTPリクエストでウェブページから情報を取得する単一の操作を指します。
- クローリングは、ウェブサイト内のリンクを辿ってページ間を移動し、新しいリンクを見つけて次々とHTMLを開いていくプロセスで、複数のスクレイピング操作で構成されます。
- 課題と解決策
- プロキシのブロックに対しては、データセンタープロキシの継続的な調達プロセスを行い、ブロックされたIPを新しいものと交換しています。住宅用プロキシについては、そもそものIPプールが非常に大きいため、ブロックの問題は少ないです。
- エンジニアリングの人材プールの限界に直面しているため、GenAIツールを最大限に活用して効率を高め、成長を継続しようとしています。
- 業界とユースケース
- ウェブスクレイピングは、Eコマース、サイバーセキュリティ、デジタルマーケティング、旅行、SEOなど、多岐にわたる業界で利用されています。
- ウェブサイトの稼働状況確認など、データの抽出以外の予期せぬユースケースにも活用されています。
- 未来の展望
- Oxy Copilotのさらなる発展に注力し、セルフヒーリングパーシングや他のAPIエンドポイントとの統合を目指しています。
- 目標は、顧客がシステムの仕組みを詳細に知らなくても、最小限の摩擦で最終結果に到達できるようにすることです。
これはまるで、あなたが未知の森の奥深くにある貴重な薬草を探している時に、Oxy Copilotという賢いガイドが、どの道を行けばよいか(どのURLにアクセスするか)を教えるだけでなく、どんな薬草(データポイント)がどこにあるか、そしてそれをどのように集めて薬(構造化データ)にすればよいかを、あなたが複雑な薬草学の知識を持っていなくても、自然な言葉で指示するだけで教えてくれるようなものです。そしてそのガイドは、Oxylabsという信頼できる大きな探検隊に支えられており、安全で倫理的な方法で、どんな困難な地形(ウェブサイトの複雑さ)も乗り越え、大量の薬草を効率的に収集するためのネットワーク(プロキシ)と道具(API)を提供してくれるのです。