Google Workspace DLPのカスタムコンテンツ検出器で機密情報を精密に検出する：正規表現設定の実践ガイド

Google Workspaceのデータ損失防止 (DLP) 機能において、カスタムコンテンツ検出器が2024年5月に機能強化されました。これにより、正規表現を用いて自社独自の機密情報をより精密に検出できるようになり、情報漏洩対策の実効性を高めることが可能です。

この記事を読んだほうが良い人

Google Workspace Enterprise Plusエディションを利用している情シス担当者
標準のDLP検出器では自社の顧客番号、社員コード、業種固有フォーマットの機密情報を検出できず困っている方
DLPポリシーの実効性を高めるために、カスタム検出器の正規表現設定方法を知りたい方
情報漏洩リスクを低減するための具体的なDLP設定手順を求めている方

Google Workspace DLPとカスタムコンテンツ検出器の役割

Google Workspaceのデータ損失防止 (DLP) は、機密情報が組織外に誤って共有されたり、意図せず漏洩したりするのを防ぐための機能です。例えば、社外へのGmail送信やGoogleドライブでのファイル共有時に、特定のキーワードやパターンが含まれる場合にアラートを出す、共有をブロックするといった制御ができます。

DLPには、クレジットカード番号や社会保障番号など、一般的に広く使われる機密情報を検出するための事前定義済み検出器が多数用意されています。しかし、多くの企業では、自社独自の顧客番号、社員コード、プロジェクトID、製品シリアル番号といった、標準の検出器では対応できない固有の機密情報を扱っています。

このような場合に必要となるのが、カスタムコンテンツ検出器です。カスタムコンテンツ検出器を使用すると、正規表現やキーワードリストを組み合わせて、自社独自の機密情報のパターンを定義し、DLPポリシーに組み込むことができます。これにより、標準の検出器では網羅できない「穴」を埋め、DLPポリシーの実効性を大幅に向上させることが可能です。

対応エディション

カスタムコンテンツ検出器は、以下のGoogle Workspaceエディションで利用できます。

Enterprise Plus
Education Standard
Education Plus
Drive and Data Loss Prevention (DLP) アドオンサブスクリプション

自社で利用しているエディションを確認し、上記のいずれかに該当するかを確認してください。

カスタムコンテンツ検出器の正規表現設計：実務での考え方

カスタムコンテンツ検出器の核となるのが、機密情報のパターンを定義する正規表現です。実務で正規表現を設計する際には、以下の点を考慮することが重要です。

検出対象の特定: どのような情報（社員番号、顧客番号、製品コードなど）を検出したいのかを具体的に特定します。
フォーマットの明確化: 特定した情報の具体的なフォーマット（例: 英字2桁＋数字4桁、CUS-数字5桁など）を明確にします。これにより、正規表現の精度が高まります。
過検出と未検出のリスク:
- 過検出: 関係ない文字列まで検出してしまうリスク。正規表現が緩すぎると発生します。
- 未検出: 検出したい文字列を検出できないリスク。正規表現が厳しすぎたり、パターンを網羅できていない場合に発生します。これらのバランスを取りながら、最適な正規表現を設計することが求められます。
近接性の考慮: 機密情報が単独で出現するだけでなく、特定のキーワード（例: 「社員番号: [社員番号]」）と組み合わせて出現する場合を考慮し、「近接性」の設定を検討します。

正規表現の基本要素

正規表現は、特定の文字列パターンを表現するための強力なツールです。基本的な要素をいくつか紹介します。

. (ドット): 任意の一文字
\d: 任意の数字 (0-9)
\w: 任意の単語文字 (英数字とアンダースコア)
[A-Z]: AからZまでの任意の一文字
[0-9]: 0から9までの任意の一文字 ( \d と同じ)
{n}: 直前の文字またはグループがn回繰り返される
{n,m}: 直前の文字またはグループがn回以上m回以下繰り返される
+: 直前の文字またはグループが1回以上繰り返される
*: 直前の文字またはグループが0回以上繰り返される
?: 直前の文字またはグループが0回または1回出現する
|: OR条件 (例: (apple|orange))

これらの要素を組み合わせて、検出したい機密情報のパターンを正確に表現します。

管理コンソールでのカスタムコンテンツ検出器設定手順

Google Workspace管理コンソールでカスタムコンテンツ検出器を設定する具体的な手順を説明します。

管理コンソールにアクセス: Google Workspace管理者アカウントで管理コンソールにログインします。
DLP設定画面へ移動:
- 左側のナビゲーションメニューから「セキュリティ」>「アクセスとデータ管理」>「データ保護」を選択します。
- 表示された画面で「カスタムコンテンツ検出器」タブをクリックします。
新しい検出器を作成:
- 「検出器を追加」または「検出器を作成」ボタンをクリックします。
- 「新しいカスタムコンテンツ検出器を作成」画面が表示されます。
検出器の基本情報を入力:
- 名前: 検出器の分かりやすい名前を入力します（例: 「自社社員番号検出器」）。
- 説明: 検出器の目的や対象となる情報について詳細を記述します。
正規表現を設定:
- 「正規表現」セクションで、「正規表現を追加」をクリックします。
- 「正規表現」フィールドに、検出したい機密情報のパターンを表す正規表現を入力します。
- 信頼度: 検出されたパターンがどの程度の確信度で機密情報であると判断するかを設定します。通常は「高」を選択しますが、過検出が多い場合は「中」や「低」も検討します。
- 最小出現回数 / 最大出現回数: 同じパターンがドキュメントやメール内で何回出現した場合に検出するかを指定します。例えば、社員番号が複数回記載されている場合にのみ検出したい場合などに利用します。過検出を減らすために、最小出現回数を2以上にするなどの調整が有効です。
- 「追加」をクリックして正規表現を保存します。
（オプション）キーワードリストの追加:
- 正規表現と組み合わせて、特定のキーワードが近くに出現する場合にのみ検出したい場合は、「キーワードリスト」セクションでキーワードリストを追加します。例えば、社員番号の正規表現と「社員番号」「従業員ID」といったキーワードを組み合わせることで、検出精度を高めることができます。
- 「近接性」を設定することで、正規表現パターンとキーワードがどれだけ近くにある場合に検出するかを指定できます。
検出器の保存:
- すべての設定が完了したら、「作成」ボタンをクリックして検出器を保存します。

正規表現コードサンプル

実務で役立つ社員番号と顧客番号の正規表現サンプルを以下に示します。これらはあくまで一例であり、自社のフォーマットに合わせて調整してください。

社員番号の例

フォーマット例: 英字2桁 + ハイフン + 数字5桁 (例: AB-12345)

\b[A-Z]{2}-\d{5}\b

\b: 単語境界。これにより「ABC-12345」のような文字列の一部ではなく、完全に一致するパターンを検出します。
[A-Z]{2}: 大文字の英字が2回出現。
-: ハイフン。
\d{5}: 数字が5回出現。

フォーマット例: 英字1桁 + 数字6桁 (例: A123456)

\b[A-Z]\d{6}\b

[A-Z]: 大文字の英字が1回出現。
\d{6}: 数字が6回出現。

顧客番号の例

フォーマット例: CUS- + 数字5桁 (例: CUS-00001)

\bCUS-\d{5}\b

CUS-: 固定の文字列。
\d{5}: 数字が5回出現。

フォーマット例: 数字8桁 (例: 12345678)

\b\d{8}\b

\d{8}: 数字が8回出現。

これらの正規表現は、単語境界 \b を使用することで、より正確な検出を目指しています。

検出器のテストとチューニング

カスタムコンテンツ検出器を有効にする前に、必ずテストを実施し、意図した通りに動作するかを確認することが重要です。

DLPポリシーの作成: 作成したカスタムコンテンツ検出器を適用するためのDLPポリシーを作成します。
- 管理コンソール > セキュリティ > アクセスとデータ管理 > データ保護 > 「DLPポリシー」タブ
- 「ポリシーを追加」をクリックし、検出器を適用する範囲（Googleドライブ、Gmailなど）とアクション（ブロック、警告など）を設定します。
- 「コンテンツ検出器」のセクションで、作成したカスタムコンテンツ検出器を選択します。
- 最初は「アラートのみ」や「テストモード」で運用し、影響範囲を確認することをおすすめします。
テストファイルの作成: 実際に検出したい機密情報パターンを含むテストファイル（Googleドキュメント、スプレッドシート、Gmailのドラフトなど）を作成します。
テストの実行:
- テストファイルを意図的にポリシーに違反するように共有または送信を試みます。
- DLPポリシーが設定されているサービス（Googleドライブでの共有、Gmailでの送信など）で動作を確認します。
検出ログの確認:
- 管理コンソール > レポート > 監査と調査 > DLP監査ログにて、検出されたイベントのログを確認します。
- 意図通りに検出されているか、過検出や未検出がないかをチェックします。
チューニング:
- 過検出が多い場合は、正規表現をより厳密にする、最小出現回数を増やす、信頼度を下げるなどの調整を行います。
- 未検出が多い場合は、正規表現がパターンを網羅しているか見直す、キーワードリストを追加する、信頼度を上げるなどの調整を行います。

このテストとチューニングのサイクルを繰り返すことで、DLPポリシーの実効性を高め、情報漏洩リスクを最小限に抑えることができます。

カスタムコンテンツ検出器活用の制約と注意点

カスタムコンテンツ検出器は強力なツールですが、いくつか制約と注意点があります。

正規表現の複雑さ: あまりに複雑な正規表現は、DLPエンジンのパフォーマンスに影響を与える可能性があります。シンプルかつ効果的な正規表現を心がけましょう。
誤検出のリスク: 正規表現の設計によっては、意図しない情報まで検出してしまう「過検出」や、逆に検出したい情報を逃してしまう「未検出」が発生する可能性があります。継続的なテストとチューニングが不可欠です。
対応サービス: DLPはGoogleドライブ、Gmail、Google Chatなどの主要なサービスに対応していますが、すべてのGoogle Workspaceサービスで利用できるわけではありません。対象となるサービス範囲を理解しておく必要があります。
暗号化されたコンテンツ: クライアントサイド暗号化 (CSE) などで暗号化されたコンテンツは、DLPの検出対象外となる場合があります。
継続的なメンテナンス: 自社のコード体系やドキュメントフォーマットが変更された場合、それに合わせてカスタムコンテンツ検出器の正規表現も更新する必要があります。

これらの制約を理解した上で、DLPポリシー全体の一部としてカスタムコンテンツ検出器を効果的に活用することが重要です。

まとめ：自社に合わせたDLPで情報漏洩リスクを低減する

Google Workspaceのカスタムコンテンツ検出器は、標準のDLP機能ではカバーしきれない自社独自の機密情報を保護するための重要な機能です。正規表現を適切に設定し、テストとチューニングを繰り返すことで、情報漏洩リスクを大幅に低減し、より堅牢なセキュリティ体制を構築できます。

まず管理コンソールで既存のDLPポリシーと標準検出器のカバー範囲を確認し、自社固有フォーマット（社員番号・顧客番号・製品コードなど）に対応できていない箇所を洗い出すことが最初の一歩です。その穴を埋めるカスタム検出器の正規表現を設計し、テストモードで過検出・未検出を確認しながらチューニングする、という順序で進めると現場への影響を最小限に抑えながら導入できます。情報漏洩対策は一度設定すれば終わりではなく、コード体系や業務フォーマットの変更に合わせて定期的にメンテナンスする運用設計まで含めて計画することが重要です。

コーポレートITのご相談はお気軽に

この記事で書いたような業務改善・自動化の設計から実装まで、DRASENASではコーポレートITの現場に寄り添った支援を行っています。「まず相談だけ」でも大歓迎です。DRASENAS 公式サイトからお気軽にどうぞ。

CONTACT

御社の IT 部門、ここにあります。

「ITのことはあまりわからない」── そのような状態からで、まったく問題ございません。まずはお気軽にご相談ください。

無料相談を予約する → サービス詳細を見る

一社ずつ、一から。