AI NOTE — 068

Google Workspace DLPの誤検知をAIで削減!「機密情報タイプ」検出器で運用負荷を下げる設定手順

Google Workspaceのデータ損失防止(DLP)機能において、機械学習を活用した「機密情報タイプ」検出器が提供されています。これにより、従来の正規表現(特定のパターンを持つ文字列を検出するための記述方法)ベースの検出器で発生しやすかった誤検知を削減し、より精度の高い機密情報検出とDLP運用の効率化が期待できます。

この記事を読んだほうが良い人

  • Google Workspace DLPを導入済みだが、誤検知が多くアラート対応に追われている情シス担当者
  • 正規表現ベースのカスタム検出器のメンテナンスに限界を感じている担当者
  • AIを活用したDLP機能に興味があり、具体的な設定手順を知りたい担当者
  • DLP運用における誤検知削減と効果測定の方法を模索している担当者

Google Workspace DLPの誤検知、なぜ発生するのか?

Google WorkspaceのDLPは、情報漏洩リスクを低減するための重要な機能です。しかし、導入後に多くの情シス担当者が直面するのが「誤検知の多発」という課題です。特に、従来のDLPルールで多用されてきた正規表現ベースのカスタムコンテンツ検出器には、以下のような限界があります。

  • コンテキストの欠如: 正規表現は文字列のパターンマッチングに優れますが、その文字列がどのような文脈で使われているかを判断できません。「電話番号」の正規表現を設定しても、それが単なる数字の羅列なのか、実際に連絡先情報として機能しているのかを区別するのは困難です。
  • メンテナンスコスト: 業務内容や扱うデータが変化するたびに、正規表現を調整・追加する必要があります。これは専門知識と手間を要し、運用負荷を高めます。
  • 過剰な検知: 特定のキーワードやパターンに反応しすぎることで、機密情報ではない通常の業務メールやドキュメントまでDLPアラートの対象となり、ユーザーの業務を妨げたり、情シスの確認作業を増大させたりします。

これらの課題により、DLPアラートの信頼性が低下し、本来対応すべき重大なインシデントを見落とすリスクや、DLP機能そのものが形骸化する恐れがあります。

AIを活用した「機密情報タイプ」検出器とは

Google Workspace DLPの「機密情報タイプ」検出器は、機械学習(AI)の力を活用して、より高度な機密情報検出を実現する機能です。これは従来の正規表現ベースのカスタムコンテンツ検出器と異なり、単なるパターンマッチングだけでなく、コンテンツの文脈を理解して機密情報を識別する能力を持ちます。

従来の検出器との違い

従来の正規表現検出器が「指定されたパターンに合致するか」を厳密に判断するのに対し、AIベースの機密情報タイプ検出器は「この情報が、特定の機密情報タイプに属する可能性が高いか」を判断します。これにより、以下のようなメリットが生まれます。

  • コンテキスト理解: AIは、単一の単語や数字だけでなく、その周辺の単語、文章構造、ファイルの種類など、複数の要素を総合的に判断して機密性を評価します。例えば、単なる16桁の数字ではなく、それがクレジットカード番号のフォーマットに合致し、かつ「カード番号」「有効期限」といった周辺キーワードがあれば、より高精度にクレジットカード番号と判断します。
  • 誤検知の削減: 文脈を理解することで、正規表現では避けられなかった誤検知を大幅に削減できます。例えば、社員番号のような内部コードが、意図せず個人情報として扱われるようなケースを減らせます。
  • 検出の網羅性: 厳密な正規表現では拾いきれない、わずかに異なる表現や表記ゆれもAIが柔軟に検知できます。

公式が提供する機密情報タイプ

Google Workspaceには、クレジットカード番号、社会保障番号(SSN)、パスポート番号、医療情報(PHI)など、世界中のさまざまな国の一般的な機密情報タイプが標準で用意されています。これらのタイプは、Googleの継続的なAI学習によって精度が向上しており、情シスが個別に正規表現をメンテナンスする手間を大幅に削減できます。

正規表現検出器とAI機密情報タイプ検出器の比較

両者にはそれぞれ得意な領域があり、適切に使い分けることが重要です。

検出器の種類 AI機密情報タイプ検出器 正規表現カスタム検出器
検出ロジック 機械学習による文脈理解とパターン認識 厳密な文字列パターンマッチング
得意な対象 クレジットカード番号、個人識別情報など、定義が明確で文脈依存性の高い機密情報 社内固有のコード、特定のキーワード、厳密なフォーマットが必須のデータ
誤検知率 低い傾向(文脈判断により) 高い傾向(パターンマッチングのみ)
運用負荷 低い(Googleが学習・更新) 高い(正規表現の作成・メンテナンスが必要)
検出精度 高い(文脈による判断) 高い(パターンに完全一致する場合)
推奨される利用シーン まずAI検出器で広範囲をカバーし、誤検知を減らしたい場合 AI検出器でカバーできない社内固有の機密情報を補完する場合

まずはAI機密情報タイプ検出器でDLPルールを構築し、それでも検知漏れや特定の要件がある場合にのみ、正規表現カスタム検出器を追加・調整するというアプローチが効率的です。

AI機密情報タイプ検出器への移行・設定手順

ここでは、既存のDLPルールをAI機密情報タイプ検出器に切り替える、または新規作成する手順を解説します。

1. 管理コンソールでDLPルールを作成または編集する

  1. Google 管理コンソールにアクセスします。
  2. 左側のメニューで [セキュリティ] > [データ保護] に移動します。
  3. 既存のDLPルールを編集する場合は、対象のルールを選択し、[ルールを編集] をクリックします。新規作成する場合は、[ルールを追加] をクリックします。
  4. ルール名や説明を入力し、[次へ] をクリックします。

2. 「機密情報タイプ」の選択と調整

  1. [コンテンツの条件を追加] セクションで、[機密情報タイプ] を選択します。
  2. [追加する機密情報タイプ] のプルダウンから、検出したい機密情報タイプを選択します。例えば、「クレジットカード番号」や「日本のマイナンバー」などです。
  3. 選択した機密情報タイプごとに、[確信度][一致の数] を調整します。
    • 確信度: 「低」「中」「高」の3段階で設定できます。「高」に設定すると、より厳密な文脈判断が求められるため、誤検知がさらに減る傾向があります。最初は「中」から始め、運用状況に応じて調整するのが適切です。
    • 一致の数: 検出すべき機密情報タイプの最小一致数を指定します。例えば、1つのドキュメント内にクレジットカード番号が5つ以上含まれる場合にのみ検知するといった設定が可能です。
  4. 必要に応じて、[除外するコンテンツの条件] を設定します。例えば、特定のドメインからのメールや、特定の部署が作成したドキュメントはDLPの対象外とする、といった設定が可能です。これにより、さらに誤検知を減らせます。
  5. [次へ] をクリックし、アクション(ブロック、警告など)や通知設定を行い、ルールを保存します。

この手順で、AIベースの機密情報タイプ検出器を活用したDLPルールを有効にできます。

誤検知をさらに削減するチューニングサイクル

DLPルールは一度設定したら終わりではありません。継続的なチューニングが誤検知削減と検出精度向上には不可欠です。

1. アラートログの確認と分析

DLPルール適用後、定期的に管理コンソールのDLPアラートログを確認します。 [レポート] > [DLPイベント] から、発生したDLPイベントの詳細を確認できます。ここで、誤検知と思われるアラートの傾向を分析します。

  • どのような機密情報タイプで誤検知が多いか?
  • どのような状況(送信先、ファイルの種類、ユーザーなど)で誤検知が多いか?
  • 誤検知と判断した理由は何か?

2. 検出レベルの調整(確信度)

誤検知が多い機密情報タイプに対しては、DLPルールの編集画面に戻り、[確信度] を「高」に上げてみましょう。これにより、AIの判断基準が厳しくなり、誤検知が減る可能性があります。ただし、検知漏れが増えるリスクもあるため、バランスを見ながら調整が必要です。

3. 除外条件の活用

特定の部署や業務で、どうしてもDLPの対象外としたいデータがある場合は、[除外するコンテンツの条件] を活用します。 例えば、開発部門がテストデータとして機密情報に似たデータを扱う場合、その部署のアカウントや特定のドライブをDLPの対象から除外することで、業務を妨げずに運用できます。

4. カスタム検出器との組み合わせ(必要な場合)

AI機密情報タイプ検出器では拾いきれない、ごく特定の社内コードや特殊な情報がある場合は、補完的に正規表現カスタム検出器を併用することも検討します。ただし、この場合も正規表現は最小限に留め、メンテナンスコストを意識することが重要です。

監査ログでDLPの効果を測定する

DLPの導入効果は、単にアラート数を見るだけでなく、そのアラートが「正しい検知(正検知)」だったのか、「誤検知」だったのかを区別して評価することが重要です。

1. レポート機能の活用

Google 管理コンソールには、DLPのレポート機能が充実しています。 [レポート] > [DLPイベント][レポート] > [監査ログ] > [管理者の監査ログ] を活用し、DLPアラートの発生状況を定期的に確認します。

  • イベントの内訳: どのルールが、どの機密情報タイプを、どの程度検知したかを把握します。
  • ユーザーアクティビティ: 誰がどのような操作でDLPアラートを発生させたかを確認し、必要に応じてユーザーへの教育や注意喚起を行います。

2. 誤検知・正検知の傾向分析

月に一度など、定期的にDLPイベントをレビューし、以下の項目を分析します。

  • 誤検知率の推移: チューニングによって誤検知が実際に減っているかを確認します。
  • 正検知の重要度: 実際に情報漏洩リスクがあったと判断されたケース(正検知)がどれくらいあり、それがどの程度の重要度だったかを評価します。
  • ルール調整の必要性: 分析結果に基づき、既存ルールの確信度や除外条件の変更、あるいは新しい機密情報タイプの追加が必要かを判断します。

このサイクルを回すことで、DLPを「ただ導入する」だけでなく、「効果的に運用し、組織のセキュリティレベルを継続的に向上させる」ツールとして活用できます。

まとめ:DLP運用を「守り」から「攻め」へ

Google Workspace DLPの「機密情報タイプ」検出器は、機械学習の力を活用することで、従来の正規表現ベースの検出器が抱えていた誤検知多発の課題を解決する強力なツールです。文脈を理解するAIの特性を活かすことで、情シス担当者はアラート対応に追われる「守り」の運用から、より本質的な情報セキュリティ強化に注力できる「攻め」の運用へとシフトできます。

本記事で解説した設定手順やチューニングサイクル、効果測定の方法を参考に、ぜひ貴社のDLP運用を最適化してください。高精度なDLPは、従業員の生産性を阻害することなく、組織全体の情報セキュリティレベルを高める上で不可欠な要素です。

コーポレートITのご相談はお気軽に

この記事で書いたような業務改善・自動化の設計から実装まで、DRASENASではコーポレートITの現場に寄り添った支援を行っています。 「まず相談だけ」でも大歓迎です。DRASENAS 公式サイトからお気軽にどうぞ。

CONTACT

御社の IT 部門、ここにあります。

「ITのことはあまりわからない」── そのような状態からで、まったく問題ございません。まずはお気軽にご相談ください。

一社ずつ、一から。