この記事の要点
Gemini×データ整理|複雑な顧客・売上データの整形をAIで自動化
Geminiを活用して複雑なデータの整理・整形を自動化。重複データの統合、時系列の並べ替え、フォーマット統一など、手作業では時間のかかるデータクレンジングを効率化します。
はじめに
「顧客データが重複していて、同じ人が複数行に分かれている」「売上データの日付形式がバラバラで集計しづらい」「担当者によって入力ルールが違っていて、データが汚い」——日々の業務で蓄積されたデータを活用しようとした時、このような「データの整理」に頭を悩ませた経験はないでしょうか。
Excelの関数やスプレッドシートの機能を駆使すれば対応できる場合もありますが、複雑な条件での整理や、パターンが一定しないデータの処理は、手作業に頼らざるを得ないことも多くあります。そして手作業は、時間がかかる上にミスも発生しやすい作業です。
本記事では、Google Geminiを活用して、複雑なデータの整理・整形を自動化した事例をご紹介します。データをGeminiに渡して指示するだけで、重複の統合、フォーマット統一、時系列整理などが短時間で完了します。
この記事でわかること
- 複雑なデータ整理をAIで自動化する方法
- Geminiを使ったデータクレンジングの具体的な手順
- 顧客データ、売上データ、在庫データへの応用パターン
- ミスなく効率的にデータを整理するコツ
導入の背景と課題
企業プロフィール
データ管理の現状
同社では、創業以来15年分の顧客データと工事履歴をExcelで管理していました。長年にわたり複数の担当者が入力を行ってきた結果、データの「汚れ」が蓄積し、以下のような状態になっていました。
顧客データの問題例
↑ 同一人物が表記揺れにより3件に分散
直面していた課題
課題1:同一顧客の重複データ
同じ顧客が「山田太郎」「山田 太郎」「ヤマダタロウ」など異なる表記で登録されており、顧客ごとの工事履歴を正確に把握できない状態でした。DMを送ると同じ人に複数届いてしまうことも。
課題2:住所・電話番号のフォーマット不統一
住所は「東京都」の有無、番地の書き方(1-1-1 vs 1丁目1番1号)がバラバラ。電話番号もハイフンの有無、カッコ書きなど形式が統一されておらず、検索や照合に支障をきたしていました。
課題3:工事履歴の期間データが複雑
同じ顧客への複数回の工事が、契約日・工事開始日・完了日でバラバラに管理されており、「この顧客への工事履歴を時系列で見たい」という単純な要望に応えるのにも時間がかかっていました。
課題4:手作業での整理はミスが多い
一度、手作業で重複データの統合を試みましたが、800件のデータを一つずつ確認して統合する作業は膨大で、結局ミスも多く発生。途中で断念してしまいました。
課題による影響
- 正確な顧客数が把握できない(実質600件程度なのに800件と表示)
- リピート顧客の抽出に1件ずつ目視確認が必要
- DM発送で同一人物に複数送付(コスト増・信頼低下)
- データ分析による営業戦略立案ができない
Geminiを活用したデータ整理・整形
導入したソリューション
同社では、Google Geminiを活用して、これまで手作業では困難だったデータの整理・整形を自動化しました。Excelのデータをコピー&ペーストでGeminiに渡し、整理ルールを指示するだけで、クリーンなデータが出力されます。
システム構成
- 使用ツール:Google Gemini(無料版でも利用可能)
- 入力:Excelデータ(コピー&ペースト)
- 出力:整理済みデータ(CSV形式など)
- 対応データ量:1回あたり100〜200行程度(分割処理で大量データも対応可)
具体的な手順
Step 1:データの準備
整理したいデータをExcelやスプレッドシートで開き、ヘッダー行を含めてコピーします。
Step 2:Geminiにデータを貼り付け
Google Geminiを開き、コピーしたデータを貼り付けます。データの後に、整理ルールを指示します。
重複統合のプロンプト例
以下の顧客データを整理してください。
【整理ルール】
1. 同一人物と思われるデータを統合
- 氏名の表記揺れ(スペース有無、カタカナ/漢字)を考慮
- 住所が類似している場合も同一人物の可能性あり
- 電話番号が一致する場合は同一人物
2. フォーマットの統一
- 氏名:姓名の間にスペースなし(例:山田太郎)
- 電話番号:ハイフン区切り(例:03-1234-5678)
- 住所:都道府県から記載、番地はハイフン区切り
3. 出力形式
- CSV形式で出力
- 統合した場合は、最新の情報を採用
- 統合元のデータは「統合元ID」列に記録
【データ】
No.,顧客名,住所,電話番号
1,山田太郎,東京都新宿区西新宿1-1-1,03-1234-5678
2,山田 太郎,新宿区西新宿1丁目1番1号,03(1234)5678
3,ヤマダタロウ,東京都新宿区西新宿1-1-1,0312345678
...
Step 3:整理済みデータを取得
Geminiが整理ルールに従ってデータを処理し、クリーンなデータを出力します。
Geminiの出力例
【整理結果】
統合No.,顧客名,住所,電話番号,統合元ID
1,山田太郎,東京都新宿区西新宿1-1-1,03-1234-5678,"1,2,3"
【処理サマリー】
- 処理前データ数:3件
- 処理後データ数:1件
- 統合件数:3件 → 1件に統合
- 統合理由:氏名の表記揺れ、電話番号一致、住所類似
Step 4:複数の整理タスクを組み合わせる
重複統合に加えて、時系列整理やカテゴリ分類なども依頼できます。
時系列整理のプロンプト例
以下の工事履歴データを整理してください。
【整理ルール】
1. 顧客ごとにグループ化
2. 各顧客内で工事日の古い順にソート
3. 連続する期間(完了日と次の開始日が近い)は一連の工事として統合
4. 顧客ごとの工事回数と総額を集計
【データ】
顧客名,工事内容,開始日,完了日,金額
山田太郎,屋根修理,2023-03-15,2023-03-20,150000
山田太郎,外壁塗装,2023-08-01,2023-08-10,450000
田中花子,キッチンリフォーム,2023-05-01,2023-05-15,800000
...
時系列整理の出力例
【顧客別工事履歴】
■ 山田太郎(工事回数:2回、累計:600,000円)
1. 2023-03-15〜03-20:屋根修理(150,000円)
2. 2023-08-01〜08-10:外壁塗装(450,000円)
■ 田中花子(工事回数:1回、累計:800,000円)
1. 2023-05-01〜05-15:キッチンリフォーム(800,000円)
【全体サマリー】
- 総顧客数:2名
- 総工事件数:3件
- 総売上:1,400,000円
導入効果と成果
定量的な効果
Before / After 比較
定性的な効果
正確な顧客数の把握
重複を統合した結果、実際の顧客数は600件であることが判明。「800件の顧客がいる」という認識を改め、正確なデータに基づいた経営判断ができるようになりました。
リピート顧客の可視化
顧客ごとの工事履歴が正確に紐付けられたことで、「過去3年で2回以上工事をしてくれたリピート顧客」の抽出が簡単にできるようになりました。リピート促進施策の対象を明確に絞り込めます。
DM発送コストの削減
重複送付がなくなり、DM発送コストが約25%削減。また、「同じ人に何通も届く」という顧客からのクレームもなくなり、信頼性が向上しました。
データ活用への意識変化
「データは汚いから使えない」と諦めていた状態から、「AIで整理すれば活用できる」という前向きな意識に変化。定期的なデータメンテナンスを行う習慣ができました。
「15年分の汚れたデータを整理するなんて、以前は考えられませんでした。手作業で試したときは3日かかって途中で断念。Geminiを使ったら1時間足らずで終わって、正直驚きました。これでようやくデータを活用した営業ができます」
— 営業部 マネージャー
データ整理の応用パターン
顧客データ以外にも、様々なデータ整理に応用できます。
📦 在庫データの整理
課題:商品名の表記揺れ(「Tシャツ白M」「白Tシャツ Mサイズ」など)で在庫数が正確に把握できない
解決:AIが商品名を正規化し、同一商品の在庫を統合。正確な在庫数を算出
💰 売上データの集計
課題:日付形式のばらつき、商品カテゴリの不統一で集計に時間がかかる
解決:日付フォーマットを統一、カテゴリを自動判定して正確な売上分析を実現
📇 名刺データの整理
課題:名刺管理アプリからエクスポートしたデータの表記揺れ、重複登録
解決:同一人物の重複を検出・統合し、連絡先リストをクリーンに整理
📅 勤怠データの整理
課題:手書きタイムカードをExcelに転記したデータの入力ミス、形式不統一
解決:時刻形式を統一、異常値(25時など)を検出してデータ品質を向上
📝 アンケート回答の整理
課題:自由記述のアンケート回答を分類・集計するのに時間がかかる
解決:AIが回答内容を分析し、カテゴリ分類と傾向分析を自動化
🏷️ 商品マスタの整備
課題:長年の運用で商品マスタに重複や不要データが蓄積
解決:類似商品の検出、廃番商品の特定、カテゴリ再整理を自動化
実践のコツ
データ準備のポイント
ヘッダー行を必ず含める
データをコピーする際は、列名(ヘッダー)を必ず含めてください。AIがデータの意味を正確に理解するために重要です。
適度なサイズに分割する
一度に処理するデータは100〜200行程度が推奨です。大量データは分割して処理し、最後に結合します。精度を保つために重要なポイントです。
機密情報の取り扱いに注意
個人情報や機密データを扱う場合は、社内のセキュリティポリシーを確認してください。必要に応じて、データを匿名化してから処理することも検討しましょう。
プロンプトのコツ
整理ルールを具体的に書く
「重複を削除」だけでなく、「氏名のスペース有無、カタカナ/漢字の違いを同一人物として統合」のように、具体的な判定基準を示すと精度が上がります。
出力形式を指定する
「CSV形式で出力」「表形式で出力」など、出力形式を指定すると、そのままExcelに貼り付けて使える形式で返ってきます。
処理サマリーを依頼する
「統合した件数と理由もあわせて出力してください」と依頼すると、何がどう変わったか確認できます。品質チェックに役立ちます。
よくあるQ&A
Q:数千件のデータも処理できますか?
分割処理すれば対応可能です。100〜200件ずつに分けて処理し、結果を結合します。分割の際は、同一人物が複数のバッチに分かれないよう、事前にソートしておくと良いでしょう。
Q:AIの判定は100%正確ですか?
高精度ですが、100%ではありません。特に微妙なケース(「山田太郎」と「山田太朗」は同一人物か?など)は、AIに「判定が難しいケースはリストアップして」と依頼し、最終的に人が確認することをおすすめします。
Q:Excelの関数より良いのですか?
ケースバイケースです。単純な変換(日付フォーマット統一など)はExcel関数の方が効率的な場合も。一方、「表記揺れを考慮して同一人物を判定」のような複雑な条件はAIの方が得意です。使い分けが重要です。
まとめ
本記事では、Geminiを活用して複雑なデータの整理・整形を自動化した事例をご紹介しました。
本記事のポイント
- 課題:長年蓄積されたデータの重複・フォーマット不統一で、データ活用ができない状態だった
- 解決策:GeminiにデータをコピペしてMK整理ルールを指示するだけで、クリーンなデータが出力される
- 効果:データ整理時間90%削減、重複200件を統合、整理ミスほぼゼロ
- 応用:顧客データ、在庫、売上、勤怠、アンケートなど様々なデータに適用可能
「データは汚いから使えない」と諦めていた方も、AIを活用すれば短時間でクリーンなデータに整理できます。まずは手元の小さなデータで試してみて、効果を実感してください。
AI活用による業務効率化のご相談
「うちのデータも整理したい」「他にもAIで効率化できる業務がないか知りたい」という方は、お気軽にご相談ください。貴社の業務に合わせた活用方法をご提案いたします。
無料相談を申し込むこの事例で確認した実務ポイント
対象業種: ITサービス業
支援の観点: 業務フローの棚卸し、既存ツールの整理、現場で使い続けられる運用設計、導入後の定着確認。
同じ課題に向く企業: IT担当者が不在、紙や表計算での管理が限界、AIや自動化を試したいが社内だけでは進めにくい企業。