この記事の要点
Geminiで表データを整理!バラバラなデータを一括クリーニング
Geminiを活用して表データを効率的に整理・クリーニングする方法。バラバラな形式のデータを統一し、分析しやすい状態に整えた事例を解説します。
課題:形式がバラバラなデータの整理に時間がかかる
企業プロフィール
データ管理の現状
同社では物件情報、入居者情報、取引先情報など多くのデータを管理しています。これらのデータは異なるソースから入手するため、形式がバラバラで統一作業に多くの時間がかかっていました。
データ形式の問題例
- 日付形式:「2025/1/15」「2025年1月15日」「25-01-15」が混在
- 住所表記:全角・半角、丁目の有無などが統一されていない
- 電話番号:ハイフンあり/なし、全角/半角が混在
- 金額表記:「50000」「50,000」「5万」が混在
- 会社名:「株式会社」「(株)」「㈱」が混在
データ整理にかかる時間(月次)
- 新規物件データの形式統一(2時間)
- 入居者情報の住所・連絡先整理(3時間)
- 取引先リストのクリーニング(1時間)
- 月次報告用データの整形(2時間)
合計:約8時間/月
しかも手作業のため、見落としや入力ミスも発生...
担当者の声(導入前)
「各不動産会社から届くデータの形式がバラバラで、そのままでは使えません。Excelで一つずつ直していくのですが、単純作業なのに神経を使うし、量が多いと本当に疲れます」
— 管理部門担当者
施策:Geminiでデータ整理を効率化
Geminiをデータ整理アシスタントとして活用
表データをGeminiに渡し、形式の統一やクリーニングを依頼する仕組みを構築しました。
データ整理フロー
- データ収集:各ソースからデータを取得
- Geminiに整理依頼:統一したい形式を指定して依頼
- 結果確認:整理されたデータをチェック
- システム投入:統一されたデータを管理システムに入力
活用パターン1:日付形式の統一
バラバラな日付表記を統一形式に変換します。
Geminiへの指示例
以下の表データの「契約日」列を「YYYY/MM/DD」形式に統一してください。
元データをそのまま変換し、表形式で出力してください。
物件名, 契約日, 賃料
アーバンハイツ101, 2024年5月20日, 85000
グリーンコート202, 24/6/1, 72000
サンライズ301, 2024.07.15, 90000
パークビュー402, R6.8.10, 68000
Geminiの出力
物件名, 契約日, 賃料
アーバンハイツ101, 2024/05/20, 85000
グリーンコート202, 2024/06/01, 72000
サンライズ301, 2024/07/15, 90000
パークビュー402, 2024/08/10, 68000
活用パターン2:住所の正規化
表記揺れのある住所を統一します。
Geminiへの指示例
以下の住所を正規化してください。
ルール:
- 都道府県は省略せず記載
- 市区町村以下は全角
- 番地は「丁目-番-号」形式
- 建物名は半角スペースで区切る
入力:
東京都港区赤坂1丁目2番3号 ABCビル201
港区赤坂1-2-3ABCビル201
東京都港区赤坂一丁目二番三号 ABCビル201
Geminiの出力
すべて以下の形式に統一しました:
東京都港区赤坂1丁目-2番-3号 ABCビル201
活用パターン3:電話番号・金額の統一
形式がバラバラな電話番号や金額を統一します。
電話番号の統一
以下の電話番号を「XXX-XXXX-XXXX」形式(半角ハイフン区切り)に統一してください。
03-1234-5678
0312345678
03 1234 5678
031234-5678
金額の統一
以下の金額を「カンマ区切り・円表記」に統一してください。
50000
50,000円
5万円
5万
50000円
活用パターン4:会社名の表記統一
法人格の表記を統一します。
Geminiへの指示例
以下の会社名の法人格表記を「株式会社」「有限会社」の正式表記に統一してください。
前株・後株の位置は元のまま維持してください。
(株)山田商事
㈱鈴木不動産
有)田中建設
山田工業(株)
株式会社佐藤産業
Geminiの出力
株式会社山田商事
株式会社鈴木不動産
有限会社田中建設
山田工業株式会社
株式会社佐藤産業
活用パターン5:重複データの検出
同一と思われる重複データを検出します。
Geminiへの指示例
以下の顧客リストで、同一人物と思われる重複レコードを特定してください。
名前の表記揺れ、住所の微妙な違いを考慮して判定してください。
ID, 名前, 住所, 電話
1, 山田太郎, 東京都新宿区西新宿1-2-3, 03-1234-5678
2, ヤマダタロウ, 新宿区西新宿1丁目2番3号, 03-1234-5678
3, 鈴木花子, 東京都渋谷区渋谷2-3-4, 03-2345-6789
4, 山田 太郎, 東京都新宿区西新宿1-2-3, 0312345678
Geminiの出力
重複の可能性があるレコードを検出しました:
【グループ1】同一人物と推定
- ID:1 山田太郎
- ID:2 ヤマダタロウ
- ID:4 山田 太郎
理由:
- 電話番号が同一(形式の違いのみ)
- 住所が同一(表記の違いのみ)
- 名前が読みとして一致
GASとの連携で自動化
定型的なデータ整理は、Google Apps Scriptと連携して自動化することも可能です。
GAS連携の概要
function cleanupData() {
// 1. スプレッドシートからデータを取得
const sheet = SpreadsheetApp.getActiveSheet();
const data = sheet.getDataRange().getValues();
// 2. Gemini APIで整理
const cleanedData = callGeminiForCleanup(data);
// 3. 結果を新しいシートに出力
const resultSheet = SpreadsheetApp.getActiveSpreadsheet()
.insertSheet('整理済みデータ');
resultSheet.getRange(1, 1, cleanedData.length, cleanedData[0].length)
.setValues(cleanedData);
}
成果:データ整理時間が大幅削減
定量的な成果
年間での効果
- 月6時間削減 × 12ヶ月 = 年間72時間の削減
- データ品質向上により報告書の作り直しが減少
- 重複検出により無駄な郵送コストを削減
定性的な成果
業務品質の向上
- ミスの減少:手作業による見落としがなくなった
- データ品質の均一化:誰が作業しても同じ品質に
- 検索性の向上:形式統一によりデータ検索が容易に
担当者への効果
- ストレス軽減:単純作業からの解放
- 本来業務への集中:データ分析や顧客対応に時間を使える
- スキル向上:AIの使い方を学ぶ機会に
担当者の声(導入後)
「以前は半日かけていたデータ整理が、今は30分で終わります。しかも精度が上がって、後から『これ違う形式だった』と気づくことがなくなりました。月末の繁忙期が楽になりました」
— 管理部門担当者
「重複データの検出が特に助かっています。名前や住所の表記揺れって人間では見逃しやすいんですが、AIは拾ってくれるので、データベースがきれいに保てるようになりました」
— システム管理担当
まとめ:AIでデータ品質を維持する
成功のポイント
- 統一ルールの明確化
「どの形式に統一するか」を事前に決めておくことで、AIへの指示が明確に。
- パターン別のプロンプト用意
日付、住所、電話番号など、よくある整理パターンのプロンプトをテンプレート化。
- 結果の確認は人間が行う
AIの出力を鵜呑みにせず、サンプルチェックを実施。
- 定型作業はGAS連携で自動化
繰り返し行う作業は、スクリプト化して効率化。
他業務への応用
- 顧客データベースの整理:CRMデータのクリーニング
- 商品マスタの統一:商品名・型番の表記統一
- アンケート回答の整理:自由記述の分類・整理
- 請求データの統一:取引先から届くデータの形式統一
導入のステップ
- 整理対象データの洗い出し:形式がバラバラなデータを特定
- 統一ルールの策定:どの形式に統一するか決定
- プロンプトの作成・テスト:小さなデータで試行
- 業務フローへの組み込み:日常業務に組み込み
- 必要に応じてGAS連携:定型作業を自動化
導入を検討される企業様へ
Geminiを活用したデータ整理・クリーニングについて、詳しいご相談を承っております。
- データ整理業務の効率化
- GASとの連携による自動化
- データ品質管理の仕組み構築
まずはお気軽にお問い合わせください。
関連記事
この事例で確認した実務ポイント
対象業種: ITサービス業
支援の観点: 業務フローの棚卸し、既存ツールの整理、現場で使い続けられる運用設計、導入後の定着確認。
同じ課題に向く企業: IT担当者が不在、紙や表計算での管理が限界、AIや自動化を試したいが社内だけでは進めにくい企業。