etc

내 대화가 학습에 쓰이나? AI에 개인정보를 입력해도 되는 선

nine-ai 2025. 12. 20. 09:00
반응형

AI privacy and chat security illustration

1) 사람들이 제일 많이 묻는 질문: “내 대화가 학습에 쓰이나요?”

AI 챗봇을 쓰다 보면 어느 순간부터 찝찝해집니다. “내가 방금 쓴 게 모델 학습 데이터가 되는 걸까?”, “이름·전화번호·회사 자료를 넣어도 괜찮을까?” 이런 질문은 사실 ‘불안’이 아니라 정상적인 위험 감지에 가깝습니다. 왜냐하면 생성형 AI 서비스는 대부분 대화 내용(프롬프트/응답/파일)을 어떤 형태로든 처리하고, 일부는 제품 개선에 활용될 수 있기 때문입니다.

다만 여기서 가장 흔한 오해가 하나 있습니다. 사람들은 “학습에 쓰인다”를 딱 한 가지로 생각하는데, 실제로는 아래 3개가 섞여 있습니다.

(A) 모델 학습/개선(Training/Improvement): 서비스가 더 똑똑해지도록 데이터를 학습에 활용하는 것. (대부분 설정/옵트아웃 옵션이 존재)
(B) 보관/로그(Retention/Logging): 오류 대응, 보안, 품질 관리, 이용 약관 위반 조사 등 목적을 위해 일정 기간 저장하는 것.
(C) 인간 검토(Human Review): 일부 대화가 품질/안전 점검을 위해 사람(또는 위탁 인력)에게 검토될 수 있는 것.

이 세 가지를 구분해 두면, 이후부터는 “무조건 불안” 대신 “어떤 리스크를, 어떤 설정으로 줄일 수 있는지”가 보입니다.


2) 서비스별 ‘현실’ 정리: ChatGPT · Gemini · Claude · Copilot

아래 내용은 2025년 12월 기준 공개된 공식 문서를 바탕으로 정리했습니다. 정책은 바뀔 수 있으니, 링크는 본문에 그대로 걸어두었습니다.

2-1. ChatGPT(OpenAI): “개인용은 옵트아웃, 비즈니스는 기본 미학습” 구조

OpenAI는 개인용 서비스(ChatGPT 등)에서 사용자 콘텐츠를 모델 개선에 사용할 수 있다고 안내합니다. 대신 사용자는 Data Controls에서 “Improve the model for everyone(모델 개선 기여)”를 끌 수 있습니다. 끄면 새 대화는 학습에 쓰이지 않도록 설정할 수 있습니다. (공식 안내: Data Controls FAQ, How your data is used to improve model performance)

또, “Temporary Chats(임시 채팅)”은 학습에 사용되지 않는다고 명시되어 있습니다. (공식 안내: OpenAI Consumer Privacy)

반대로 기업/조직용(예: Enterprise/Business/Edu/API 등)은 기본값으로 조직 데이터로 학습하지 않는다는 설명이 있습니다. (공식 안내: Enterprise privacy, Business data at OpenAI, OpenAI API data controls)

중요한 포인트는 이겁니다. 개인용은 “옵트아웃 가능”하고, 비즈니스/조직용은 “기본 미학습” 쪽에 가깝습니다. 그래서 회사/계약/고객자료 같은 민감한 내용을 다뤄야 한다면, 개인 계정으로 아무 생각 없이 넣는 순간부터 리스크가 커집니다.

참고로, “삭제하면 끝인가?”라는 질문도 자주 나오는데요. 법적 절차나 분쟁(예: 소송 관련 보존 명령) 같은 특수한 상황에서는 “삭제”가 곧바로 “완전 소거”와 동일하지 않을 수 있다는 보도도 있었습니다. (관련 보도 예: The Verge: OpenAI retaining deleted chats (court order))

2-2. Gemini(Google): “일부 대화는 인간 검토 + Keep Activity 설정이 핵심”

Gemini Apps(구글의 Gemini 앱/서비스)에 대해서는, 일부 대화가 사람(및 위탁 인력)에 의해 검토될 수 있다고 비교적 명확히 안내합니다. 또한 검토된 채팅은 최대 3년 보관된다고 설명합니다. (공식 안내: Gemini Apps Privacy Notice)

그리고 구글은 “앞으로의 채팅이 ‘리뷰어 검토’로 넘어가는 것을 막으려면 Keep Activity를 끄라”는 식으로, 사용자가 통제할 수 있는 설정 지점을 안내합니다. 동시에 “Keep Activity가 켜져 있다면, 리뷰어가 보거나 구글이 개선에 사용하길 원치 않는 기밀/민감 정보는 입력하지 말라”는 경고도 포함되어 있습니다. (모두 같은 공식 문서 내 안내)

한편, 개인용 Gemini와 별개로 Google Workspace 환경에서는 “도메인 밖에서 허가 없이 학습에 쓰지 않는다”는 취지의 보안/프라이버시 안내도 존재합니다. (공식 안내: Google Workspace AI privacy)

정리하면, Gemini는 “인간 검토”를 비교적 분명하게 설명하고, 활동 저장(Keep Activity) 설정이 중요한 분기점으로 등장합니다.

2-3. Claude(Anthropic): “사용자 선택(옵트아웃/옵트인) 흐름이 강화”

Anthropic은 Claude 관련 프라이버시 센터에서 “어떤 조건에서 대화/코딩 세션이 모델 개선에 쓰일 수 있는지”를 안내하고, 기본적으로 사용자의 선택(허용 여부) 및 안전 검토(정책 위반 조사 등) 같은 조건을 명시합니다. (공식 안내: Is my data used for model training?)

2025년 하반기에는 Claude 개인 사용자 데이터 사용 정책과 관련해 “옵트아웃/선택” 이슈가 크게 다뤄지기도 했습니다. (예: WIRED 보도, The Verge 보도, Anthropic 공지)

여기서 포인트는 “어떤 회사가 더 착하다/나쁘다”가 아니라, 각 서비스의 기본값과 선택권(옵트아웃)이 어떻게 설계되어 있는지를 사용자 입장에서 파악하는 것입니다.

2-4. Copilot(Microsoft): “학습 옵트아웃과 개인화는 분리 가능”

Microsoft Copilot은 “모델 학습에 사용하지 않도록 옵트아웃할 수 있고, 그 상태에서도 개인화(최근 대화 기반 맞춤 응답)는 유지할 수 있다”는 취지의 안내가 있습니다. (공식 안내: Microsoft Copilot privacy controls, Privacy FAQ for Copilot)

기업용 Microsoft 365 Copilot은 “프롬프트/응답/Graph로 접근한 데이터는 파운데이션 모델 학습에 쓰지 않는다”는 안내가 문서에 포함되어 있습니다. (공식 안내: Data, Privacy, and Security for Microsoft 365 Copilot)


3) 그래서, 개인정보는 어디까지 입력해도 될까? “3단계 현실 기준”

여기부터가 오늘 글의 핵심입니다. “정답”이 아니라 현실적으로 사고(유출·오해·2차 활용)를 줄이는 선을 잡아보겠습니다. 저는 아래처럼 3단계로 나누는 걸 추천합니다.

레벨 1: 절대 입력하지 않는 것 (원칙적으로 ‘금지’)

아래는 서비스가 어떤 정책이든 굳이 입력할 이유가 없는 정보입니다. 이건 “AI 회사가 나쁘다”의 문제가 아니라, 입력하는 순간 리스크 대비 효용이 거의 없어요.

예) 계정 비밀번호/인증코드, 주민번호·여권번호 같은 정부 발급 식별정보, 신용카드 전체 번호, 인터넷뱅킹/증권 계정 접근 정보, 복구 질문 답, 2FA 백업키, API 키/토큰/쿠키 값, ‘진짜 내 주소(상세)’처럼 제삼자가 알면 위험한 민감 위치 정보.

레벨 2: 입력 전 ‘익명화/가공’이 필요한 것 (조건부 ‘주의’)

이 레벨은 “상담/문서 정리/업무 도움” 같은 목적으로 입력하고 싶어질 수 있습니다. 하지만 원문 그대로 넣는 건 위험할 수 있어요. 특히 개인용 챗봇에 업무 자료를 넣는 순간, 회사 정책/계약과도 충돌할 수 있습니다.

예) 병원 진단서/검사결과(민감 건강정보), 세금 신고서, 거래 내역, 급여명세, 고객 명단/연락처/구매 기록, 계약서 원문, 내부 기획서/가격 정책/소스코드(특히 비공개 레포), NDA가 걸린 자료, 개인이 식별되는 민원/상담 기록, 특정 인물을 지목하는 소문/평판 관련 문장.

다만 이 레벨 정보는 “아예 쓰지 말라”가 아니라, 가공해서 쓰면 효용이 살아납니다. 아래 4가지만 기억하세요.

(1) 고유명사를 전부 대체: 실명/회사명/프로젝트명 → A사/B사/프로젝트X
(2) 숫자는 범위화: 3,742,110원 → “약 370만 원대”
(3) 표본을 축소: 전체 고객 5,000명 → 20명 샘플 + 패턴만 설명
(4) 원문 대신 ‘요약된 요구사항’만: 계약서 원문 붙여 넣기 → “이 조항이 불리한지 체크해 줘” 수준으로 재작성

레벨 3: 비교적 안전하게 입력 가능한 것 (대체로 ‘가능’)

이 레벨은 “내가 입력해도 큰 문제로 번지기 어렵다”에 가깝습니다. 물론 100% 안전을 보장하는 건 아니지만, 현실적으로 대부분의 사용자들이 이 범위를 중심으로 쓰면 됩니다.

예) 공개된 기사/공식 문서 요약, 공개 기술 개념 설명 요청, 익명 상황 설정(“30대 직장인”처럼 범주형), 개인 식별이 불가능한 습관/목표(“아침형으로 바꾸고 싶다”), 공개 가능한 자기 소개문/이력서 초안(개인정보 제거 버전), 레시피/운동/공부 계획처럼 민감도가 낮은 내용.


4) “AI에 민감한 걸 입력해야만 할 때” 안전하게 쓰는 8가지 습관

현실은 늘 깔끔하지 않습니다. 급하게 요약해야 하고, 문서 톤을 다듬어야 하고, 번역해야 하고, 코드를 리뷰받고 싶을 때도 있죠. 그래서 아래는 “현실적인 방어” 체크리스트입니다. (과하게 늘어놓지 않고, 정말 필요한 것만 추렸습니다.)

1) 개인용과 업무용을 분리하세요.
회사 자료/고객 정보가 섞인 순간부터 ‘개인 계정’은 위험합니다. 가능하면 비즈니스/조직용 정책이 있는 환경을 쓰세요. (OpenAI 비즈니스 데이터 안내: 링크)

2) 학습(모델 개선) 기여 설정을 확인하세요.
ChatGPT는 Data Controls에서 “Improve the model for everyone”를 끌 수 있습니다. (공식: Data Controls FAQ) Copilot도 학습 옵트아웃 옵션을 안내합니다. (공식: Copilot privacy controls)

3) “인간 검토”가 가능한 서비스를 전제로 입력하세요.
Gemini는 “일부 채팅이 인간 리뷰어에게 검토될 수 있다”라고 안내하고, Keep Activity 설정에 따라 리뷰/개선 활용이 달라질 수 있음을 설명합니다. (공식: Gemini Apps Privacy Notice)

4) 원문 대신 ‘요약된 요구사항’을 입력하세요.
문서 전체를 붙이는 대신, 필요한 질문을 추려서 입력하세요. “전체 계약서 검토” 대신 “해지 조항/위약금 조항만 요약하고 위험 포인트를 알려줘”처럼요.

5) 익명화(치환) 규칙을 고정하세요.
A사/B사/고객 1/고객 2 같은 치환 규칙을 미리 정하면, 급할 때도 안전선이 지켜집니다.

6) 파일 업로드는 ‘정말 필요할 때만’ 하세요.
대화 텍스트보다 파일에는 개인정보가 더 많이 섞여 있습니다(메타데이터 포함). “붙여 넣기 → 필요한 부분만”이 더 안전한 경우가 많습니다.

7) 임시 채팅/기록 최소화 기능을 활용하세요.
ChatGPT의 Temporary Chats처럼 “학습에 쓰이지 않는 모드”가 있으면 우선 고려하세요. (공식: OpenAI Consumer Privacy)

8) ‘삭제’는 만능 버튼이 아니라는 전제를 두세요.
보통은 삭제가 도움이 되지만, 법적 보존 명령 같은 예외 상황이 존재할 수 있습니다. 그래서 “처음부터 안 넣는 것”이 가장 강력한 보호입니다. (관련 보도 예: The Verge 기사)


5) 자주 묻는 질문(FAQ)

Q1. “학습 옵트아웃을 켜면, 내 대화는 아예 저장도 안 되나요?”

보통 학습(모델 개선) 여부보관(로그/기록)은 별개입니다. 예를 들어 OpenAI는 “학습 옵트아웃”을 제공하면서도, 서비스 제공/보안/품질 목적으로 일정 데이터를 보관할 수 있음을 별도 문서에서 설명합니다. (참고: How your data is used, OpenAI 정책 페이지)

Q2. “그럼 AI는 내 개인정보를 ‘학습해서 기억’ 하나요?”

사용자가 걱정하는 “기억”은 두 종류입니다. (1) 서비스 차원의 개인화/기억 기능(최근 대화 참고 등), (2) 모델 자체에 녹아드는 학습 데이터. 이 둘은 다르고, 서비스마다 설정/정책이 다릅니다. Microsoft Copilot은 “학습 옵트아웃과 개인화는 분리 가능”하다고 안내합니다. (공식: Copilot Privacy FAQ)

Q3. “업무 자료를 꼭 넣어야 한다면, 뭐가 제일 안전한가요?”

우선순위는 단순합니다. (1) 조직용/엔터프라이즈 정책이 있는 환경(2) API 기반(기본 미학습 정책 확인)(3) 최소한 익명화된 텍스트만 입력 순입니다. OpenAI는 Enterprise/Business/API 등에서 “기본 미학습”을 안내합니다. (공식: Enterprise privacy, API data controls)


6) 결론: AI는 편하지만, ‘입력’은 습관이 됩니다

AI는 점점 더 개인의 일상을 깊게 파고들고 있습니다. 그래서 이제는 “AI를 잘 쓰는 사람”의 기준이 프롬프트 스킬만이 아니라 데이터 감각(어디까지 넣을지)으로 확장되고 있다고 생각합니다.

오늘의 한 줄 결론은 다시 이겁니다.
“절대 넣지 말 것(금지) → 가공해서 넣을 것(주의) → 편하게 넣어도 되는 것(가능)”
이 3단계만 지켜도, 대부분의 사고는 초기에 차단됩니다.


주요 링크 모음(공식 문서)

• OpenAI Data Controls FAQ: https://help.openai.com/en/articles/7730893-data-controls-faq
• OpenAI: How your data is used: https://help.openai.com/en/articles/5722486-how-your-data-is-used-to-improve-model-performance
• OpenAI Consumer Privacy(Temporary Chats 등): https://openai.com/consumer-privacy/
• OpenAI Enterprise privacy: https://openai.com/enterprise-privacy/
• OpenAI Business data: https://openai.com/business-data/
• OpenAI API data controls: https://platform.openai.com/docs/guides/your-data
• Google Gemini Apps Privacy Notice(인간 검토/Keep Activity): https://support.google.com/gemini/answer/13594961?hl=en
• Google Workspace AI privacy: https://workspace.google.com/intl/en_au/security/ai-privacy/
• Anthropic Privacy Center(Training 관련): https://privacy.claude.com/en/articles/10023580-is-my-data-used-for-model-training
• Microsoft Copilot privacy controls: https://support.microsoft.com/en-us/topic/microsoft-copilot-privacy-controls-8e479f27-6eb6-48c5-8d6a-c134062e2be6
• Microsoft 365 Copilot privacy(기업용): https://learn.microsoft.com/en-us/copilot/microsoft-365/microsoft-365-copilot-privacy

반응형