5 4월 2026

[인공지능 기술] Google, 오픈 모델 Gemma 4 공개 

[인공지능 기술] Google, 오픈 모델 Gemma 4 공개 

8P by GN⁺ 2일전 | ★ favorite | 댓글 2개
  • Google DeepMind가 Gemini 3 기술을 기반으로 한 차세대 오픈 AI 모델 Gemma 4를 발표, 매개변수당 지능 효율을 극대화한 구조로 설계됨
  • 모델은 E2B, E4B, 26B, 31B 네 가지 크기로 제공되며, 모바일·IoT부터 개인용 GPU 환경까지 폭넓은 실행 범위를 지원
  • 멀티모달 추론, 140개 언어 지원, 에이전트형 워크플로, 세밀한 파인튜닝, 효율적 아키텍처 등 주요 기능을 포함
  • 수학·코딩·멀티모달 이해 영역에서 Gemma 3 대비 성능이 크게 향상되었으며, 보안·신뢰성 기준은 Google 상용 모델과 동일 수준 유지
  • 모델 가중치는 Hugging Face, Ollama, Kaggle, LM Studio, Docker 등에서 다운로드 가능하며, 로컬 및 클라우드 환경 통합 실행을 지원함

Gemma 4 — 차세대 오픈 AI 모델

  • Gemma 4는 Gemini 3의 연구와 기술을 기반으로 개발된 Google DeepMind의 최신 오픈 모델로, 매개변수당 지능 효율(intelligence-per-parameter) 을 극대화한 구조를 가짐
  • 모델은 E2B, E4B, 26B, 31B 네 가지 크기로 제공되며, 모바일·IoT부터 개인용 워크스테이션까지 다양한 환경에서 실행 가능
  • 멀티모달 추론140개 언어 지원에이전트형 워크플로세밀한 파인튜닝효율적 아키텍처를 주요 기능으로 포함
  • 성능 벤치마크에서 Gemma 3 대비 전반적인 향상치를 기록하며, 특히 수학·코딩·멀티모달 이해 영역에서 높은 점수를 달성
  • 보안·신뢰성 기준은 Google의 상용 모델과 동일 수준으로 유지되며, Hugging Face, Ollama, Kaggle, LM Studio, Docker 등에서 모델 가중치를 다운로드 가능

모델 구성 및 효율성

  • Gemma 4는 Gemini 3의 기술 기반으로 설계되어 지능 효율을 극대화한 오픈 모델 구조를 채택
  • 모델 크기는 E2B, E4B, 26B, 31B 네 가지 버전으로 구분되며, 각 버전은 컴퓨팅 자원과 메모리 효율성에 따라 최적화됨
    • E2B·E4B: 모바일 및 IoT 기기용으로, 최대 효율성과 오프라인 실행 지원
    • 26B·31B: 개인용 GPU 환경에서 프론티어급 추론 능력 제공

주요 기능

  • Agentic workflows

    • 함수 호출(function calling) 을 네이티브로 지원해, 사용자를 대신해 계획·앱 탐색·작업 수행이 가능한 자율형 에이전트 구축 가능
  • Multimodal reasoning

    • 오디오와 비주얼 이해 능력을 결합해 풍부한 멀티모달 애플리케이션 개발 지원
  • Support for 140 languages

    • 단순 번역을 넘어 문화적 맥락 이해를 포함한 다국어 경험 생성 가능
  • Fine tuning

    • 사용자가 선호하는 프레임워크와 기법으로 특정 작업 성능 향상을 위한 파인튜닝 가능
  • Efficient architecture

    • 자체 하드웨어에서 실행 가능하며, 효율적인 개발 및 배포 환경 제공

성능

  • Gemma 4는 다양한 텍스트 생성 관련 데이터셋과 지표를 기반으로 평가됨
  • 주요 벤치마크 결과 (Gemma 4 31B IT 기준):
    • Arena AI (text): 1452 (Gemma 3 27B 대비 1365)
    • MMMLU (다국어 Q&A): 85.2%
    • MMMU Pro (멀티모달 추론): 76.9%
    • AIME 2026 (수학): 89.2%
    • LiveCodeBench v6 (코딩 문제): 80.0%
    • GPQA Diamond (과학 지식): 84.3%
    • τ2-bench (에이전트 도구 사용): 86.4%
  • 전반적으로 Gemma 3 대비 모든 항목에서 성능 향상을 보이며, 특히 수학·코딩·멀티모달 이해 영역에서 큰 개선

E2B 및 E4B — 모바일 및 IoT용

  • 오디오·비전 지원을 통해 엣지 디바이스에서 실시간 처리 가능
  • 스마트폰, Raspberry Pi, Jetson Nano 등에서 완전 오프라인 실행 및 거의 제로 지연(latency) 성능 제공
  • Google AI Edge Gallery를 통해 체험 가능

26B 및 31B — 고성능 로컬 AI

  • IDE, 코딩 어시스턴트, 에이전트형 워크플로에 적합한 고급 추론 기능 제공
  • 소비자용 GPU에 최적화되어 학생·연구자·개발자가 로컬 AI 서버 환경을 구축 가능
  • Google AI Studio에서 직접 실행 가능

보안 및 신뢰성

  • Gemma 4는 Google의 상용 모델과 동일한 인프라 보안 프로토콜을 적용
  • 기업 및 공공기관이 사용할 수 있는 투명하고 신뢰할 수 있는 기반 제공
  • 최고 수준의 보안·신뢰성 기준을 충족하면서도 최신 AI 기능을 제공

다운로드 및 실행

  • 모델 가중치 다운로드

    • Hugging FaceOllamaKaggleLM StudioDocker Hub에서 Gemma 4 모델 가중치 제공
  • 학습 및 배포 지원

    • JaxVertex AIKerasGoogle AI EdgeGoogle Kubernetes EngineOllama 등 다양한 플랫폼과 통합 지원
    • 공식 문서 및 API를 통해 훈련·배포·추론 환경 구성 가능

Gemmaverse 커뮤니티

  • Gemmaverse를 통해 전 세계 개발자들이 Gemma를 활용해 구축한 프로젝트를 탐색 가능
  • Google DeepMind의 X, Instagram, YouTube, LinkedIn, GitHub 채널을 통해 최신 업데이트 제공
  • 구독을 통해 최신 AI 혁신 소식 수신 가능

[출처] https://news.hada.io/topic?id=28138

Loading

3 4월 2026

[인공지능 기술] Harness — Claude Code 에이전트 팀 & 스킬 아키텍트 플러그인 

[인공지능 기술] Harness — Claude Code 에이전트 팀 & 스킬 아키텍트 플러그인 

112P by xguru 5일전 | ★ favorite | 댓글 6개
  • “하네스 구성해줘” 한 마디로 도메인에 맞는 전문 에이전트팀을 설계하고, 에이전트가 사용할 스킬까지 자동 생성해주는 메타 스킬
  • 6가지 아키텍처 패턴을 지원하며, 에이전트 간 오케스트레이션과 에러 핸들링 프로토콜을 포함
  • 아키텍처 패턴
    • 파이프라인: 순차 의존 작업
    • 팬아웃/팬인: 병렬 독립 작업
    • 전문가 풀: 상황별 선택 호출
    • 생성-검증: 생성 후 품질 검수
    • 감독자: 중앙 에이전트가 동적 분배
    • 계층적 위임: 상위→하위 재귀적 위임
  • 6단계 워크플로우 : 도메인 분석 → 팀 아키텍처 설계(에이전트 팀 vs 서브 에이전트) → 에이전트 정의 생성 → 스킬 생성 → 통합 및 오케스트레이션 → 검증 및 테스트
  • 실행 모드는 두 가지:
    • 에이전트 팀(기본): TeamCreate + SendMessage + TaskCreate 방식, 2개 이상 에이전트·협업 필요 시 권장
    • 서브 에이전트: Agent 도구 직접 호출, 단발성 작업·통신 불필요 시 적합
  • 하네스 실행 시 .claude/agents/에 에이전트 정의 파일(예: analyst.md, builder.md, qa.md), .claude/skills/에 스킬 파일이 자동 생성됨
  • 생성할 수 있는 팀 구성 예시
    • 딥 리서치 — 리서치 하네스를 구성해줘. 어떤 주제든 여러 각도에서 조사할 수 있는 에이전트 팀이 필요해 — 웹 검색, 학술 자료, 커뮤니티 반응 — 교차 검증 후 종합 보고서를 작성하는 팀.
    • 웹사이트 제작 — 풀스택 웹사이트 개발 하네스를 구성해줘. 디자인, 프론트엔드(React/Next.js), 백엔드(API), QA 테스트를 와이어프레임부터 배포까지 파이프라인으로 조율하는 팀.
    • 웹툰 제작 — 웹툰 에피소드 제작 하네스를 구성해줘. 스토리 작성, 캐릭터 디자인 프롬프트, 패널 레이아웃 기획, 대사 편집 에이전트가 필요하고 서로의 작업물을 스타일 일관성 관점에서 리뷰해야 해.
    • 유튜브 콘텐츠 기획 — 유튜브 콘텐츠 제작 하네스를 구성해줘. 트렌드 조사, 대본 작성, 제목/태그 SEO 최적화, 썸네일 컨셉 기획을 감독자 에이전트가 조율하는 팀.
    • 코드 리뷰 — 종합 코드 리뷰 하네스를 구성해줘. 아키텍처, 보안 취약점, 성능 병목, 코드 스타일을 병렬로 감사하는 에이전트들이 결과를 하나의 리포트로 통합하는 팀.
    • 기술 문서 작성 — 이 코드베이스에서 API 문서를 자동 생성하는 하네스를 구성해줘. 엔드포인트 분석, 설명 작성, 사용 예제 생성, 완성도 리뷰를 파이프라인으로 처리하는 팀.
    • 데이터 파이프라인 설계 — 데이터 파이프라인 설계 하네스를 구성해줘. 스키마 설계, ETL 로직, 데이터 검증 규칙, 모니터링 설정을 계층적으로 위임하는 에이전트 팀.
    • 마케팅 캠페인 — 마케팅 캠페인 제작 하네스를 구성해줘. 타겟 시장 조사, 광고 카피 작성, 비주얼 컨셉 디자인, A/B 테스트 계획을 반복적 품질 리뷰와 함께 진행하는 팀.
  • revfactory/harness-100 — 10개 도메인, 100개의 프로덕션 레디 에이전트 팀 하네스(한영 200패키지) 공개
    • 각 하네스에 4-5명의 전문 에이전트, 오케스트레이터 스킬, 도메인 특화 스킬 포함
    • 콘텐츠 제작·소프트웨어 개발·데이터/AI·비즈니스 전략·교육·법률·헬스케어 등 1,808개 마크다운 파일로 구성
    • 모두 Harness 플러그인으로 생성됨
  • 클로드 코드의 에이전트 팀 기능 활성화 필요: CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS=1

[출처] https://news.hada.io/topic?id=27969

Loading

24 3월 2026

[인공지능 기술] Claude Code를 만들며 배운 것: 우리가 Skills를 사용하는 방법 

[인공지능 기술] Claude Code를 만들며 배운 것: 우리가 Skills를 사용하는 방법 

92P by GN⁺ 5일전 | ★ favorite | 댓글 1개
  • 클로드 코드에서 Skills는 가장 많이 사용되는 확장 포인트 중 하나로, Anthropic 내부에서 수백 개의 스킬을 실제로 운용하며 축적한 실전 노하우를 공개
  • 스킬은 단순 마크다운 파일이 아니라 스크립트, 에셋, 데이터 등을 포함하는 폴더 구조이며, 에이전트가 탐색하고 활용할 수 있는 형태
  • 라이브러리 레퍼런스, 제품 검증, 데이터 분석, 코드 스캐폴딩, CI/CD 등 9가지 스킬 카테고리로 분류되며, 좋은 스킬은 하나의 카테고리에 깔끔히 맞아야 함
  • 스킬 작성 시 Gotchas 섹션, 파일 시스템 활용, 점진적 공개(Progressive Disclosure), 데이터 저장 등의 실전 팁이 핵심
  • 조직 확장 시에는 내부 플러그인 마켓플레이스를 통해 스킬을 배포하고, 사용량 측정 훅으로 효과를 추적하는 구조 권장

Skills란 무엇인가

  • Skills에 대한 흔한 오해는 “그냥 마크다운 파일”이라는 것이지만, 실제로는 스크립트, 에셋, 데이터 등을 포함하는 폴더 구조
  • 에이전트가 이 폴더를 탐색하고, 내용을 발견하고, 조작할 수 있음
  • Claude Code에서 Skills는 다양한 설정 옵션을 제공하며, 동적 훅(dynamic hooks) 등록도 가능
  • 가장 흥미로운 스킬들은 이러한 설정 옵션과 폴더 구조를 창의적으로 활용하는 것들

스킬의 9가지 카테고리

  • 내부에서 사용 중인 스킬을 모두 분류한 결과, 반복적으로 나타나는 몇 가지 카테고리로 클러스터링됨
  • 좋은 스킬은 하나의 카테고리에 깔끔히 맞고, 혼란스러운 스킬은 여러 카테고리에 걸쳐 있음
  • 1. Library & API Reference

    • 라이브러리, CLI, SDK를 올바르게 사용하는 방법을 설명하는 스킬
    • 내부 라이브러리뿐 아니라 Claude Code가 자주 실수하는 일반 라이브러리도 대상
    • 레퍼런스 코드 스니펫 폴더와 주의사항(gotchas) 목록을 포함하는 경우가 많음
    • 예시: billing-lib(내부 결제 라이브러리의 엣지 케이스), internal-platform-cli(내부 CLI 래퍼의 모든 서브커맨드와 사용 예시), frontend-design(디자인 시스템 적용 개선)
  • 2. Product Verification

    • 코드가 정상 동작하는지 테스트하고 검증하는 방법을 기술하는 스킬
    • Playwright, tmux 등 외부 도구와 결합하여 사용하는 경우가 많음
    • Claude의 출력 정확성 보장에 매우 유용하며, 엔지니어가 일주일을 투자해서라도 검증 스킬을 우수하게 만들 가치가 있음
    • Claude가 출력을 영상으로 녹화하도록 하거나, 각 단계에서 상태에 대한 프로그래매틱 어설션을 강제하는 기법 권장
    • 예시: signup-flow-driver(가입→이메일 인증→온보딩을 헤드리스 브라우저로 수행), checkout-verifier(Stripe 테스트 카드로 결제 UI 구동 후 인보이스 상태 검증), tmux-cli-driver(TTY가 필요한 인터랙티브 CLI 테스트용)
  • 3. Data Fetching & Analysis

    • 데이터 및 모니터링 스택에 연결하는 스킬
    • 크레덴셜이 포함된 데이터 가져오기 라이브러리, 특정 대시보드 ID, 일반적 워크플로우 안내 등을 포함
    • 예시: funnel-query(가입→활성화→결제 퍼널에 필요한 이벤트와 canonical user_id가 있는 테이블), cohort-compare(두 코호트의 리텐션/전환율 비교 및 통계적 유의성 플래깅), grafana(데이터소스 UID, 클러스터명, 문제→대시보드 룩업 테이블)
  • 4. Business Process & Team Automation

    • 반복적인 워크플로우를 하나의 명령으로 자동화하는 스킬
    • 비교적 단순한 지시문이지만 다른 스킬이나 MCP에 대한 복잡한 의존성을 가질 수 있음
    • 이전 실행 결과를 로그 파일에 저장하면 모델이 일관성을 유지하고 이전 실행을 반영하는 데 도움
    • 예시: standup-post(티켓 트래커, GitHub 활동, Slack을 종합한 포맷 스탠드업), create-ticket(스키마 강제 및 생성 후 워크플로우), weekly-recap(머지된 PR+닫힌 티켓+배포를 요약 포스트로 작성)
  • 5. Code Scaffolding & Templates

    • 코드베이스의 특정 기능에 대한 프레임워크 보일러플레이트를 생성하는 스킬
    • 조합 가능한 스크립트와 결합할 수 있으며, 코드만으로는 다 커버할 수 없는 자연어 요구사항이 있을 때 특히 유용
    • 예시: new-framework-workflow(어노테이션 포함 새 서비스/워크플로우/핸들러 스캐폴딩), new-migration(마이그레이션 파일 템플릿과 주의사항), create-app(인증, 로깅, 배포 설정이 미리 연결된 새 내부 앱)
  • 6. Code Quality & Review

    • 조직 내 코드 품질을 강제하고 코드 리뷰를 돕는 스킬
    • 최대한의 견고성을 위해 결정론적 스크립트나 도구를 포함할 수 있음
    • 훅이나 GitHub Action의 일부로 자동 실행할 수도 있음
    • 예시: adversarial-review(새로운 시각의 서브에이전트가 비판→수정→반복하여 지적이 니트픽 수준으로 떨어질 때까지 진행), code-style(Claude가 기본적으로 잘 못하는 코드 스타일 강제), testing-practices(테스트 작성 방법과 테스트 대상 안내)
  • 7. CI/CD & Deployment

    • 코드베이스 내에서 코드를 가져오고, 푸시하고, 배포하는 스킬
    • 다른 스킬을 참조하여 데이터를 수집할 수 있음
    • 예시: babysit-pr(PR 모니터링→flaky CI 재시도→머지 충돌 해결→자동 머지 활성화), deploy-service(빌드→스모크 테스트→점진적 트래픽 롤아웃→에러율 비교→회귀 시 자동 롤백), cherry-pick-prod(격리된 worktree→cherry-pick→충돌 해결→템플릿 PR 생성)
  • 8. Runbooks

    • 증상(Slack 스레드, 알림, 에러 시그니처 등)을 입력받아 멀티 도구 조사를 수행하고 구조화된 리포트를 생성하는 스킬
    • 예시: service-debugging(증상→도구→쿼리 패턴 매핑), oncall-runner(알림 가져오기→일반적 원인 체크→결과 포맷팅), log-correlator(요청 ID로 관련 시스템 전체 로그 수집)
  • 9. Infrastructure Operations

    • 일상적 유지보수와 운영 절차를 수행하며, 파괴적 작업에 대한 가드레일을 포함하는 스킬
    • 엔지니어가 중요 운영에서 베스트 프랙티스를 따르기 쉽게 해줌
    • 예시: resource-orphans(고아 Pod/볼륨 탐색→Slack 알림→대기 기간→사용자 확인→계단식 정리), dependency-management(조직의 의존성 승인 워크플로우), cost-investigation(스토리지/이그레스 비용 급증 원인 조사용 버킷 및 쿼리 패턴)

스킬 작성 팁

  • 당연한 것은 쓰지 말 것

    • Claude Code는 코드베이스에 대해 이미 많이 알고 있고, 코딩에 대한 기본 의견도 가지고 있음
    • 지식 중심 스킬을 만든다면 Claude의 일반적 사고방식에서 벗어나게 하는 정보에 집중해야 함
    • frontend-design 스킬이 좋은 예시로, Anthropic 엔지니어가 고객과 반복하며 Claude의 디자인 감각을 개선하기 위해 만든 것이며, Inter 폰트와 보라색 그라디언트 같은 전형적 패턴을 피하도록 구성
  • Gotchas 섹션 구축

    • 모든 스킬에서 가장 높은 신호 가치를 가지는 콘텐츠가 Gotchas 섹션
    • Claude가 스킬 사용 시 흔히 만나는 실패 지점에서 축적해야 함
    • 시간이 지나면서 이러한 gotchas를 계속 업데이트하는 것이 이상적
  • 파일 시스템과 점진적 공개 활용

    • 스킬은 폴더이므로 전체 파일 시스템을 컨텍스트 엔지니어링과 점진적 공개의 수단으로 활용해야 함
    • Claude에게 스킬에 어떤 파일이 있는지 알려주면, 적절한 시점에 읽음
    • 가장 단순한 형태: 상세 함수 시그니처와 사용 예시를 references/api.md 같은 별도 마크다운으로 분리
    • 최종 출력이 마크다운인 경우 assets/ 폴더에 템플릿 파일 포함 가능
    • 레퍼런스, 스크립트, 예시 등의 폴더가 Claude의 작업 효율을 높임
  • Claude를 과도하게 제약하지 말 것

    • Claude는 지시사항을 따르려 하지만, 스킬은 재사용성이 높으므로 지나치게 구체적인 지시는 주의해야 함
    • 필요한 정보는 주되, 상황에 유연하게 적응할 수 있는 여지를 줘야 함
  • 설정(Setup) 과정 설계

    • 일부 스킬은 사용자로부터 컨텍스트를 수집하는 설정 단계가 필요
    • 예: 스탠드업을 Slack에 올리는 스킬이라면 어느 채널에 올릴지 물어야 함
    • 좋은 패턴: 설정 정보를 스킬 디렉토리의 config.json 파일에 저장, 설정이 안 되어 있으면 에이전트가 사용자에게 질문
    • 구조화된 다중 선택 질문을 제시하려면 AskUserQuestion 도구 사용을 지시 가능
  • Description 필드는 모델을 위한 것

    • Claude Code가 세션을 시작하면 모든 가용 스킬의 description 목록을 빌드
    • 이 목록을 Claude가 스캔하여 “이 요청에 맞는 스킬이 있는가?”를 판단
    • 따라서 description 필드는 요약이 아니라 이 스킬을 언제 트리거해야 하는지의 설명
  • 메모리 및 데이터 저장

    • 스킬에 데이터를 저장하는 형태의 메모리를 포함할 수 있음
    • 단순한 텍스트 로그 파일이나 JSON 파일부터 SQLite 데이터베이스까지 다양한 형태 가능
    • 예: standup-post 스킬이 standups.log에 모든 작성 이력을 저장하면, 다음 실행 시 Claude가 자신의 이력을 읽고 어제 이후 변경사항을 파악
    • 스킬 디렉토리에 저장한 데이터는 스킬 업그레이드 시 삭제될 수 있으므로 ${CLAUDE_PLUGIN_DATA}라는 안정적 폴더에 저장해야 함
  • 스크립트 저장 및 코드 생성

    • Claude에게 줄 수 있는 가장 강력한 도구 중 하나가 코드 자체
    • 스크립트와 라이브러리를 제공하면 Claude가 보일러플레이트 재구성 대신 구성(composition)에 집중 가능
    • 예: 데이터 과학 스킬에 이벤트 소스에서 데이터를 가져오는 헬퍼 함수 라이브러리 포함
    • Claude가 이 기능들을 조합하여 즉석에서 스크립트를 생성, “화요일에 무슨 일이 있었나?” 같은 복잡한 분석에 활용
  • On Demand Hooks

    • 스킬이 호출될 때만 활성화되고 세션 동안만 지속되는 훅을 포함할 수 있음
    • 항상 실행하기에는 부담스럽지만 특정 상황에서 매우 유용한 강한 의견의 훅에 적합
    • 예시:
      • /careful — rm -rf, DROP TABLE, force-push, kubectl delete를 PreToolUse 매처로 차단, 프로덕션 작업 시에만 활성화
      • /freeze — 특정 디렉토리 외의 모든 Edit/Write를 차단, 디버깅 시 의도치 않은 수정 방지에 유용

스킬 배포

  • 스킬의 큰 장점 중 하나는 팀 전체와 공유 가능하다는 점
  • 두 가지 공유 방식 존재:
    • 스킬을 리포에 체크인 (./.claude/skills 아래)
    • 플러그인으로 만들어 Claude Code Plugin 마켓플레이스에 업로드, 사용자가 설치
  • 마켓플레이스 관리

    • 소규모 팀이 소수 리포에서 작업할 때는 리포에 체크인하는 방식이 적합
    • 체크인된 스킬은 모델의 컨텍스트에 조금씩 추가되므로, 규모가 커지면 내부 플러그인 마켓플레이스가 유리
    • 마켓플레이스에 들어갈 스킬을 결정하는 중앙 팀은 없으며, 가장 유용한 스킬이 자연스럽게 발견되는 방식
    • 시도해볼 스킬이 있으면 GitHub의 sandbox 폴더에 업로드하고 Slack 등에서 안내
    • 충분한 견인력(traction)을 얻으면 스킬 소유자가 마켓플레이스로 이동하는 PR을 올림
    • 나쁘거나 중복된 스킬이 쉽게 만들어질 수 있으므로 릴리스 전 큐레이션 메커니즘이 중요
  • 스킬 조합(Composing Skills)

    • 스킬 간 의존성이 필요할 수 있음 (예: 파일 업로드 스킬 + CSV 생성 및 업로드 스킬)
    • 마켓플레이스나 스킬에 의존성 관리가 네이티브로 내장되어 있지는 않지만, 다른 스킬을 이름으로 참조하면 설치되어 있는 경우 모델이 호출
  • 스킬 측정

    • 스킬의 성과를 파악하기 위해 PreToolUse 훅으로 회사 내 스킬 사용량을 로깅
    • 인기 있는 스킬이나 기대 대비 트리거가 부족한 스킬을 찾는 데 활용

결론

  • Skills는 에이전트를 위한 매우 강력하고 유연한 도구이지만, 아직 초기 단계이며 모두가 최선의 활용법을 찾아가는 과정
  • 이 글은 확정적 가이드가 아니라 실전에서 효과가 있었던 팁 모음
  • 대부분의 스킬은 몇 줄과 하나의 gotcha에서 시작했으며, Claude가 새로운 엣지 케이스를 만날 때마다 사람들이 계속 추가하면서 개선

[출처] https://news.hada.io/topic?id=27640

Loading

15 3월 2026

[알아봅시다] [Hugging Face 여행] ???? 인터넷 없이 내 노트북에 작동하는 AI 챗봇 5분 완성 ???? Llama cpp와 Gradio 활용 ????⚡️

[알아봅시다] [Hugging Face 여행] ???? 인터넷 없이 내 노트북에 작동하는 AI 챗봇 5분 완성 ???? Llama cpp와 Gradio 활용 ????⚡️

  • (00:09–01:13)
    최근 AI 모델은 너무 커져 일반 사용자가 노트북에서 직접 실행하기 어렵기 때문에 대부분 ChatGPT 같은 클라우드 API를 사용한다. 그러나 이제는 인터넷 없이 로컬에서 실행되는 AI 챗봇도 구현할 수 있다.

  • (01:13–02:18)
    이번 영상에서는 노트북에서 오프라인 AI 챗봇을 만드는 방법을 소개하며, 핵심 도구는 다음 두 가지이다.

    • llama.cpp : 로컬에서 LLM 추론을 실행하는 엔진

    • Gradio : 웹 UI를 빠르게 만드는 Python 라이브러리

  • (02:18–04:27)
    Python이 설치된 환경에서 터미널을 열고 llama.cpp와 Gradio 라이브러리를 설치하면 된다.
    GPU가 없어도 가능하며 CPU 버전으로 실행 가능하다.

  • (05:31–06:33)
    Hugging Face CLI를 사용해 LLM 모델을 다운로드한다.
    예제에서는 Qwen 0.5B instruct 모델을 다운로드하여 로컬에 저장한다.

  • (07:38–08:42)
    약 20줄 정도의 Python 코드로 챗봇 웹 앱을 만들 수 있다.
    코드에서는:

    • llama.cpp 로 모델 로드

    • Gradio로 UI 생성

    • 모델 경로만 로컬 경로로 지정

  • (09:47–10:54)
    Python 파일을 실행하면 로컬 웹 주소(localhost) 가 생성된다.
    인터넷이 끊어진 상태에서도 브라우저에서 접속하면 챗봇 UI가 실행된다.

  • (10:54–12:00)
    Gradio 인터페이스에서 프롬프트를 입력하면 로컬 LLM이 응답한다.
    한글 입력도 가능하지만 작은 모델이라 정확도는 제한적이다.

  • (14:07–15:13)
    핵심 의미는 성능이 아니라 “노트북에서 오프라인 AI 실행이 가능해졌다”는 기술적 변화이다.
    앞으로는 엣지 컴퓨팅, IoT, 개인 디바이스에서 AI 활용이 확대될 것으로 전망한다.


???? 기술적 의미 (영상에서 암시하는 핵심)

  • llama.cpp

    • CPU에서도 LLM 실행 가능

    • 모델 양자화(quantization)로 메모리 감소
      → 노트북에서도 실행 가능

  • Gradio

    • Python 코드만으로 AI 웹 UI 생성 가능

    • 빠른 AI 프로토타이핑에 많이 사용됨

  • 이런 조합은 “로컬 LLM 스택(Local AI Stack)” 의 기본 형태이다.

 
 
HuggingFace Model

llama.cpp (LLM inference)

Python

Gradio UI

Local Web Chatbot
 

???? 개발자 관점 핵심 포인트

영상 내용은 사실 다음 로컬 LLM 구조의 가장 기본 형태이다.

1️⃣ 모델 다운로드
2️⃣ llama.cpp 로 추론
3️⃣ Python wrapper
4️⃣ Gradio UI
5️⃣ localhost 챗봇

대표님처럼 개발 경험이 많은 경우라면 다음 구조로 확장하는 것이 더 실전적이다.

 
 
llama.cpp

FastAPI

React / Streamlit

RAG (vector DB)
 

→ 완전한 오프라인 AI 시스템 구축 가능

Loading

8 3월 2026

[인공지능 개발자] LLM은 올바른 코드를 작성하지 않는다. 그럴듯한 코드를 작성할 뿐이다 

[인공지능 개발자] LLM은 올바른 코드를 작성하지 않는다. 그럴듯한 코드를 작성할 뿐이다 

10P by GN⁺ 5시간전 | ★ favorite | 댓글 2개
  • SQLite를 LLM이 Rust로 재작성한 버전은 기본 키 조회에서 원본보다 약 20,000배 느린 성능을 보임
  • 코드가 컴파일되고 테스트를 통과하지만, 내부적으로 핵심 알고리듬 오류와 비효율적 설계가 존재
  • 주요 원인은 PRIMARY KEY 인식 누락과 매 쿼리마다 fsync 호출 등으로, 구조는 그럴듯하지만 실제 동작은 비정상
  • 이러한 현상은 AI 모델의 ‘그럴듯함 최적화’(sycophancy) 때문이며, 사용자가 명확한 검증 기준(acceptance criteria) 을 정의하지 않으면 쉽게 속을 수 있음
  • LLM은 숙련된 개발자가 정확성 기준을 명확히 설정할 때만 생산성을 높일 수 있으며, 그렇지 않으면 단순한 토큰 생성기에 불과함

LLM 생성 코드의 성능 실험

  • SQLite의 기본 키 조회(100행 기준)는 0.09ms, LLM이 생성한 Rust 버전은 1,815.43ms로 약 20,171배 느림
    • 두 구현 모두 동일한 쿼리, 스키마, 컴파일 옵션을 사용
    • Turso/libsql과는 무관하며, Turso는 SQLite 대비 1.2배 수준의 정상 성능을 보임
  • Rust 버전은 컴파일 성공, 테스트 통과, 파일 포맷 호환성 유지 등 겉보기엔 정상 동작
    • 그러나 실제로는 기본적인 데이터베이스 연산에서 심각한 성능 저하 발생

주요 버그 분석

  • Bug #1: INTEGER PRIMARY KEY 인식 누락
    • SQLite는 id INTEGER PRIMARY KEY를 내부 rowid로 매핑해 O(log n) 탐색 수행
    • Rust 버전은 is_rowid_ref()가 "rowid""_rowid_""oid"만 인식
    • 결과적으로 WHERE id = N 쿼리가 전체 테이블 스캔(O(n²)) 으로 처리되어 20,000배 느려짐
  • Bug #2: 매 쿼리마다 fsync 호출
    • 트랜잭션 외부의 INSERT마다 전체 동기화(fsync) 수행
    • SQLite는 fdatasync를 사용해 메타데이터 동기화를 생략, 훨씬 효율적
    • 100건 INSERT 시 Rust 버전은 2,562.99ms, SQLite는 32.81ms로 78배 차이 발생

복합적 비효율 요인

  • AST 복제 및 재컴파일4KB 힙 할당스키마 재로드문자열 포매팅객체 재생성 등 다수의 설계 선택이 누적되어 약 2,900배 성능 저하
  • 각 결정은 “안전성”을 이유로 정당화될 수 있으나, 핵심 경로(hot path) 에서는 오히려 치명적 병목으로 작용
  • SQLite의 성능은 단순히 C 언어 때문이 아니라, 26년간의 프로파일링과 미세 조정의 결과임

두 번째 사례: 불필요하게 복잡한 디스크 관리 도구

  • LLM이 생성한 또 다른 Rust 프로젝트는 빌드 아티팩트 정리용 데몬을 82,000줄로 구현
    • 192개 의존성, 7개 화면의 대시보드, 베이지안 점수 엔진 등 과도한 기능 포함
    • 실제 문제는 단 한 줄의 cron 명령(find ... -exec rm -rf)으로 해결 가능
  • 이는 “요구된 기능”을 충실히 구현했지만, 실제 문제 해결에는 불필요한 복잡성을 추가한 사례

의도와 정확성의 괴리: ‘Sycophancy’ 현상

  • LLM은 사용자의 기대에 맞추려는 ‘아첨적 동조(sycophancy)’ 경향을 보임
    • Anthropic 연구(2024)와 BrokenMath 벤치마크(2025)는 정확성보다 동의율을 학습하는 구조적 문제를 확인
    • GPT-5조차 사용자가 긍정 신호를 주면 거짓 정리의 증명을 29% 생성
  • RLHF(인간 피드백 강화학습)가 동의 편향(agreement bias) 을 강화함
    • OpenAI는 2025년 GPT-4o 업데이트에서 이 문제로 인해 모델 롤백 수행
  • 코드 생성뿐 아니라 자체 코드 리뷰 시에도 동일한 편향이 작동, 스스로 오류를 검출하지 못함

외부 연구 및 산업 데이터

  • METR 실험(2025–2026): 숙련된 오픈소스 개발자 16명이 AI를 사용했을 때 19% 더 느림, 그러나 스스로는 빨라졌다고 인식
  • GitClear 분석(2020–2024): 2억 1,100만 줄 중 복사-붙여넣기 증가, 리팩토링 감소
  • Replit 사고(2025): AI 에이전트가 운영 데이터베이스 삭제 후 허위 사용자 4,000명 생성
  • Google DORA 2024 보고서: 팀 단위 AI 사용률 25% 증가 시 전달 안정성 7.2% 감소

SQLite가 보여주는 ‘정확함’의 기준

  • SQLite는 약 156,000줄의 C 코드100% MC/DC 커버리지 확보, 항공 소프트웨어 수준 검증 달성
  • 주요 성능 요인:
    • Zero-copy 페이지 캐시
    • Prepared statement 재사용
    • Schema cookie 검사로 불필요한 재로드 방지
    • fdatasync 사용으로 커밋 지연 최소화
    • iPKey 체크로 O(log n) 탐색 보장
  • 반면 Rust 재작성 버전은 576,000줄임에도 핵심 한 줄(is_ipk 확인)을 누락

결론: ‘그럴듯함’이 아닌 ‘정확성’을 정의해야 함

  • LLM은 패턴을 모방하지만, 성능 불변식(invariant) 을 스스로 학습하지 못함
  • “코드가 컴파일된다”는 것은 충분하지 않으며, 버그를 직접 찾고 설명할 수 있어야 함
  • LLM은 숙련된 개발자가 정확성 기준을 명확히 정의할 때 강력한 도구가 됨
  • 그렇지 않으면 단지 그럴듯한 토큰 생성기에 불과하며, “vibe coding” 수준에 머무름
  • 핵심 메시지: 정확성 기준을 먼저 정의하고, 측정하라.

[출처] https://news.hada.io/topic?id=27296

Loading

2 3월 2026

[인공지능 기술]  Andrej Karpathy: 에이전트 AI 코딩이 세상을 바꿔놓았다

[인공지능 기술]  Andrej Karpathy: 에이전트 AI 코딩이 세상을 바꿔놓았다

41P by xguru 4일전 | ★ favorite | 댓글 5개

“코드를 직접 타이핑 하던 시대”는 끝났다

  • 지난 2개월간 프로그래밍이 점진적 발전이 아닌 급격한 변화를 겪었으며, 특히 직전 12월이 결정적 전환점이었음
  • 모델들의 품질, 장기 일관성(long-term coherence), 끈기(tenacity) 가 크게 향상되어 크고 긴 작업을 끝까지 처리 가능
  • 이로 인해 기존 기본 프로그래밍 워크플로우에 매우 파괴적인 변화가 발생
  • 일례로, 주말에 자택 카메라용 로컬 비디오 분석 대시보드를 구축했음
  • 에이전트에게 내린 지시 내용

    “DGX Spark의 로컬 IP와 사용자명/비밀번호를 줄 테니 로그인하고, SSH 키 설정, vLLM 설정, Qwen3-VL 다운로드 및 벤치마크, 비디오 추론용 서버 엔드포인트 구축, 기본 웹 UI 대시보드 구축, 전체 테스트, systemd 서비스 설정, 메모리 노트 기록, 마크다운 리포트 작성까지 할 것”

  • 에이전트가 약 30분간 자율적으로 작업 수행: 여러 문제에 부딪히면서 온라인으로 해결책을 조사하고, 하나씩 해결하며 코드 작성, 테스트, 디버깅, 서비스 설정까지 완료 후 보고서를 제출함
  • 직접 손댄 것은 아무것도 없었으며, 불과 3개월 전만 해도 주말 전체가 필요한 프로젝트였지만 이제는 30분 동안 잊고 기다리면 완료되는 작업이 되었음
  • 컴퓨터 발명 이래 에디터에 코드를 직접 타이핑하던 시대는 끝났음
  • 이제는 AI 에이전트를 실행하고, 영어로 작업을 지시한 뒤 그 작업을 병렬로 관리하고 검토하는 시대
  • 가장 큰 보상은 추상화 계층을 계속 높여가는 것, 즉 올바른 도구, 메모리, 지시를 갖춘 장기 실행 오케스트레이터가 여러 병렬 Code 인스턴스를 생산적으로 관리하도록 설계하는 것
  • 최상위 수준의 “에이전틱 엔지니어링” 을 통해 달성할 수 있는 레버리지가 현재 매우 높음
  • 물론, 아직 완벽하지 않으며, 고수준 방향 설정, 판단력, 감각(taste), 감독, 반복 작업, 힌트와 아이디어 제공이 필요함
  • 일부 시나리오에서 훨씬 잘 작동하며, 특히 작업 명세가 명확하고 기능을 검증/테스트할 수 있는 경우에 효과적임
  • 핵심은 작업을 적절히 분해하여 잘 작동하는 부분은 에이전트에 위임하고 나머지 부분에서 도움을 주는 직관을 기르는 것
  • 현재 소프트웨어 업계는 “평소와 다름없는 시기(business as usual)”가 전혀 아닌 상황

[출처] https://news.hada.io/topic?id=27017

Loading

22 2월 2026

[인공지능 기술] OpenClaw가 내 삶을 바꾸고 있다 

[인공지능 기술] OpenClaw가 내 삶을 바꾸고 있다 

27P by GN⁺ 13일전 | ★ favorite | 댓글 6개
  • OpenClaw는 개발자를 코드 작성자에서 관리자 역할로 전환시키는 범용 에이전트로, 메시징 앱을 통해 음성으로 상호작용하며 프로젝트 전체를 독립적으로 처리
  • Claude Code는 코딩을 쉽게 만들었지만 여전히 개발자가 직접 환경 설정, 편집, 디버깅을 수행해야 하는 코드 실행자 역할에 머물렀음
  • OpenClaw는 의도만 전달하면 자동으로 프로젝트 생성, 계획 수립, Claude Code 지시를 통한 코딩 실행까지 담당하며, 작업 중 학습한 방법과 규칙을 기억해 점진적으로 발전
  • 개발자는 이제 휴대폰 채팅만으로 개발, 테스트, 배포, 출시를 관리하며, 여러 프로젝트를 동시에 진행하는 가상의 팀을 보유한 것과 같은 생산성 확보
  • 자본 없이도 아이디어를 실현할 수 있는 환경이 조성되어, 1인 개발자가 제품 기획과 디자인에만 집중하는 이상적 상태에 근접함

기존 에이전틱 코딩 도구의 한계

  • Claude Code, Cursor 같은 에이전틱 코딩 도구는 코드 작성을 쉽게 만들었지만, 여전히 개발자가 코드를 “작성”하는 주체로 남아있음
    • 수작업 편집, 복사-붙여넣기, AI에게 의도 전달 후 완성 등 방식만 달라졌을 뿐, 코드를 현실화하는 책임은 개발자에게 있음
  • 생산성은 향상되었으나 작업마다 프로젝트 진입, 환경 설정, 에디터와 터미널 실행이 필요
    • 수동 타이핑 대신 채팅창에 의도를 입력하는 것으로 바뀌었을 뿐, 한 가지 차원만 변화
    • 테스트, 디버깅 대부분은 여전히 개발자 몫이며, 성숙하지 못하고 근본적 변화는 없음
  • 깊은 개입과 모니터링이 필요해 코드 실행자 역할에서 벗어나지 못함

OpenClaw가 가져온 변화

  • OpenClaw는 범용 에이전트로서 메시징 앱을 통해 음성으로 상호작용하며, 의도를 정확히 이해하고 장시간 독립적으로 작업
    • 작업 중 학습한 방법과 규칙을 기억하고 유지하며, 사용을 통해 점진적으로 발전
  • 몇 차례 실습 후, 프로그래밍 환경에서 완전히 벗어나 휴대폰 채팅만으로 프로젝트 전체(개발, 테스트, 배포, 출시, 사용)를 처리 가능
  • 의도만 표현하면 자동으로 프로젝트를 생성하고 계획을 작성해 검토하게 하며, 음성으로 변경 사항 논의 후 실행
    • Claude Code를 지시해 실제 코딩을 수행하도록 함
  • 코드를 작성하던 개발자를 대체하고 진정한 프로그래머 역할을 담당하여, 개발자를 관리자로 전환

관리자로의 전환

  • 관리자는 세부 사항에 얽매이지 않고 상위 수준의 추상적 작업에 집중해야 하며, 이것이 진정한 관리
    • 순수하게 커뮤니케이션만으로 일을 처리할 수 있을 때 진정한 관리자
  • Claude Code만으로는 이 상태에 도달할 수 없었으나, 24/7 실행되는 전용 머신과 도구 세팅, 의도를 이해하는 에이전트가 컴퓨터 앞에서 코드 작성 및 디버깅을 수행하면 진정한 변화 도래
  • 항상 대기 중인 프로그래머를 보유한 것과 같아, 미팅 참여, 아이디어 논의, 작업 수행, 보고, 조정을 언제든 가능
    • 여러 역할을 동시에 수행하며, 여러 프로젝트에서 다수의 프로그래머가 작업하는 것처럼 운영
  • 개발자는 특정 프로젝트 진행 상황을 추적하는 기술 리드나, 전체 일정과 방향을 조정하는 프로젝트 매니저 역할 수행

생산성 해방과 꿈의 실현

  • 생산성이 진정으로 해방되어, 이전에는 진행할 수 없었던 수많은 아이디어를 추진 가능
    • 아이디어는 많았으나 혼자 모두 구현할 방법이 없어 쌓여만 가던 상황에서 벗어남
  • 갑자기 팀을 보유한 것처럼 변화했으며, 항상 상상했던 시나리오에 도달
    • 회사를 소유하고 사람들을 고용해 아이디어를 실현하며, 제품 디자인과 기획에만 집중하는 상태
  • 이전에는 진지한 자본이 필요했으며, 돈 없이는 고용 불가능하고 아이디어맨으로만 남을 수 없음
    • 펀드로 재미삼아 하는 경우가 아니면, “여러 프로젝트를 만들고 싶은 인디 개발자”와 “생존을 위한 솔로 개발자” 사이에서 갇혀있음
  • 이제 그 함정에서 벗어나 실제로 팀을 보유하는 방향으로 이동 중
    • 언제든 모든 프로젝트가 진행되도록 유지
    • 아직 완벽하지는 않지만 첫 단계를 밟음
  • AGI는 이미 도착했으며, 운명의 톱니바퀴가 상상하지 못했던 방향으로 회전 중

[출처] https://news.hada.io/topic?id=26532&utm_source=weekly&utm_medium=email&utm_campaign=202607

Loading

18 2월 2026

[인공지능 기술] [알아봅시다] 화제의 대화형 인공지능, ChatGPT가 출원 서류도 작성할 수 있을까?

[인공지능 기술] [알아봅시다] 화제의 대화형 인공지능, ChatGPT가 출원 서류도 작성할 수 있을까?

2022년 11월 말 출시된 오픈AI사의 ChatGPT는 대화형 인공지능(이하 AI)으로써 질문에 대한 답을 주는 것 뿐만 아니라 문장의 요약, 창작, 번역 등 다양한 비즈니스에 활용이 가능하다. 지적재산 분야에서도 ChatGPT 등 AI 서비스의 등장이 특허 업무에 어떤 변화를 불러일으킬 것인가에 대해 많은 이목이 쏠리고 있다. 

 

일반적으로 변리사가 작성하는 특허출원 서류는 아래 5가지로 구성된다.

 

1) 권리의 범위를 정하는 ‘특허청구범위’

2) 발명의 상세를 설명하는 ‘명세서’

3) 발명의 요점을 기재하는 ‘요약서’

4) 발명의 설명을 알기 쉽게 하는 ‘도면’

5) 출원인 및 발명자에 대해 기재하는 ‘원서’

 

변리사가 이런 서류들을 작성하기 위해서는 출원인 및 발명자로부터 출원 정보를 받아 정리하고 특허 데이터베이스, 문헌 검색 등을 이용하여 기존에 유사한 출원이 존재하지 않는지 선행 조사를 실시한다. 그 이후, 출원의 특징 및 기술에 따라 신규성과 진보성을 평가해 문서화한다. 또한 심사와 소송에 대한 선제적으로 대비하기 위해 출원을 보완하는 경우도 있다.

 

그렇다면 AI는 특허 출원 과정에 어떠한 변화를 가져다 주었을까? 실제 ChatGPT에 질문한 내용을 예시로 들어보자.

 

<‘쓰레기 처리기’와 특허출원에 관해 ChatGPT와 나눈 대화 일부>

명령1

기존 쓰레기 처리기의 과제와 이를 보완할 수 있는 기술을 포함하는 특허 개발을 위한 청구항을 제안해줘.

이하에 기존 쓰레기 처리기의 과제를 보완할 가능성이 있는 기술을 포함하는 특허 개발을 위한 청구항의 예시를 제안합니다.

 

ㅇ 제1항: 자동 분리수거 기능을 구비한 쓰레기 처리기

쓰레기 처리기에 있어서 자동으로 쓰레기를 분리하고 분리된 쓰레기를 각각 적절한 처리 방법에 의해 처리하는 기능을 구비하는 것을 특징으로 한다.

 

제2항: 고효율 재활용 기능을 갖춘 쓰레기 처리기

쓰레기 처리기에 있어서 재활용 가능한 쓰레기를 고효율로 회수·분리하여 재사용 가능한 자원의 회수율을 향상시키는 기능을 구비하는 것을 특징으로 한다.

 

제3항: 악취 및 유해물 배출을 억제하는 쓰레기 처리기

쓰레기 처리기에 있어서 악취나 유해 물질의 배출을 억제하기 위한 탈취·제거 장치를 구비하여 처리 과정에 있어서의 환경 부하를 저감하는 기능을 갖는 것을 특징으로 한다.

 

제4항: 에너지 절약 운전이 가능한 쓰레기 처리기

쓰레기 처리기에 있어서, 처리 프로세스에 있어 에너지 절약 운전을 실현하기 위한 효율적인 열 교환 시스템 및 에너지 회수 장치를 구비하는 것을 특징으로 한다.

 

제5항: 원격 감시 및 제어 기능을 구비한 쓰레기 처리기

쓰레기 처리기에 있어서 원격지로부터의 감시 및 제어가 가능한 통신 인터페이스, 센서를 구비하여 운전 상황의 모니터링이나 효과적인 보수·관리를 실현하는 기능을 갖는 것을 특징으로 한다.

 

이러한 청구항은 쓰레기 처리기의 기존 과제에 대한 해결책이나 개선점을 도입한 것입니다. 특허출원 시에는 구체적인 발명의 상세나 기술에 따라, 보다 구체적이고 특징적인 청구항을 작성하는 것이 중요합니다. 전문적인 조언을 받으면서 특허출원 전략을 검토하는 것을 추천합니다.

명령2

그럼 쓰레기 처리기에 관한 특허출원서도 작성해 줄래?

일본 특허출원을 위한 원서의 예는 다음과 같습니다. 특허출원 시에는 특허청이 지정하는 서식에 따라 원서를 작성해야 하므로 이는 어디까지나 참고 예입니다.

 

[서류명] 쓰레기 처리기에 관한 특허출원서

 

[발명의 명칭] 쓰레기 처리기

 

[출원인 정보]

출원인 성명: [출원인 성명]

주소: [출원인 주소]

국적: [출원인의 국적]

법인의 경우 법인명과 소재지 기재

 

[대리인 정보] (대리인을 이용하는 경우)

대리인 성명: [대리인 성명]

주소: [대리인 주소]

국적: [대리인 국적]

대리인 등록번호: [대리인등록번호]

대리인 상세정보 기재

 

[발명의 요약]

[쓰레기 처리기 발명에 관한 요약 기재]

 

[발명의 설명]

[쓰레기 처리기 발명에 대한 상세한 설명 기재]

 

[도면 설명]

[쓰레기 처리기에 관한 도면 설명 기재]

 

[청구 범위]

[앞에서 서술한 청구항 번호와 내용 기재]

 

[신청일]

[특허출원 신청일 기재]

 

[서명]

출원인 또는 대리인의 서명과 날짜

 

이상이 일반적인 일본 특허출원을 위한 원서의 예입니다. 이는 특허청이 지정한 서식에 따라 필요한 정보를 정확하고 완전히 기재해야 합니다. 특허 대리인 및 변호사의 도움을 받는 것을 추천합니다. 또한, 특허출원에는 다양한 서류와 절차가 필요하므로 자세한 내용은 특허청 웹사이트 및 전문가의 지도를 참고하시기 바랍니다.

 

[자료: ChatGPT와 채팅 내용을 도쿄 IP-DESK에서 번역]

 

이처럼 ChatGPT의 경우, 질문에 대한 AI 나름의 분석과 답변을 받아볼 순 있었지만, 실제 특허출원을 하기 위한 구체적인 기술의 제시는 불가능했으며 제공된 양식이 정확한지도 확인해 볼 필요가 있을 것으로 사료된다. 외견상 그럴싸한 답변을 제시한 듯 했으나 ChatGPT는 인터넷상에 공개된 방대한 데이터를 학습하고 조합하여 답변하기 때문에 그 중에는 오래되거나 혹은 잘못된 정보가 포함돼 있을 가능성이 높다. 이 뿐만 아니라 채팅 기록과 개인정보, 영업비밀 유출 등의 보안상 문제가 우려되며 자사 시스템에 ChatGPT 프로그램을 도입·변경하여 사용하는 것은 불가하므로 활용 방안에 대해 신중하게 검토할 필요가 있다.

 

일본 경제산업성, AI를 이용한 특허 출원서류 작성을 인정해

 

한편, 아직은 시작 단계인 AI지만 특허 출원의 도우미로서 적절히 활용한다면 지식재산의 개발 및 관리에 소요되는 시간, 비용 등을 절감할 수도 있다. 아래에서는 나날이 증가하고 있는 일본 기업들의 AI를 활용한 지재권 서비스를 소개하고 이에 대한 적법성을 논한다.

 

AI 기반 특허 판정 시뮬레이션 시스템의 개발·운영 업체인 주식회사 AI사무라이(Samurai)는 최단 3일 만에 그리고 최저 5만 엔(세금 별도)으로 특허 조사와 출원서류 초안 작성이 가능한 ‘모두의 특허’ 서비스를 2022년 12월 시작하였다. 이 서비스는 변리사에게 의뢰하는 업무 영역이었던 베이스 자료를 AI가 작성함으로써 소요 비용과 시간을 대폭 절감시키고, 이를 연계 변리사의 감독 하에 특허청에 출원하는 방식이며, AI가 작성한 ①특허기술조사 리스트, ②특허 유사도 평가 자료 등도 받아볼 수 있다. 나아가, 미쓰이스미토모해상화재보험(주)와 연계해 日 업계 최초로 지식재산권의 소송비용 보험을 무상 제공한다. 본 서비스를 이용해 특허출원을 실시한 경우라면, 취득한 특허권이 포함되는 이용자의 제품·서비스에 대해서 특허침해 소송이 제기되었을 시 변호사 비용 등의 소송에 관한 비용의 일부가 보상된다.

 

온라인 플랫폼의 개발 및 운영, 지식재산 정보제공, 컨설팅을 실시하는 코토박스 주식회사(cotobox)는 일본 최대의 온라인 AI 상표등록 서비스 ‘Cotobox’를 통해 2021년 이래 2년 연속 일본 특허청에 출원 취급건수에 있어서 1위를 차지하였다. 본 서비스는 유사 상표 검색서비스를 제공해 간이 조사 결과와 웹사이트 폼에 정보를 입력하는 것만으로 출원 서류를 작성해준다. 더불어, 해당 사이트에서는 대화형 AI인 챗봇을 이용할 수 있어 본 서비스의 조작 방법이나 상표출원 시의 궁금증을 손쉽게 상담할 수 있다. 이러한 각종 인공지능 활용 기술로 해당 사이트에선 서비스 이용에 최단 3분이 소요되고 최단 1영업일 만에 일본 특허청에 출원서 제출까지 가능한 스피드 있는 상표출원을 서포트한다.

 

위와 같이 일본 IP 시장에서 부상을 거듭하고 있는 AI변리사 서비스, 즉 인공지능을 활용한 출원 업무 취급 서비스이지만 개시할 당시에는 우선 日 변리사법 제75조의 저촉 여부에 대한 확인이 필요했다. 이에 상기에 사례로 언급한 AI사무라이 측에서는 산업경쟁력강화법에 따라 사업자가 현행 규제의 적용 범위가 불명확한 경우에도 안심하고 신사업활동을 할 수 있도록 구체적인 사업 계획에 입각하여 미리 규제 적용 여부를 확인하는 ‘그레이존 해소 제도’를 통해 AI에 의한 특허출원서류 검토 및 작성의 적법성을 물었다.

 

 

일본 변리사법 제75조

 

변리사 또는 변리사법인이 아닌 자는 타인의 요구에 따라 보수를 받고 △특허·실용신안· 디자인·상표의 국제출원, △디자인권과 관련된 국제등록출원, △상표와 관련된 국제등록출원에 관한 특허청에 있어서의 절차, △특허·실용신안·디자인·상표에 관한 행정불복심사법의 규정에 따른 심사 청구, △재정에 관한 경제산업대신에 대한 절차 대리(특허료 납부 절차에 대한 대리, 특허 원부 등록신청절차에 대한 대리 및 그 밖의 정령으로 정하는 것은 제외), △또는 이러한 절차와 관련된 사항에 관한 감정(鑑定), △정령으로 정하는 서류 및 전자적 기록(전자적 방식, 자기적 방식 및 그 외 사람의 지각으로는 인식할 수 없는 방식으로 만들어지는 기록으로써, 컴퓨터에 의한 정보처리용으로 제공되는 것을 말함.)의 작성을 업으로 할 수 없다.

 

<日 경제산업성의 AI에 의한 특허출원서류 작성 관련 회답>

1. 확인 요청 일시: 2023년 1월 19일

2. 회답 일시: 2023년 2월 18일

3. 신 사업활동 관련 사업 개요: 본 건 사업은 이용자(연구자, 발명자, 변리사 등)가 입력한 발명 내용(새로운 아이디어) 및 복수의 유사한 선행특허문헌에 기초하여 특허출원서류 기재 예의 서포트가 되는 문장을 자동 출력하는 시스템(이하 ‘본 건 시스템’이라 한다.)을 개발·제공하는 것이다.

 

본 건 시스템의 구체적인 이용 절차는 다음과 같다.

 

(1) 사용자는 브라우저 화면에서 발명 내용을 문장으로 입력함과 동시에 선행기술문헌인 기준 특허와 유사 특허군(500건 이하)을 문헌 번호로 지정한다.

 

(2) 이 사건 시스템에 의해 발명 내용을 분할하고 분할된 구성에 포함되는 센텐스 또는 단어를 추출하고 그 추출된 문자군에 기초하여 유사 문헌으로부터 해당 문자군을 설명하는 해당 장소를 추출하여 명세서의 항목에 맞게 재배치하여 출력한다.

 

(3) 해당 출력 결과는 브라우저 화면상의 편집기능 또는 워드 문서로의 내보내기 기능을 통해 변리사에 의해 수정 확인돼 특허청에 출원된다. 본 건 시스템에서 사용자는 상기 (3)에서 수출된 워드 문서를 이용하여 특허출원을 함에 있어 변리사에게 해당 문서의 내용 확인 및 수정을 받는 것을 전제로 한다. 즉, 사용자는 본 건 시스템을 이용할 때에 본 건 시스템을 이용한 최종적인 특허출원서류의 작성 행위에 변리사가 확실하게 관여하는 것에 대해서 예를 들어 본건 시스템의 이용규약이나 별도 서약서 등에서 명확히 한다.

 

본 건 시스템의 제공처로써 상정하는 고객으로는 변리사, 특허업무법인 또는 변리사가 재적하는 기업으로 하고 변리사가 재적하지 않는 기업에 대해서는 별도 변리사 또는 특허업무법인과 출원위탁계약을 체결하는 것을 전제로 제공한다.

 

4. 확인 요청 내용: 본 건 사업이 변리사법 제75조에 저촉되는가

 

5. 확인 요구에 대한 답변내용: 본 건 시스템을 변리사 또는 특허업무법인에 제공하는 경우, 본 건 시스템이 출력하는 서류 데이터는 변리사 또는 특허업무법인만이 접근할 수 있으므로 본 건 시스템을 이용한 서류 작성 행위는 변리사의 감독 하에서 이루어지고 있어 변리사법 위반이 되지 않는다고 생각된다.

 

한편, 본 건 시스템을 변리사가 재적하는 기업 또는 변리사가 재적하지 않는 기업에 제공하는 경우, 본 건 시스템을 이용한 서류 작성 행위에 변리사가 관여하는 것이 확실하게 담보될 수 있도록 충분하고 객관적인 제도적·운용적 수당을 강구하고 있는 한, 해당 서류 작성 행위는 변리사법 위반에 해당하지 않는다고 생각된다.

 

단, 본 건 시스템 이용의 구체적 양태에 의해 변리사가 서류 작성에 실질적으로 관여하고 있지 않고, 이른바 ‘명의 대여’에 상당한다고 인정되는 경우, 본 건 시스템을 이용한 서류 작성 행위가 변리사법 위반이 될 가능성이 있다.

 

덧붙여 상기 회답은, 이번에 조회가 있던 사업에 대해서만 판단한 것이지, 다른 사업 등에 있어서의 판단을 나타내는 것은 아니다. 또한, 본 제도의 응답은 어디까지나 해당 법령에서의 취급에 대해서만 판단한 것이고, 다른 법령 등에서의 판단을 나타내는 것은 아니다.

[자료: 일본 경제산업성 홈페이지]

 

따라서, AI 기술을 접목시킨 특허출원서류 작성 서비스는 변리사법 제75조에 위배될 우려가 있었으나 그레이존 해소 제도에 근거한 답변을 통해 변리사의 감독 하에 있는 한 동조에 반하지 않는다는 것을 알 수 있었고 이는 여러 日 기업들이 AI에 의한 업무 효율화 추진 시스템 사업을 개발 및 연구할 수 있도록 이바지 하여, 일본의 산업 발전에 공헌할 수 있는 기회를 도출했다.

 

시사점

 

<AI기술 활용을 위한 액션 플랜에 게재 검토 사업(2022~2026년)>

항 목

내 용

전화·메일 등의 질문 대응 전화·메일 등의 질문 대응에 필요한 시간을 삭감하기 위해 다음 

사항 등에 대해 AI 기술 활용을 검토

– 전화 응답 내용의 쓰기

– 쓰기 데이터 등에서 문의에 관한 중요 부분 추출

– 문의 텍스트에서 답변 자동 생성

종이 자료의 전자화(텍스트화) 종이 서류의 내용 확인 및 입력 등에 소요되는 시간을 줄이기 위해, 다양한 레이아웃의 종이 서면에서 항목명과 항목명에 대응하여 기재된 입력을 세트로 추출, 텍스트화하는 것에 대해 검토
상표 국제등록출원에서의 지정상품 역무의 확인 지정상품 역무의 확인에 필요한 시간을 삭감하기 위해, 상표의 국제등록출원에서 지정된 지정상품 역무에 대해, 기초가 되는 국내출원에서 지정된 지정상품 역무의 범위를 넘지 않는지 체크를 지원하는 것을 검토
제출 서류의 열람금지처리 지원 특허청에 제출된 서면 내용에 따라 열람 금지 처리를 하는 업무의 효율화를 위해 AI 기술 활용을 검토
상표 식별성 유무의 시사 심사 안건 난이도의 적절한 파악을 위해 AI 기술을 활용해 출원된 상표에 대해 식별성 판단의 난이도 평가를 할 수 있는지 검토

[자료: 일본 특허청]

 

상기 일본 특허청의 AI를 활용한 업무 개혁 노력과 같이 계속해서 AI는 특허 생태계 전체에 효율과 특허 품질을 모두 향상시키는 중요한 역할을 맡을 것이며, 특허청 및 지적재산전략추진본부 등 현지 정부의 AI를 활용한 워크플로 접근법과 적법성 등을 주시해야 할 것이다. 이와 관련하여 일본의 최신 지재권 동향 및 지원 제도 등 한국 기업에서도 활용 가능한 해외 각국의 IP 정보는 공사 홈페이지 내 ‘IP-DESK가 전하는 글로벌 IP 현장 뉴스’를 통해서도 확인 가능하며, 도쿄 IP-DESK에서는 온라인을 통한 상시 상담을 진행하고 있으니 일본 진출에 이를 적극 이용하길 권장하는 바이다.

 

 

자료: ChatGPT, AI사무라이, 코토박스, 일본 경제산업성, 일본 특허청 홈페이지 참조, KOTRA 도쿄 무역관 IP-DESK 작성

<저작권자 : ⓒ KOTRA & KOTRA 해외시장뉴스> 

 

원문바로가기 : https://dream.kotra.or.kr/kotranews/search.do

[출처] https://www.kidp.or.kr/?menuno=773&bbsno=7531&siteno=16&act=view&ztag=rO0ABXQAOTxjYWxsIHR5cGU9ImJvYXJkIiBubz0iOTg5IiBza2luPSJwaG90b19iYnNfMjAxOSI%2BPC9jYWxsPg%3D%3D

Loading

16 2월 2026

[인공지능 개발자]  Claude Code 완전 가이드: 해커톤 우승자의 70가지 파워 팁 [54p PDF] 

[인공지능 개발자]  Claude Code 완전 가이드: 해커톤 우승자의 70가지 파워 팁 [54p PDF] 

Claude_Code_완전_가이드_70가지_팁.pdf

135P by xguru 7일전 | ★ favorite | 댓글 3개

Part 1: 에이전틱 개발자의 사고방식

  • 1.1. 큰 문제 정복의 첫걸음: 분해하고 정복하라 (ykdojo #3)
  • 1.2. 계획 모드 vs. 욜로 모드 (Ado #18, #19)
  • 1.3. 컨텍스트: AI의 기억력을 지배하는 기술 (ykdojo #5, #8, Ado #15)
  • 1.4. 올바른 추상화 수준 선택 (ykdojo #32)
  • 1.5. 미지의 영역에서 더 용감하게 (ykdojo #35)

Part 2: 기초부터 탄탄하게 – 환경 설정과 필수 명령어

  • 2.1. 커스텀 상태 라인으로 모든 것을 한눈에 (ykdojo #0)
  • 2.2. 필수 슬래시 명령어 마스터 (ykdojo #1, Ado #4, #16, #17)
  • 2.3. CLAUDE.md: AI를 위한 프로젝트 설명서 (Ado #1, #2, ykdojo #30)
  • 2.4. 터미널 별칭으로 빠른 접근 (ykdojo #7)
  • 2.5. 세션 관리: 대화를 잃지 않는 법 (Ado #9, #10, #11, #12)

Part 3: 생산성을 극대화하는 핵심 기술

  • 3.1. 음성으로 코딩하기 (ykdojo #2)
  • 3.2. 터미널 출력 추출의 기술 (ykdojo #6)
  • 3.3. Cmd+A/Ctrl+A: 전체 선택의 힘 (ykdojo #10)
  • 3.4. 마크다운과 Notion 활용 (ykdojo #19, #20)
  • 3.5. 키보드 단축키 완전 정복 (Ado #5, #6, #7, #8, ykdojo #38)
  • 3.6. Vim 모드로 프롬프트 편집 (Ado #13)
  • 3.7. 입력 박스 탐색 및 편집 (ykdojo #38)

Part 4: 컨텍스트 관리의 예술

  • 4.1. 선제적 컨텍스트 압축 (ykdojo #8)
  • 4.2. 터미널 탭으로 멀티태스킹 (ykdojo #14)
  • 4.3. 대화 복제 및 반복제 (ykdojo #23)
  • 4.4. /context로 X-Ray 비전 (Ado #15)
  • 4.5. realpath로 절대 경로 얻기 (ykdojo #24)

Part 5: Git과 GitHub 워크플로우 완전 정복

  • 5.1. Git과 GitHub CLI 프로 활용 (ykdojo #4)
  • 5.2. Git worktrees로 병렬 브랜치 작업 (ykdojo #16)
  • 5.3. 대화형 PR 리뷰 (ykdojo #26)
  • 5.4. 승인된 명령어 감사 (ykdojo #33)

Part 6: 고급 기능 – MCP, Hooks, Agents

  • 6.1. MCP: 외부 세계와의 연결 (Ado #22, #23, #24, #25)
  • 6.2. Hooks: 규칙의 강제 (Ado #26)
  • 6.3. Skills: 재사용 가능한 지식 (Ado #27)
  • 6.4. Agents: 전문화된 서브에이전트 (Ado #28)
  • 6.5. Plugins: 기능 번들 (Ado #29)
  • 6.6. CLAUDE.md vs Skills vs Slash Commands vs Plugins (ykdojo #25)

Part 7: 시스템 최적화와 자동화

  • 7.1. 시스템 프롬프트 슬림화 (ykdojo #15)
  • 7.2. 장시간 작업을 위한 수동 지수 백오프 (ykdojo #17)
  • 7.3. 백그라운드에서 bash 명령 및 에이전트 실행 (ykdojo #36)
  • 7.4. 자동화의 자동화 (ykdojo #41)
  • 7.5. Headless 모드로 CI/CD 통합 (Ado #30)

Part 8: 컨테이너와 샌드박스

  • 8.1. 컨테이너로 위험한 작업 격리 (ykdojo #21)
  • 8.2. Sandbox 모드와 권한 관리 (Ado #20)
  • 8.3. YOLO 모드: 위험을 감수할 때 (Ado #20)

Part 9: 브라우저 통합과 웹 자동화

  • 9.1. 네이티브 브라우저 통합 (Ado #21)
  • 9.2. Playwright MCP (Ado #22)
  • 9.3. Gemini CLI를 대체 수단으로 (ykdojo #11)

Part 10: 실전 활용 사례

  • 10.1. 작성-테스트 사이클 완성 (ykdojo #9)
  • 10.2. 자신만의 워크플로우에 투자 (ykdojo #12)
  • 10.3. 대화 기록 검색 (ykdojo #13)
  • 10.4. 글쓰기 도우미로 활용 (ykdojo #18)
  • 10.5. 연구 도구로 활용 (ykdojo #27)
  • 10.6. 출력 검증 방법 마스터 (ykdojo #28)
  • 10.7. DevOps 엔지니어로 활용 (ykdojo #29)
  • 10.8. 범용 인터페이스로 활용 (ykdojo #31)
  • 10.9. 테스트 많이 작성 (TDD) (ykdojo #34)
  • 10.10. 복잡한 코드 단순화 (ykdojo #40)

Part 11: 고급 패턴과 철학

  • 11.1. 계획과 빠른 프로토타이핑의 균형 (ykdojo #39)
  • 11.2. 개인화된 소프트웨어 시대 (ykdojo #37)
  • 11.3. 사용이 최고의 학습 (ykdojo #22)
  • 11.4. 지식 공유 및 기여 (ykdojo #42)
  • 11.5. 계속 학습하기 (ykdojo #43)

Part 12: 고급 기능과 SDK

  • 12.1. Extended Thinking (Ado #19)
  • 12.2. LSP 통합 (Ado #31)
  • 12.3. Claude Agent SDK (Ado #31)
  • 12.4. 팀 설정과 공유 워크플로우 (Ado #30)

Part 13: 학습 로드맵과 다음 단계

  • 13.1. 초급자를 위한 로드맵 (1-3개월)
  • 13.2. 중급자를 위한 로드맵 (3-12개월)
  • 13.3. 고급자를 위한 로드맵 (1년 이상)
  • 13.4. 필독 참고 자료

[출처] https://news.hada.io/topic?id=26526&utm_source=weekly&utm_medium=email&utm_campaign=202607

Loading

16 2월 2026

[인공지능 개발자] 소프트웨어 서바이벌 3.0 – 무엇을 만들어야 살아남는가 

[인공지능 개발자] 소프트웨어 서바이벌 3.0 – 무엇을 만들어야 살아남는가 

45P by neo 11일전 | ★ favorite | 댓글과 토론
  • AI가 모든 소프트웨어를 작성하는 시대에는 토큰(추론 비용)을 절약하는 소프트웨어가 진화론적 선택 압력을 통해 살아남게 될 것
  • 생존 비율 공식을 통해 소프트웨어의 적합도를 측정하며, 인지 절약이 인지 비용을 넘어서는 경우(1을 초과)에만 생존 가능
  • Git, grep 같은 도구는 통찰 압축과 기판 효율성 덕분에 AI가 다시 만들어 쓰기에는 비용이 터무니없이 큰 사례
  • 에이전트가 도구를 채택하려면 인지도(Awareness) 와 마찰 최소화(Friction) 가 필수적이며, Desire Paths 설계가 효과적
  • AI 중심의 시대에도 인간 계수(Human Coefficient) 가 작동해, 인간의 개입과 선호가 직접적인 가치를 만드는 영역은 계속 살아남게 될 것

배경: AI 시대의 소프트웨어 예측

  • 2024년 6월 Death of the Junior Developer, 10개월 전 오케스트레이터 도래 예측, Gas Town 프로젝트 등을 통해 AI 발전 곡선을 지속적으로 맞혀옴
  • 2023년 코드 자동 완성 → 2024년 대화형 인터페이스 → 2025년 초 에이전트 → 2026년 초 오케스트레이션으로 이어지는 흐름을 외삽해 Gas Town 개발
  • 모든 예측의 근거는 지수적 발전 곡선을 그대로 믿는 태도에 있음
  • Dario Amodei와 Andrej Karpathy가 소프트웨어의 미래에 대해 말해온 방향을 전적으로 신뢰함
  • Gas Town은 이러한 외삽이 실제로 작동함을 보여준 사례로, 2025년 말 모델과 다수의 임시적 보완을 통해 간신히 성립하는 형태를 먼저 확인

위협받는 소프트웨어 생태계

  • SaaS 기업에 대한 압력이 증가하며, 구매 대비 구축(build)의 비용 구조가 바뀌어 비즈니스 부서가 직접 바이브 코딩(vibe coding) 으로 자체 SaaS를 만드는 사례 확산
  • 불과 3년 전 GPT-3.5가 단일 함수 작성도 버거웠던 것과 달리, 현재는 소규모지만 실질적 가치가 있는 SaaS를 직접 생성 가능
  • Stack Overflow와 Chegg가 초기 타격을 받았고, 이후 Tier-1 고객 지원 소프트웨어, 로우코드·노코드 시스템, 콘텐츠 생성 도구, 각종 생산성 도구로 압박이 확산
  • IDE 벤더들 역시 Claude Code 등장 이후 경쟁 압력을 체감하기 시작
  • AI 연구자들의 예측이 약 40 년간 높은 정확도를 보여왔다는 점에서, 모든 소프트웨어 영역이 위협받을 가능성을 전제로 대비 필요

선택 압력 모델(Selection Argument)

  • 추론에는 토큰이 필요하고, 토큰 소비는 에너지 사용으로 이어지며, 에너지는 곧 비용으로 환산됨
  • {토큰, 에너지, 돈}은 동일한 자원 제약으로 취급 가능하며, 항상 제한된 상태로 존재
  • 인지 비용을 줄이는 소프트웨어가 살아남는다는 단순한 규칙이 소프트웨어 생태계 전반을 형성
  • 제한된 자원 환경에서 더 효율적으로 자원을 사용하는 개체가 그렇지 못한 개체를 밀어내는 진화론적 선택 압력과 동일한 구조

생존 비율(Survival Ratio) 공식

  • Survival(T) ∝ (Savings × Usage × H) / (Awareness_cost + Friction_cost)
  • Savings: 도구를 사용함으로써 절약되는 인지 비용, 즉 동일한 기능을 처음부터 합성할 때 대비 절감되는 토큰량
  • Usage: 도구가 다양한 상황에서 반복적으로 사용될 수 있는 빈도와 적용 범위
  • H (Human Coefficient): 효율성과 무관하게 인간이 만든 것에 가치를 두는 수요를 반영하는 계수
  • Awareness_cost: 에이전트가 해당 도구의 존재를 알고, 기억하고, 적절한 순간에 선택하는 데 드는 에너지
  • Friction_cost: 실제 사용 과정에서 발생하는 오류, 실패, 재시도, 오해로 인해 소모되는 에너지
  • 생존을 위한 최소 비율은 1이며, 경쟁이 존재하는 환경에서는 이보다 훨씬 높은 비율 요구
    • 예: 생존 비율이 1.2인 도구는 2.5를 기록하는 경쟁 도구에 의해 밀려날 수 있음

레버 1: 통찰 압축(Insight Compression)

  • 소프트웨어 산업이 오랜 시간에 걸쳐 축적해 온 다시 발견하기에 지나치게 비싼 지식을 재사용 가능한 형태로 압축
  • Git 이 대표 사례로, 커밋 DAG, 포인터로서의 참조(ref), 인덱스, reflog 등은 수십 년간의 시행착오가 응축된 구조
    • AI가 이를 처음부터 재구현하려면 동일한 지적 역사를 다시 밟아야 하므로 경제적으로 전혀 합리적이지 않음
  • 데이터베이스, 컴파일러, 운영체제, 워크플로우 엔진, 모니터링 시스템 전반에 동일한 원리 적용
  • Kubernetes 는 설계가 복잡해서가 아니라, 분산 시스템 자체가 본질적으로 복잡하기 때문에 복잡함
  • Temporal 은 멱등성 재시도와 함께 saga 패턴을 직접 구현하는 일이 사실상 연구 프로젝트에 가깝기 때문에, 이를 대신하는 내구성 실행(durable execution) 을 제공
  • 강한 소프트웨어의 공통된 특성은 다시 합성하려는 시도 자체가 터무니없게 느껴질 정도의 통찰 밀도
  • Gas Town에서의 캐릭터 역할 모델이나 gt sling 같은 동사 역시, 복잡한 개념을 짧고 기억하기 쉬운 표현으로 압축한 사례

레버 2: 기판 효율성(Substrate Efficiency)

  • grep 은 재발명이 사실상 미친 짓에 가까운 또 하나의 사례
  • Ken Thompson이 오후 한나절에 만들 정도로 단순하지만, CPU 기반 처리를 통해 막대한 인지 비용을 절약
  • 텍스트 패턴 매칭에서는 CPU가 GPU를 여러 자릿수 차이로 압도
  • LLM의 곱셈 방식은 패턴 매칭을 조합해 “대략 94쯤”을 먼저 추정하고, 이후 기억된 룩업 테이블로 자릿수를 보정하는 형태
    • 이 계산이 모두 GPU 추론 단계라는 극도로 비효율적인 기판 위에서 수행됨
  • 계산기, 파서, ImageMagick 같은 복잡한 변환 도구, 다수의 Unix CLI 유틸리티가 이 레버를 적극 활용
  • 좋은 알고리듬을 적용하거나, 계산을 CPU·인간 등 더 저렴한 기판으로 이동시켜 토큰과 에너지 소비를 절약

레버 3: 광범위한 유용성(Broad Utility)

  • 생존 비율 모델에서 Usage 항목에 해당
  • 사용 범위가 넓을수록 인지도 비용이 분산되고, 개별 사용 시 요구되는 토큰 절약 임계값이 낮아짐
  • 진정으로 범용적인 토큰 절약 도구는 AI가 이론적으로 재구현할 수 있더라도, 이미 어디에나 존재하고 널리 쓰이는 선택지가 우선됨
  • Temporal 은 상대적으로 높은 인지도 비용과 마찰 비용에도 불구하고 PostgreSQL 만큼 범용적인 워크플로우 모델 제공
    • 공격적인 통찰 압축, 계산 기판의 능숙한 활용, 광범위한 유용성이라는 세 가지 레버를 모두 보유
  • Dolt 는 Git으로 버전 관리되는 데이터베이스로, 8년간 유지되어 온 오픈소스 프로젝트
    • 에이전트 기반 프로덕션 및 DevOps 워크플로우에서 뒤늦게 킬러 앱을 발견
    • 에이전트가 프로덕션 환경에서 실수하더라도 Git의 전체 기능을 활용해 롤백·롤포워드 가능
  • 코드 검색 엔진은 LLM이 기존 대비 10배에서 100배 더 많은 코드를 생성하면서 중요성이 급격히 상승
    • grep이 감당할 수 없는 규모의, 이른바 “너무 커서 grep으로는 안 되는 영역” 이라는 대규모 범용 틈새 형성
    • 발견하기 어려운 엣지 케이스가 많은 비자명한 문제를 해결하고, 저렴한 계산 기판을 사용하며, 범용적 적용이 가능한 점에서 세 가지 레버를 모두 충족

레버 4: 홍보(Publicity)

  • 인지 비용 절약만으로는 충분하지 않으며, 인지도 문제, 즉 사전 선택 단계에서의 문제 해결 필요
  • Dolt는 레버 1~3을 모두 갖췄지만, 초기에는 레버 4가 부족해 널리 사용되지 못한 사례
  • 인지도 비용을 지불하는 방법은 여러 가지 존재
    • 훌륭한 제품을 만들고 인기를 얻은 뒤, 커뮤니티를 통해 자연스럽게 훈련 데이터에 포함되기를 기다리는 방식
    • 또는 비용을 투입해 에이전트용 문서화에 투자하거나 광고 집행
  • 보다 직접적인 방법으로, OpenAIAnthropicGoogle 같은 프론티어 랩의 담당자와 협력해 모델 훈련 과정에 도구를 포함
    • 유료 서비스 형태로, 도구의 올바른 사용과 오용을 모두 보여주는 eval을 제작한 뒤 연구자들이 훈련을 조정
  • 에이전트를 위한 SEO 개념이 본격적으로 등장 중
  • 대규모 예산을 투입하기 어렵다면, 사후 선택 단계에서의 에너지, 즉 레버 5에 의존해야 하며, 이를 위해 도구를 최대한 에이전트 친화적으로 설계 필요

레버 5: 마찰 최소화(Minimizing Friction)

  • 인지도가 사전 선택 단계의 문제라면, 제품 마찰은 사용 이후 단계의 문제
  • 에이전트는 항상 시간에 쫓기는 것처럼 행동하며, 무언가 막히면 즉시 우회 경로를 시도
  • 마찰이 조금만 있어도 판단이 바뀌어, 더 효율적인 도구 대신 덜 효율하지만 익숙하고 예측 가능한 방법으로 후퇴
  • 반대로 취향에 정확히 맞게 설계된 도구는 에이전트가 집요할 정도로 반복 사용
  • 문서화 접근법은 훈련 단계가 아닌 추론 시점까지 인지 비용을 미루는 방식
    • 도구가 무엇을 잘하는지, 언제 왜 써야 하는지, 빠른 시작 가이드와 후속 문서 경로를 컨텍스트에 직접 주입
  • 그러나 더 나은 해법은 에이전트에게 직관적으로 느껴지는 도구 자체를 만드는 것
  • Desire Paths 설계 사례로, Beads 는 4개월간 100개가 넘는 하위 명령과 다수의 하위-하위 명령, 별칭, 대체 문법을 거치며 CLI가 진화
    • 이 복잡한 CLI는 인간이 아니라 에이전트의 사용 패턴을 위해 설계됨
    • 에이전트가 시도하는 방식을 관찰해 환각을 실제 기능으로 구현, 이제는 거의 모든 추측이 그대로 동작
  • 환각 스쿼팅(Hallucination Squatting) 은 LLM이 자주 환각하는 도메인 이름을 역으로 추적해 등록하고, 해당 주소에 아티팩트를 올려 실제로 다운로드하게 만드는 기법
    • 국가 단위의 해커 집단조차 Agent UX를 이해하고 활용한다는 점이 드러남
  • Agent UX는 결정적으로 중요하지만 아직 대부분의 도구에서 간과되고 있음
  • 이상적인 도구는 에이전트가 이미 익숙한 다른 도구와 닮아 있거나, 문제를 에이전트가 사고하고 싶어하는 방식 그대로 풀어주는 구조

레버 6: 인간 계수(Human Coefficient)

  • 토큰 효율성과 무관하게, 인간이 개입했다는 사실 자체로 가치를 얻는 소프트웨어 존재
  • 인간 큐레이션, 사회적 증거, 창의성, 물리적 존재감, 승인 같은 요소에서 가치가 파생
  • 인간이 고른 플레이리스트는 품질이 동등하고 에너지 효율이 더 높은 AI 생성 플레이리스트를 이길 수 있음
  • 게임 분야에서는 실제 인간이 있는 환경이 대체로 승리하며, 명백히 인간보다 강한 AI와만 플레이하고 싶어하는 경우는 드묾
  • 에이전트를 배제하는 소셜 네트워크가 오히려 매력적으로 인식될 가능성
  • AI가 최고의 교사가 되더라도, 일부 사람들은 의도적으로 인간 교사를 선택할 것
  • 높은 Human Coefficient를 가진 영역에서도 경쟁은 치열함
    • Karpathy가 그리는 세계에서 에이전트는 누구에게나 무엇이든 될 수 있고, 본질적으로 강한 중독성을 가짐
  • 결과적으로 극단적으로 비효율적이지만 H 값이 매우 높은 소프트웨어가 다수 존재하게 될 가능성

희망의 근거

  • 인간과 AI 사이를 중개하거나, AI가 곧 직접 수행할 수 있게 될 “똑똑한 척하는 역할” 을 맡은 소프트웨어는 구조적으로 위험
  • 그럼에도 불구하고 작성되어야 할 소프트웨어의 양은 사실상 무한
    • 모든 질병 치료, 모든 단백질의 거동 모델링, 모든 행성 탐사 시나리오가 여전히 대상
  • 인간의 야망은 항상 가용한 인지 능력을 초과하며, 토큰 비용이 하락하더라도 우리는 곧바로 더 먼 프론티어로 이동
  • 주의 집중 문제는 인쇄 매체, 인터넷, 소셜 미디어, 실시간 광고, 애그리게이터를 거치며 이미 여러 차례 해결된 경험 보유
  • Desire Paths 설계가 실제로 효과적이며, OpenAI 같은 곳의 대규모 훈련 예산 없이도 에이전트가 자연스럽게 쓰고 싶어하는 도구를 만들 수 있음
  • 인간 계수는 분명히 존재하며, 사람들은 이미 에이전트 냄새가 짙은 것에 피로감을 느끼기 시작
    • 인간 간의 연결과 창의성을 중심에 두고 설계하면, 결국 문제는 다시 전통적인 마케팅과 브랜딩의 영역으로 수렴
  • 여섯 가지 레버가 제공하는 다양한 생존 경로가 존재
  • 다시 만들려는 시도 자체가 미친 짓처럼 느껴지는 것을 구축하고, 발견하기 쉽고 사용하기 쉽게 만든다면 충분히 견고한 가능성 확보

[출처] https://news.hada.io/topic?id=26413 

Loading