[슈카월드코믹스] 딥시크 누구냐 넌

2025. 2. 6. 19:47부자에 대한 공부/성공한 부자들의 인사이트

반응형

딥시크-R(리즈닝) 1(첫 번째 모델).

3가지 키워드.

논리적 사고가 된다!

물어보면 답을 바로 내는 것이 아니고

생각을 해보는 것.

ex) GPT-o1.

CoT(Chain of thought) : 스스로 틀렸음을 알고 학습.

(답변은 늦을지언정 정확도를 높이는 것)

행동 ↔ 보상.

강화학습 With 휴먼 피드백.

(최초에 사람을 갈아넣을 필요가 있었음)

올바른 답변이라는 것을 휴먼이 해주니까 점점 잘하게 됨.

딥시크류는 그것도 필요없다! : 스스로 강화학습(리워드 시스템).

(데이터를 평가하고 자체 생산)

순수하게 기계한테 맡겨도 된다는 논문도 있긴 했었음.

몇조 번을 시도해서 최적 루트를 학습(보상 설계).

 

딥시크가 사용한 방식을 기존의 빅테크가 놓친 이유?

올바른 행동이라는 보상 시스템을 만들기 어렵다고 생각.

딥시크가 성공한 이유는?

점수를 매기는 크리틱(시험관)이 없이 답을 여러 개 주고 상대평가만 하게 함.

(계속 돌리면 크리틱이라는 존재가 사라지면서 리소스가 덜 들어감)

대신 기반 모델(똑똑한 놈 = 되게 잘 만든 데이터)이 잘되어야 함.

 

딥시크가 엔비디아에 영향을 미친 것은?

판단관이 빠지면서 리소스가 줄어듦.

지금은 GPU(파라미터)를 그냥 때려박음.

카레고리화해서 그 영역만 돌아가게 함.

(GPU 리소스가 덜 들어감)

적당히 만족할만한 '소형 모델'도 만듦.

(가성비)

시장을 넓힘.

 

인간의 개입을 최소화해서 적은 예산으로 성능을 꾸림.

(제일 큰 장벽은 비용이었음)

테스트하는 과정에서 들어가는 돈이 상당했음.

= 저변이 확대될 수 있음.

 

토큰 비용은 자연스럽게 줄어들게 되어있음.

반응형