이제는 중국 영상 모델이 최고? : 클링 3.0, 시댄스 2.0 동시 출시

AI
이제는 중국 영상 모델이 최고? : 클링 3.0, 시댄스 2.0 동시 출시

텍스트 몇 줄이면 4K 영상이 뚝딱? 중국에서 이틀 간격으로 AI 영상 생성 모델 두 개가 나왔다. 콰이쇼우의 클링 3.0과 바이트댄스의 시댄스 2.0인데, OpenAI Sora 2나 Google Veo 3.1이 아직 못 하는 것들을 이미 해내고 있어 AI 영상 시장의 판도가 바뀔 수 있다.

글 몇 줄 쓰면 4K 영상이 만들어진다. 불과 1년 전만 해도 먼 이야기처럼 들렸는데, 2026년 2월 첫째 주에 중국에서 이걸 해내는 AI 영상 생성 모델이 두 개나 나왔다. 2월 5일 콰이쇼우(틱톡의 경쟁사)의 클링 3.0, 이틀 뒤인 2월 7일 바이트댄스(틱톡 모회사)의 시댄스 2.0이다.

OpenAI의 Sora 2, Google의 Veo 3.1이 AI 영상 생성의 선두주자로 꼽혀왔는데, 중국에서 단 이틀 간격으로 이 둘을 위협하는 모델이 쏟아져 나온 것이다. 이번엔 영상 분야에서 공격적인 행보가 시작됐다.

1. 클링 3.0: 처음부터 4K, 돈도 벌고 있다

클링 3.0 AI 4K 영상 생성 데모

콰이쇼우가 2월 5일 공개한 클링 3.0의 가장 큰 특징은 '진짜 4K'다. 기존 AI 영상 도구들은 낮은 해상도로 만든 뒤 억지로 4K로 늘리는(업스케일링) 방식이 많았는데, 클링 3.0은 아예 처음부터 4K로 만든다. 그만큼 디테일이 살아있고, 최대 15초짜리 영상을 생성할 수 있다.

한국어를 포함한 5개 언어로 음성까지 자동 생성해준다는 점도 눈길을 끈다. 더 재미있는 건 '멀티샷 스토리보드'라는 기능이다. 프롬프트 하나만 쓰면 AI가 알아서 여러 장면을 나눠서 구성한다. 마치 감독이 콘티를 짜는 것처럼. 3~8초짜리 캐릭터 영상에서 얼굴과 목소리를 뽑아내 다른 장면에 재활용하는 기능도 있다.

기술만 좋은 게 아니라 실제로 돈을 벌고 있다는 게 포인트다. 클링은 이미 사용자 6천만 명, 월간 활성 사용자 1,200만 명을 확보했고, 연 매출이 2.4억 달러(약 3,500억 원)에 달한다. 기업 고객만 3만 곳이 넘는다. AI 영상 리뷰 매체 Curious Refuge는 10점 만점에 8.1점을 주면서 'AI 비디오 생성기의 새로운 왕'이라고 평가했다.

2. 시댄스 2.0: 사진+영상+음악+텍스트를 한꺼번에 넣는다

시댄스 2.0 멀티모달 AI 영상 생성 데모

이틀 뒤, 틱톡의 모회사 바이트댄스가 시댄스 2.0을 내놨다. 공식 발표는 2월 24일이지만, 데모 영상이 먼저 풀리면서 화제가 됐다.

시댄스 2.0이 특별한 이유는 입력 방식이다. 보통 AI 영상 도구는 텍스트를 입력하면 영상을 만들어주는 방식이다. 그런데 시댄스 2.0은 사진, 동영상, 음악 파일, 텍스트를 한꺼번에 넣을 수 있다. 예를 들어 '이 캐릭터 사진 3장, 이 배경 영상, 이 BGM을 써서 이런 내용의 영상을 만들어줘'라고 할 수 있다는 뜻이다. 참조 파일도 최대 12개까지 동시에 받는다.

캐릭터 고정 기능도 인상적이다. 한 번 설정한 캐릭터가 장면이 바뀌어도 같은 모습을 유지한다. 입 모양에 맞춰 음성을 동기화하고, 배경음과 효과음도 알아서 만들어준다. 물이 흐르거나 물건이 떨어지는 물리 법칙까지 자연스럽게 반영된다.

속도도 놀랍다. 5초짜리 영상을 만드는 데 1분이 안 걸린다. 다른 AI 영상 도구들이 보통 3~5분 걸리는 걸 생각하면 엄청나게 빠른 거다. 해외 레딧에서는 'Sora 2보다 낫다'는 반응이 나왔고, '중국판 Sora 2 모먼트'라는 평가까지 등장했다.

3. AI 영상 생성 경쟁: Sora 2, Veo 3.1을 넘었나?

물론 OpenAI와 Google이 가만히 있는 건 아니다. OpenAI Sora 2는 여전히 가장 유명한 AI 영상 모델이고, Google Veo 3.1도 좋은 평가를 받고 있다. 하지만 클링 3.0의 '진짜 4K' 생성이나 시댄스 2.0의 멀티 입력 방식은 현재 Sora 2나 Veo 3.1이 못 하는 것들이다.

특히 속도 차이가 크다. 시댄스 2.0은 다른 도구보다 3~5배 빠르다. 클링은 이미 연 매출 2.4억 달러를 올리고 있어서, 아직 '기술 데모' 수준인 경쟁 모델들과 차원이 다른 상황이다.

그렇다고 중국이 미국을 역전했다고 말하기엔 이르다. Sora 2와 Veo 3.1은 아직 다음 버전 카드를 꺼내지 않았고, OpenAI와 Google의 투자 규모는 여전히 압도적이다. 다만 한 주 만에 최고 수준의 모델 2개가 동시에 나왔다는 사실 자체가, AI 영상 시장이 더 이상 미국만의 무대가 아니라는 걸 보여준다.

마치며: 경쟁이 빨라지면, 좋은 건 사용자다

클링 3.0과 시댄스 2.0이 같은 주에 나온 건, 중국 AI가 영상 생성에서도 본격적으로 속도를 내고 있다는 신호다. 4K 영상, 여러 소스를 한꺼번에 넣는 멀티 입력, 물리 법칙까지 반영하는 시뮬레이션, 그리고 압도적인 생성 속도. 각자 다른 강점을 가진 두 모델이 OpenAI와 Google에 실질적인 경쟁 압력을 만들어내고 있다.

중국 AI의 약진이 영상까지 확대되면서, 2026년 AI 영상 시장은 그 어느 때보다 뜨거운 한 해가 될 것으로 보인다. 경쟁이 치열해질수록 더 좋은 도구가 더 빠르게 나온다. 사용자 입장에서는 나쁠 게 없는 상황이다.

목록 다음 ›
메뉴