1 of 23

2 of 23

a table of contents

1

스픽 소개

2

기술 분석

3

구독 후기

4

QnA

3 of 23

도입 | Intro

여러분은 영어 공부를 얼마나 하셨는지 모르겠습니다. 초등학교 때부터 대학교까지 영어를 공부한 시간을 합치면 학부 전공 분야를 학습한 시간과 맞먹을 것이지만 지금의 제 영어 실력은 형편 없는 것 같습니다.

영어에 대한 한국인의 관심은 높지만 공부한 시간에 비하여 실력은 그리 좋은 편이 아닐 것으로 생각됩니다. 그 까닭은 문법과 독해, 듣기 위주의 교육이 대부분인 것과, 타인 앞에서 본인을 드러내며 말하는 것에 거부감이 있는 우리나라의 문화적 특성도 한 몫 하는 것 같습니다.

저 또한 영어 회화능력을 위해 호주 단기 어학연수, 전화 영어, 스피킹 학원 등 많은 것을 시도해봤습니다. 그러나 타인 앞에서 틀리면 안될 것 같다는 생각과, 꾸준히 시간이 내는 것이 부담스럽다고 여기다 보니 결과는 항상 일시적인 것 같습니다.

4 of 23

스픽 소개

영어 스피킹은 스픽(Speak)

Part 1

5 of 23

#독해, 리스닝은 혼자할 수 있지만,

스피킹은 혼자할 수 없잖아요

6 of 23

Part 1 |

스픽소개 - 왜 한국?

하버드 룸메이트, 한국 영어사업으로 의기투합하다

(좌) 스픽 한국지사장, 운영총괄 부사장 – 차승재

(우) 스픽 최고경영자(CEO) - 코너 니콜라이 즈윅

Connor : 미국 VC들 사이에선 “한국에서 살아남으면 어디서든 잘 된다.” 라는 말이 있을 정도로 한국 소비자들의 눈높이를 만족시키기 어려운 것이 오히려 한국 시장으로 진출 하게 된 계기가 되었다. 반대로 한국인들은 ‘스피킹’이라는 명확한 니즈가 보였습니다.

헤븐(?) 조선의 쓴맛을 보다

Connor : 한국만큼 학원이 발전한 나라도, 인터넷강의가 활성화된 나라도 없다. 한국인이 인정할 정도면 무조건 세계 시장에도 먹힐 것이다

한국인이 확신하는 앱이 되는 날, 글로벌 진출로

Connor : 한국 버전이 순항 중이지만, 현재 스픽은 한국 학습자에 특화되어 있다. 당장은 한국에 집중할 예정이다

사실 놀랍게도 스픽은 토종 한국기업이 만든 앱이 아닙니다. CEO는 코너 니콜라이 즈윅이라는 미국인입니다. 코너는 중학생 때부터 컴퓨터 출판사의 오퍼를 받을 정도로 천재 개발자였으며, 하버드 대학 1학년 때 이미 ‘플래시카드’라는 스타트업을 운영했습니다.

시간이 흘러, 코너는 하버드 기숙사 룸메이트 차승재 지사장에게 지금의 스픽 앱을 같이 하자고 제안했고, 현재에 이르렀습니다.

2021년 한 매거진의 인터뷰에서 다음과 같은 말을 했다고 합니다.

“미국 VC사이에서는 한국에서 살아남으면 어디서든 잘 된다” 라는 말로, 사실인지는 잘 모르겠습니다.

그렇게 차승재 지사장과 함께 한국의 영어 교육 시장을 면밀히 분석 했고, 지금의 스픽으로 성장했습니다. 서두에 보여드렸던 기사 헤드라인과 같이, 한국에서는 영어 스피킹 학습에 대한 니즈가 있다는 것을 제대로 파악한 것 같습니다.

또한, 뒤에서 설명 드리겠지만 음성인식 API인 Whisper의 영향도 받지 않았을까 하는 개인적인 생각을 가지고 있습니다.

7 of 23

Part 1 |

스픽소개 – 스픽의 현재

8 of 23

기술 분석

영어 스피킹은 스픽(Speak)

Part 2

9 of 23

Part 2 |

기술분석 – 스픽의 기술 및 전략(OpenAI사의 버프)

Whisper

언어학 & 콘텐츠 전문가

GPT-4

OpenAI와 기술적 파트너십으로 최신 기술에 대한 얼리 엑세스 권한 보유

GPT-4 공식 발표 2개월 전부터 적용

스픽의 콘텐츠 팀은 TESOL과 SLA분야의 전문가들로 이루어져 있음

언어학 전문가와 콘텐츠 전문가의 협업

OpenAI사의 Whisper를 통한 음성인식 기술 사용

한국인 특화 음성 인식 모델 개발

스픽의 기술 및 전략에 대해 말씀드리겠습니다. 스픽은 시리즈 B 투자 당시 OpenAI 스타트업 펀드에서 자금을 유치했고, 기술적 파트너십을 통해 최신 기술에 대한 얼리 엑세스 권한을 가지게 되었습니다. GPT-4가 세상에 발표 되기 두 달 전에 스픽 앱에 먼저 적용된 것으로 뉴스가 되기도 했었습니다. 이러한 협력관계가 누구도 따라올 수 없는 교육 콘텐츠를 만들도록 도울 수 있다고 생각합니다.

스픽은 GPT-4 모델을 기반으로 AI튜터 컨텐츠를 강화하고 있습니다.

또한, 음성인식 기술로 역시나 OpenAI가 2022년 9월에 발표한 Whisper 모델을 기반으로 하고 있습니다. 이 모델을 개선시켜 한국어에 특화된 자체 개발 모형을 개발하였습니다.

마지막으로 스픽에는 언어학, 컨텐츠 등을 제작하는 전문가들이 팀을 이루어 스픽의 철학을 만들어가고 있습니다. 이 팀은 언어 학습 분야 다양한 케이스에 대한 깊은 이해를 가지고 있을 뿐 아니라, 모두가 최소 두 가지 언어를 원어민 수준으로 구사할 줄 아는 것이 특징으로 외국어 학습자에 대한 깊은 공감을 가지고 있다고 볼 수 있습니다.

이러한 기술과 전략을 통해 스픽은 지금도 성장하고 있습니다.

Teaching English to Speakers of Other Languages, Second Language Acquitision

10 of 23

Part 2 |

기술분석 – OpenAI의 Whisper

Whisper는 2022년 9월 Open AI에서 개발한 자동음성인식(ASR: Automatic Speech Recognition) 모델

출처 : Robust Speech Recognition via Large-Scale Weak Supervision(2022),

Alec Radford, Jong Wook Kim, Tao Xu, Greg Brockman, Christine McLeavey, Ilya Sutskever

- Whisper는 Facebook AI에서 개발한 Wav2vec2.0 모델을 기반

- 네트워크 모델 자체는 Transformer를 사용해서 큰 차이가 없지만 Multitasking Training으로 Transcription 과 Translation Task가 존재함

- 다국어 인식 뿐만 아니라 바로 번역까지 가능

스픽의 핵심 기술요소인 음성인식 기술에 대해 말씀드리겠습니다. 스픽은 OpenAI의 Whisper모델을 기반으로 합니다. 사실 많은 이들의 이목을 끌은 것은 GPT-4 모델이지만,

OpenAI는 크게 3가지 모델을 내세우고 있습니다. GPT-4, 달리, 그리고 Whisper입니다.

작년 9월에 Whisper를 세상에 공개하면서 Robust Speech Recognition via Large-Scale Weak Supervision 논문을 냈는데, 지금 보시는 모든 그림은 해당 논문에서 가져왔습니다.

Whisper는 Facebook AI에서 2020년에 개발한 Wav2vec2.0 모델을 기반으로 하고 있습니다. 시간 제약 상 Wav2Vec2.0의 구조를 설명 드리지는 못하지만, Whisper는 Wav2Vec2.0과 유사하게 CNN 구조인 Feature encoder와 Transformer로 구성되어 있습니다. 특히 Transformer의 전형적이 특징인 Encoder와 Decoder 그리고 Positional embedding까지 모두 갖추었습니다. 가장 큰 차이는 학습 파라미터의 차이와, 데이터셋의 차이가 학습 방법의 차이라고 보시면 됩니다. 또한 Whisper는 영어 음성인식 뿐만 아니라 다국어 인식 까지 범위를 확장 하였다는 것이 특징입니다.

왼쪽 빨간색 박스를 보시면 Non-English transcription에 한국어가 보이실 겁니다. 해당 논문의 공동 저자 중 김종욱 님이 계시는데 그 영향이 아닐까 생각합니다. 사실 이 모델은 총 680,000시간을 사용하여 학습을 진행하였는데, 특히 ‘recognition’의 경우 한국어가 약 8,000시간으로, 영어 제외 언어로는 7번 째 많은 양의 데이터를 학습시켰고, ‘Translation’의 경우 무려 19,938시간으로 1위, 그러니까 가장 많은 시간을 학습시켰습니다.

이러한 점이 스픽이 한국 시장을 택한 근거가 될 수도 있다고 생각합니다.

11 of 23

Part 2 |

기술분석 – OpenAI의 Whisper

Whisper는 2022년 9월 Open AI에서 개발한 자동음성인식(ASR: Automatic Speech Recognition) 모델

- "Whisper’s English ASR performance is not perfect but very close to human-level accuracy.“

- WER(Word Error Rate) 기준으로 Whisper는 타사 음성인식 모델 보다 좋은 성능을 보이고 있음(A~D). 놀라운 점은 실제 사람보다 높은 수행능력을 보이기도 함(H, I)

- WER 기준으로 wav2vec2는 29.3%, whisper는 12.8%로 Whisper가 약 두배 이상 더 좋은 성능을 내고 있음

- 근 시일 내 알파고 처럼 사람을 뛰어넘는 ‘인식’엔진이 나올 것으로 생각됨

출처 : Robust Speech Recognition via Large-Scale Weak Supervision(2022), Alec Radford, Jong Wook Kim, Tao Xu, Greg Brockman, Christine McLeavey, Ilya Sutskever

12 of 23

Part 2 |

기술분석 – 프롬프트 엔지니어링

빠르고 정확한 자체 개발 음성 인식 모델

스픽의 음성 인식(Automatic Speech Recognition) 모델은 원어민의 영어 음성 데이터와,

100만 명 이상 한국인의 영어 음성 데이터를 조합하여 학습된 최적의 결과물입니다.

한국인의 영어 발음을 정확히 인식하는 스픽의 음성인식 모델은 0.1 초 이내의 빠른 인식 속도와

95% 이상의 높은 정확도로 제품 내 핵심 기능들을 구현합니다.

13 of 23

음소 단위 분석과 실시간 피드백

스픽의 음소 인식(Phoneme Recognition) 기술은 사용자의 음성을 즉시 발음 기호로 변환하여

음소 단위의 음성 분석을 할 수 있도록 학습되었습니다.

인식된 사용자의 발음 기호와 모범 발음 기호는 실시간으로 대조 분석되어

사용자에게 정확한 피드백을 전달합니다.

Part 2 |

기술분석 – 프롬프트 엔지니어링

14 of 23

구독 후기

영어 스피킹은 스픽(Speak)

Part 3

15 of 23

#다양한 콘텐츠

Part 3 |

구독후기 - 장단점 분석

스픽 앱에는 정말 컨텐츠가 많습니다. 스픽 공식 홈페이지에는 2,000여개의 콘텐츠가 있다고 하는데, 사실상 무제한인 것처럼 느껴지는 양입니다.

일반적으로 학원을 가면 왕 초보, 초보, 중급 회화, 혹은 비즈니스 회화 등 특정한 코스가 있고, 그 코스를 완수하는게 목표가 되고는 하는데,

스픽 앱을 이용하면 매일 다른 콘텐츠를 경험할 수 있을 뿐더러 특히, 내가 원하는 상황들을 연습할 수 있고, 평소에 헷갈렸던 표현들을 정리할 수 있어서 좋은 것 같습니다.

우리는 무언가를 학습할 때 선형적으로 완수하는 것에 익숙해져 있는데, 스픽에서는 특이하게도 ‘무작정 아무 얘기’라는 주제가 인기가 많았습니다. 해당 콘텐츠는 AI 튜터가 정말 아무 질문이나 던지고,

사용자는 이에 답변함으로써 생각하지 못했던 부족한 부분을 찾아낼 수 있어서 가장 흥미로운 콘텐츠라고 생각됩니다.

16 of 23

#피드백

Part 3 |

구독후기 - 장단점 분석

다음으로 스픽이 자랑하는 피드백 기능입니다. 그림을 보시면 녹음 버튼이 없습니다. 녹음 버튼 하나 없는 것 뿐인데 굉장히 편리합니다. 문장을 말하고 나면 실시간으로 음소가 인식되는 것을 확인할 수 있고, 모범 발음과 내 발음을 비교해서 들어볼 수 있습니다.

또한, 많은 사람들이 어려워하는 단어에 대해서는 따로 표시가 되어있어 더 신경 써서 발음할 수 있도록 도와주고, 특정 세션에서 좋지 않았던 발음에 대해서는 다시 학습할 수 있습니다. 그리고 레슨이 끝나면 모범 발음 대비 사용자가 얼마나 정확하게 발음을 했는지에 대해 알 수 있습니다.

그런데 이 부분은 어떻게 레이팅을 하는지 편차가 너무 심해서 솔직히 신뢰가 많이 가진 않습니다.

17 of 23

#인식률

Part 3 |

구독후기 - 장단점 분석

에어팟으로는 인식이 안돼..

가끔.. 소리를 질러야해..

다음은 조금 아쉬웠던 점입니다. 개인적으로 모든 인공지능 영어 말하기 앱이 공통적으로 해결해야 하는 문제라고 생각하는 음성 인식률입니다.

단어 발음연습을 할 때 제가 woman’s 단어 하나를 10번 넘게 발음해봤는데, 도저히 인식이 되지 않았습니다. 물론 제 발음의 문제일 수도 있지만,

중간 캡쳐를 보시면 would를 발음할 때, 실제 스픽에서 제시한 wud와 동일하게 발음했음에도 계속 인식을 못하는 것을 보실 수 있습니다. 이 부분은 지속적인 개선이 필요할 것 같습니다.

그리고 마지막 캡쳐를 보시면 These 와 jeans 같이 대충 발음하면 같은 단어를 두 번 반복하여 말한 것으로 인식하는 것 같습니다. 마이크를 입에 가져다 대고 천천히 발음해야 겨우 인식이 됩니다.

또한, 실제 원어민 발음을 들려주는 것과 동일한 속도, 혹은 조금 더 느리게 해도 잘 인식이 되지 않는 부분이 아쉬웠습니다.

오히려 빨리 말하면 인식이 잘 되는 것 같았는데, 아무래도 음성 인식 모델의 ‘예측’이 ‘인식＇보다 우수하기 때문이 아닐까 추측하고 있습니다.

그리고 제가 보통 회사에서 IFC로 걸어가며 스픽을 진행하곤 했는데, 처음 이틀 정도 에어팟으로 시도하다가 인식률이 너무 저조해 귀에 스피커를 대고 듣고, 마이크에 입을 갖다 대고 진행했습니다.

소음이나 마이크의 품질이 떨어질 때 인식이 잘 되지 않는 것은 기술적으로 점점 개선이 될 것이라 기대합니다.

18 of 23

Part 3 |

구독후기 – 오직 미국 원어민 발음만?

스픽의 수업에서 제공하는 수업 발음/표현은 미국식 발음

19 of 23

Part 3 |

구독후기 – 오직 미국 원어민 발음만?

영국식, 호주식 발음도 모두 인식한다!

20 of 23

Part 3 |

구독후기 – 고진감래

Sweet After Bitter

고진감래

21 of 23

Part 3 |

구독후기 – 고진감래

이 캡처를 하기 위해 하루라도 빠지면 안됐습니다. 결국 47일 째에 자정을 넘기면서 연속 불꽃은 꺼졌습니다. 오른쪽 캡처를 보시면 시간이 정확히 12:00입니다. 다음날 학습이 끝난것으로 인식하여 불꽃이 꺼졌을 때 그 허탈함은 아직도 잊혀지지가 않습니다. 그만큼 꾸준함을 유도하는 스픽의 효과는 대단한 것 같습니다. 그래도 원래의 목표는 30일이었는데 훨씬 초과하여 달성해서 후회는 없습니다.

47일 동안 1,713분을 학습했고, 하루 평균 30분 정도를 스픽 앱을 통한 영어말하기 연습에 할애했습니다. 제가 말한 문장이 총 3,600개가 넘는데, 이 양이 생각보다 많습니다. 1년 동안 매일 10문장은 말해야 되는 수준인데, 어학연수를 제외하고 평생 이렇게 영어로 말을 해 본 기억이 없습니다.

조금 오버페이스를 해서 힘들었지만, 하루에 10분 정도씩 한다면 거부감도 줄어들 것이고 내년 1월 1일부터 부담 없이 시작해보려고 합니다.

22 of 23

“개선이 필요한 부분은 있지만, 스픽은 계속 진화하고 있다.”

“지겨울 정도로 영어를 하게 만든다.”

인공지능이라는 개념이 또 다시 등장하고, chat-gpt에 환호하는 요즈음, 의외로 긴장하고 있는 것은 교육계가 아닐까 생각합니다.

인공지능의 발전 속도를 생각한다면 근 미래에 영어교육의 패러다임이 바뀔 수도 있다고 생각합니다.

누군가가 영어공부로 스픽에 대해 물어본다면 저는 추천할 것 같습니다. 인공지능과 공부하기에 하나도 부끄럽지 않고 정말 끊임없이 말을 해야 하기 때문에 효과가 없을 수 없습니다.

심지어 일부 문장은 맨 앞 단어만 들어도 자동으로 나올 정도로 반복시킵니다. 그리고 저처럼 내향적이고, 자신감이 부족한 사람은 스픽 앱을 통해 영어 회화의 기초를 다지는 것이 효율적일 수 있다고 생각합니다. 구독료가 월간 2만원 안쪽인데, 이정도면 가격대비 굉장히 퀄리티 있는 앱이라고 생각합니다.

다만, 이미 본인이 영어를 조금 한다고 생각하시는 분에게는 그렇게 까지 큰 도움이 될지는 모르겠습니다. 영어는 계속 말하는 대화 흐름이 중요하다고 생각하는데, 이미 어느정도 프리토킹이 되시는 분은 더 빠른 소통이 가능한 전화영어 등이 더 좋지 않을까 생각합니다. 하지만 기술이 발전하여 지연 시간이 거의 없어진다면 또 이야기가 달라질 수도 있겠습니다.

마지막으로, 스픽의 다음 미션은 개인화라고 합니다. 개인의 대화 특성들을 활용해 AI튜터의 기능을 대폭 강화한다고 합니다. 아직 개선이 필요한 부분이 많지만 스픽의 계속되는 진화와 성장이 기대가 됩니다.

23 of 23

Q&A