728x90
반응형
Speech Recognition API - WWDC 2016 - Videos - Apple Developer
Sample Code
-
Speak To Me: Using Speech Recognition with AVAudioEngine (Swift 3.2)
-
Recognizing Speech in Live Audio (Swift 5)
→ Swift 버전만 다른 동일한 프로젝트입니다.
정리
Speech Recognition API → 사람의 음성 오디오를 텍스트로 자동 변환하는 프로세스
음성 인식은 Siri 이외 많은 작업에 유용함 Siri가 4S와 함께 출시된 이후 iOS에는 키보드 받아쓰기 기능이 생겼음
iOS 키보드 받아쓰기 기능 (Keyboard Dictation)
장점
- 사용하기 쉬움
- 오디오 녹음 및 녹음 중단 처리
- iOS 5 부터 사용 가능
단점
- 키보드의 받아쓰기 버튼으로 기능을 활성화하기 때문에 키보드를 사용하지 않는 경우 해당 기능을 사용할 수 없음
- 사용하는 언어를 제어할 수 없음 (키보드 언어 사용)
- 오디오 녹음이 시작되는 시기를 제어할 수 없음
- 라이브 음성만 입력받을 수 있음
Speech Recognition API
→ 새로운 음성 프레임워크
장점
- Siri와 받아쓰기(Dictation) 에서 사용하는 것과 동일한 기본 기술 사용
- 사용자 데이터를 수집하지 않고도 투명하게 빠르고 정확한 결과 제공
- 녹음된 파일도 사용 가능
- 50개 이상의 언어와 방언 지원 (+ 사용 가능 언어 확인을 위한 가용성 API 제공)
Example
-
info.plist 에 음성 인식 권한 요청을 작성한다
- Article: Asking Permission to Use Speech Recognition
- Privacy - Speech Recognition Usage Description
- Privacy - Microphone Usage Description
-
request authorization 클래스를 사용하여 음성 인식 권한을 요청한다
-
음성 인식 요청을 작성한다
- 오디오 파일을 이용할 경우 : SFSpeechURLRecognitionRequest
- 라이브 음성을 사용할 경우 : SFSpeechAudioBufferRecognitionRequest
-
인식 요청을 SFSpeech 인식기에 전달하여 인식을 시작한다
Speech API 유의 사항
- 네트워크 및 속도 제한 실패를 처리할 수 있도록 준비
- 배터리 소모 및 네트워크 트래픽 측면에서 비용이 많이 들 수 있음
- 사용자의 음성을 녹음하는 경우 사용자 인터페이스에 명확하게 표시
- 음성 인식을 사용하는 경우 사용자에게 명확하게 어떤 용도로 사용하는 지 밝힐 것
반응형
'Programming > WWDC' 카테고리의 다른 글
Building Great Shortcuts 정리 - WWDC2019 (0) | 2020.03.17 |
---|---|
Introducing the Create ML App 정리 - WWDC2019 (0) | 2020.03.06 |
Introducing SwiftUI: Building Your First App 정리 - WWDC2019 (0) | 2020.03.01 |
Advances in Speech Recognition 정리 - WWDC2019 (0) | 2020.02.24 |
WWDC 2019 Keynote Summary (0) | 2019.06.10 |