Programming/WWDC

Speech Recognition API 정리 - WWDC2016

devssun 2020. 2. 21. 16:56
728x90
반응형

Speech Recognition API - WWDC 2016 - Videos - Apple Developer

 

Speech Recognition API - WWDC 2016 - Videos - Apple Developer

iOS 10 brings a brand new Speech Recognition API that allows you to perform rapid and contextually informed speech recognition in both...

developer.apple.com

Sample Code

정리

Speech Recognition API → 사람의 음성 오디오를 텍스트로 자동 변환하는 프로세스
음성 인식은 Siri 이외 많은 작업에 유용함 Siri가 4S와 함께 출시된 이후 iOS에는 키보드 받아쓰기 기능이 생겼음

 

iOS 키보드 받아쓰기 기능 (Keyboard Dictation)

키보드 받아쓰기 기능

장점

  • 사용하기 쉬움
  • 오디오 녹음 및 녹음 중단 처리
  • iOS 5 부터 사용 가능

단점

  • 키보드의 받아쓰기 버튼으로 기능을 활성화하기 때문에 키보드를 사용하지 않는 경우 해당 기능을 사용할 수 없음
  • 사용하는 언어를 제어할 수 없음 (키보드 언어 사용)
  • 오디오 녹음이 시작되는 시기를 제어할 수 없음
  • 라이브 음성만 입력받을 수 있음

Speech Recognition API

→ 새로운 음성 프레임워크

장점

  • Siri와 받아쓰기(Dictation) 에서 사용하는 것과 동일한 기본 기술 사용
  • 사용자 데이터를 수집하지 않고도 투명하게 빠르고 정확한 결과 제공
  • 녹음된 파일도 사용 가능
  • 50개 이상의 언어와 방언 지원 (+ 사용 가능 언어 확인을 위한 가용성 API 제공)

Example

  1. info.plist 에 음성 인식 권한 요청을 작성한다

  2. request authorization 클래스를 사용하여 음성 인식 권한을 요청한다

  3. 음성 인식 요청을 작성한다

    • 오디오 파일을 이용할 경우 : SFSpeechURLRecognitionRequest
    • 라이브 음성을 사용할 경우 : SFSpeechAudioBufferRecognitionRequest
  4. 인식 요청을 SFSpeech 인식기에 전달하여 인식을 시작한다


Speech API 유의 사항

  • 네트워크 및 속도 제한 실패를 처리할 수 있도록 준비
  • 배터리 소모 및 네트워크 트래픽 측면에서 비용이 많이 들 수 있음
  • 사용자의 음성을 녹음하는 경우 사용자 인터페이스에 명확하게 표시
  • 음성 인식을 사용하는 경우 사용자에게 명확하게 어떤 용도로 사용하는 지 밝힐 것
반응형