Whisper에서 발생하는 환각(hallucination) 문제는 음성을 잘못 인식하거나 문맥에 맞지 않는 텍스트를 생성하는 현상입니다. 이를 해결하기 위해 다음 방법을 시도할 수 있습니다.
- Silero VAD 설정 조정:
- Whisper와 Silero VAD를 함께 사용할 때, VAD의 임계값을 조정하여 음성 감지가 더 정확하게 이루어지도록 할 수 있습니다. 예를 들어, 감지 민감도를 높이거나 낮추어 Whisper가 필요하지 않은 부분을 인식하지 않도록 조정할 수 있습니다.
- VAD의 설정값인
0
또는1
을 시도해보는 것도 좋습니다. 이 값이 음성 감지의 민감도를 조정하며, 필요할 때 로그 확률을 사용하여 자동으로temperature
를 조정할 수 있습니다. 낮은temperature
설정은 모델의 출력을 더 안정적으로 만들 수 있습니다.
- Temperature 조정:
- Whisper 모델의
temperature
파라미터를 낮게 설정하면 모델의 출력이 더 결정적(deterministic)이 되어 환각을 줄일 수 있습니다. 너무 낮추면 다양성은 감소하지만, 과도한 환각 문제를 줄일 수 있습니다.
- 로그 확률 사용:
- Whisper가 생성하는 텍스트의 로그 확률을 검토하여 특정 임계값 이하의 확률을 가진 단어는 환각으로 처리하고 제거하는 방식으로 해결할 수 있습니다.
- 후처리 단계 적용:
- Whisper가 출력하는 텍스트에 대한 후처리를 통해 의심스러운 단어 또는 문장을 필터링하는 알고리즘을 추가하면, 환각을 줄이는 데 도움이 됩니다.
- 모델 업데이트:
- Whisper 모델의 최신 버전이나 개선된 음성 인식 모델을 사용하여 환각 문제를 줄일 수 있습니다. 최신 버전은 더 나은 성능과 환각 문제 해결에 도움을 줄 수 있습니다.
이러한 접근 방법들을 함께 사용하면 Whisper에서 발생하는 환각 문제를 효과적으로 줄일 수 있습니다.