Codage de la parole
Le codage de la parole de est l'application de la compression de données des signaux de l'acoustique de Digitals de contenant la parole . Le codage de la parole emploie l'évaluation discours-spécifique de paramètre de using des techniques audio du traitement des signaux pour modeler le son articulé, combiné avec des algorithmes génériques de la compression de données pour représenter les paramètres modelés en résultant dans un bitstream compact.
Les deux applications les plus importantes du codage de la parole sont la téléphonie mobile et la voix de au-dessus d'IP .
Les techniques utilisées dans le codage de la parole sont semblables à celle dans la compression de données audio et le codage audio où la connaissance en psychoacoustique est employée pour transmettre seulement les données qui sont appropriées au système auditif humain. Par exemple, dans le codage à bande étroite de la parole du , seulement l'information dans la bande de fréquence 400 hertz à 3500 hertz est transmise mais le signal reconstruit est encore proportionné pour l'intelligibilité.
Le codage de la parole diffère d'autres formes de codage audio dans ce discours est un signal beaucoup plus simple que la plupart des autres signaux audio, et ce là est les informations disponibles beaucoup plus statistiques au sujet des propriétés de la parole. En conséquence, de l'information auditive qui est appropriée dans le codage audio peut être inutile dans le contexte de codage de la parole. Dans le codage de la parole, le critère le plus important est conservation de l'intelligibilité et du " ; pleasantness" ; du discours, avec une quantité contrainte d'Emissions de Données.
Il devrait souligner que l'intelligibilité de la parole inclut, sans compter que le contenu littéral réel, aussi l'identité de haut-parleur, émotions, intonation, le timbre etc. de qui sont de la plus haute importance pour l'intelligibilité parfaite. Le concept plus abstrait de l'agrément du discours dégradé est une propriété différente que l'intelligibilité, puisqu'il est possible que le discours dégradé est complètement intelligible, mais subjectivement ennuyant à l'auditeur.
En outre, la plupart des applications de la parole exigent le bas retard de codage, car les longs retards de codage interfèrent l'interaction de la parole.
Compression-extension d'échantillon vue comme forme de codage de la parole
De ce point de vue, l'Un-loi et les algorithmes de μ-loi de utilisés en téléphonie traditionnelle de Digitals de du PCM peuvent être vus comme précurseur très tôt de codage de la parole, exigeant seulement 8 bits par échantillon mais donnant effectivement 12 bits de résolution. Bien que ceci produise de la déformation inacceptable dans un signal de musique, la nature pâlotte des formes d'onde de la parole, combinée avec la structure simple de fréquence de la parole comme forme d'onde périodique avec une seule fréquence fondamentale avec des éclats de bruit supplémentaires occasionnels, rendent ces algorithmes de compression instantanés très simples acceptables pour la parole.Une large variété d'autres algorithmes ont été essayées alors, la plupart du temps des variantes sur la modulation en Delta , mais après examen consciencieux, les algorithmes d'A-law/μ-law ont été choisis par les concepteurs des systèmes numériques tôt de téléphonie. À l'heure de leur conception, leur réduction de largeur de bande de 33% pour une complexité très basse leur a fait un excellent compromis de technologie. Leur exécution audio demeure acceptable, et il n'y a eu aucun besoin de les remplacer dans le réseau stationnaire de téléphone.
Technique de compression de langage moderne
Une grande partie du travail postérieur dans la technique de compression de langage a été motivé par recherche militaire dans des communications numériques pour les radios militaires bloquées, où des débits très bas ont été exigés pour permettre l'opération efficace dans un environnement par radio hostile. En même temps, bien plus de capacité de traitement était disponible, sous forme de circuits intégrés de VLSI, que n'était disponible pour des techniques de compression plus tôt. En conséquence, les algorithmes modernes de technique de compression de langage pourraient employer des techniques bien plus complexes que n'était disponible dans les années 60 pour réaliser des taux de compression bien plus élevés.Ces techniques étaient disponibles par la littérature ouverte de recherches à employer pour des applications civiles, permettant la création des réseaux numériques de téléphone portable des capacités de canal sensiblement plus élevées que les systèmes analogues qui les ont précédés.
Le code le plus commun de la parole est un codage linéaire de la prévision excité par code ( CELP ) de , qui est employé par exemple dans la norme du GSM . Dans CELP, la modélisation est divisée dans deux étapes, une étape prédictive linéaire du qui modèle le modèle basé spectral d'enveloppe et de code-book du résiduel du modèle prédictif linéaire.
En plus du codage réel de la parole du signal, il est souvent nécessaire d'employer le codage de la Manche de pour la transmission, pour éviter des pertes dues aux erreurs de transmission. Habituellement, des méthodes de codage de la parole et de codage de canal doivent être choisies dans les paires, avec le peu plus important dans le train de données de données de la parole protégé par un codage de canal plus robuste, afin d'obtenir les meilleurs résultats globaux de codage.
Le projet de Speex est une tentative de créer un codeur de la parole du logiciel gratuit , non encombré par des restrictions de brevet.
Sous-champs importants :
Codage à large bande de la parole
AMR-WB pour des réseaux du WCDMA
VMR-WB pour des réseaux du CDMA2000
Codage à bande étroite de la parole
FNBDT pour des applications militaires
SMV pour des réseaux du CDMA
à toute vitesse, à moitié vitesse, EFR , Amr pour des réseaux du GSM
.
| Random links: | Loi de Foraker | John William Ritchie | La société pour l'établissement d'utile fabrique | Liste de jeux de MSX | Cantons du département de Yonne | Codificación_de_discurso |