SWAC Metatags
L'enregistrement systématique de la prononciation de mots et d'expressions et la création de collections audio de langues est rendu possible par les avancées technologiques récentes.
Ces collections audio peuvent être utiles pour des usages :
- de recherche en linguistique (par exemple pour enregistrer ou comparer la prononciation de différentes régions)
- didactique (collections audio didactique comme "les verbes irréguliers anglais")
- d'illustration (pour les dictionnaires électroniques)
L'échange de fichiers audio a été considérablement facilité par l'émergence de l'outil Internet. Les fichiers peuvent être facilement copiés et téléchargés... Cependant, comme pour être utilisés ou classés de façon pertinente, il faut que les enregistrements de mots ou d'expressions, soient associés à d'autres informations (de quel mot ou une expression s'agit il ?, quelle est la langue ?), il sera utile d'avoir un format standard d'enregistrement avec leurs informations associées.
Ainsi, les collections sonores pourront plus facilement être produites par différents logiciels, sur différentes plates formes, par différentes personnes.
Ce document propose une manière simple et pratique l'association d'informations à l'enregistrement sonore. Le but étant moins de définir les informations devant être définies mais plutôt la manière de les définir.
Plusieurs solutions serait possibles pour ce faire : nous pourrions, par exemple, associer un fichier texte contenant les champs d'information pour chaque enregistrement audio. Cette solution qui présente l'inconvénient de voir un même enregistrement matérialisé par deux fichiers différents.
Le système de Métadonnées Vorbis Comment permet de stocker des informations supplémentaires dans des fichiers Ogg Vorbis, Flac et Ogg Speex. Cette solution est très adaptée pour la mise en place de de collections de mots. Cette technologie existe déjà, est libre et largement utilisée et supportée. Elle permet un transfert aisé de fichiers audio avec les informations qui leur sont associées sans nécessiter de description supplémentaire puisque celles-ci sont directement enregistrées dans les fichiers audio sous forme de métadonnées contenues dans un tag Vorbis Comment.
La liste suivante est une proposition de liste de noms de champs et ce à quoi ils sont censés servir. Nous recommandons l'adoption d'un seul et même nom standard de nom pour une communauté produisant et utilisant des collections audio de mots. Ceci dans l'esprit des recommandations des champs Vorbis Comment : par exemple, dans le cadre d'une collection musicale, vous n'avez pas à remplir un champ donnant le nom de l'artiste mais si vous le faites, il vous faudra alors l'appeler "ARTIST" et non "BAND" ou quoi que ce soit d'autre.
Aucun de ces champs n'est conçu pour être obligatoire, mais nous pensons qu'il ne peut y avoir de véritable traitement automatique sans la présence des champs SWAC_TEXT et SWAC_LANG.
CHAMPS
1. Information à propos du texte prononcé :
- SWAC_TEXT
-
Texte prononcé par un locuteur
- « house »
- « it's raining cats and dogs ! »
- SWAC_LANG
-
La langue dans laquelle le mot est prononcé (ISO 639-3)
enregistrement valeur « rendezvous » eng « rendez-vous » fra « crocodile » eng « crocodile » fra - SWAC_ALPHAIDX
-
Les mots-clés qui permettent aux programmes de générer automatiquement
l'index alphabétique des collections. Le séparateur est «|» (U+007C).
enregistrement valeur « house » (eng) house « It's raining cats and dogs! » (eng) rain|cat|dog « I am » (eng) be « 啊 » (chi) ā « se laver » (fra) laver (se) « j'ai faim » (fra) avoir|faim « ett fönster » (swe) fönster « telefonul » (ron) telefon - SWAC_BASEFORM
-
Quand l'enregistrement est une forme dérivée d'un mot, ce champ indique la forme de base (le lemme)
enregistrement valeur « I was » (eng) to be « je vais » (fra) aller « друзей » (rus) друг - SWAC_FORM_NAME
-
Quand le champ
SWAC_BASEFORM
est défini, ce champ indique alors le nom de la formeenregistrement valeur « je vais » (fra) Present. 1p.S. « друзей » (rus) Gen. Pl. - SWAC_FORM_REF
-
Nom de référenciel utilisé par le champ
SWAC_FORM_NAME
(par exemple, la codification LMF) - SWAC_HOMOGRAPHIDX
-
Index qui peut aider à différencier différents homographes à l'intérieur d'une collection audio
Cet index peut être basé sur une différence grammaticale entre les homographes.
enregistrement valeur « пропа́сть » (rus) verb « про́пасть » (rus) noun « os » (fra) /os/ sing « os » (fra) /o/ plur enregistrement valeur « мука́ » (rus) flow « му́ка » (rus) pain « bass » (eng) fish « bass » (eng) music - SWAC_HOMOGRAPHIDX_REF
-
Nom du référenciel utilisé par le champ
SWAC_HOMOGRAPHIDX
.
2. Informations sur le locuteur :
- SWAC_SPEAK_NAME
-
Nom du locuteur
- « Jacques Durand »
- « Иван Иванович Иванов »
- SWAC_SPEAK_GENDER
-
Sexe du locuteur [M/F]
- M: masculin
- F: féminin
- SWAC_SPEAK_BIRTH_YEAR
-
Année de naissance du locuteur
(Format: YYYY)
- SWAC_SPEAK_LANG
-
Langue maternelle du locuteur
(ISO 639-3)
- SWAC_SPEAK_LANG_COUNTRY
-
Pays dans lequel le locuteur a acquis la
SWAC_SPEAK_LANG
- SWAC_SPEAK_LANG_REGION
-
Région dans laquelle le locuteur a acquis la
SWAC_SPEAK_LANG
- « Pays basque »
- SWAC_SPEAK_LANG_LOC
-
Géolocation de la
SWAC_SPEAK_REGION
(format: WGS 84 DM)- N 48°52.233 E 2°24.232
- SWAC_SPEAK_PRON
- Note générale à propos de la prononciation du locuteur (par exemple, dans le cas d'un défaut de prononciation)
- SWAC_SPEAK_LIV_COUNTRY
-
Code du pays dans lequel habite le locuteur
(ISO-3166-1)
- SWAC_SPEAK_LIV_TOWN
-
Nom de la ville dans laquelle habite le locuteur
- « Saint-Jean-Pied-de-Port »
- SWAC_SPEAK_CONTACT
- Information permettant de contacter le locuteur
- SWAC_SPEAK_DESC
- Note libre à propos du locuteur
3. Information sur la prononciation du mot :
- SWAC_PRON_INTONATION
-
Indication de l'intonation
enregistrement valeur « oh » Surprise « oh » Realization - SWAC_PRON_SPEED
-
[1/2/3]
- 1: prononciation lente pour un usage pédagogique
- 2: prononciation normale
- 3: rapide
- SWAC_PRON_COMMENT
-
Commentaire à propos de la prononciation du mot par le locuteur
enregistrement valeur « abasourdir » (fra) /a.ba.zuʁ.diʁ/ Prononciation académique « abasourdir » (fra) /a.ba.suʁ.diʁ/ Prononciation populaire « догово́р » (rus) Prononciation standard « до́говор » (rus) Prononciation populaire du sud de la Russie - SWAC_PRON_API
- Transcription phonétique à l'aide de l'alphabet phonétique international API
- SWAC_PRON_PHON
-
Transcription phonétique spécifique à la langue donnée
enregistrement valeur « мука » (rus) мука́ (avec un symbole diacritique) « 啊 » (chi) ā (la transcription en pinyin)
4. Information à propos de la collection audio :
- SWAC_COLL_NAME
-
- « Base audio libre de mots français »
- SWAC_COLL_SECTION
- Section à l'intérieur de la collection
- SWAC_COLL_DESC
- Description de la collection
- SWAC_COLL_ORG
- Organisation ayant enregistrée la collection audio
- SWAC_COLL_ORG_URL
- URL d'une page sur laquelle on trouvera plus d'informations sur l'organisation en question
- SWAC_COLL_LICENSE
- License sous laquelle est diffusée la collection audio
- SWAC_COLL_COPYRIGHT
- Copyright de la collection audio
- SWAC_COLL_AUTHORS
- Auteurs de la collection
- SWAC_COLL_URL
- URL d'une page sur laquelle on trouvera plus d'informations à propos de la collection
5. Informations techniques :
- SWAC_TECH_QLT
-
Qualité audio [1/2/3/4/5]
- 1: très mauvaise
- 2: mauvaise
- 3: normale
- 4: bonne
- 5: très bonne
- SWAC_TECH_DATE
-
Date d'enregistrement
(Format: AAAA-MM-JJ)
- SWAC_TECH_SOFT
- Nom du programme utilisé pour l'enregistrement
Note à propos des spécifications de Vorbis Comment :
Veuillez consulter le site officiel de Vorbis Comment à l'adresse suivante : http://xiph.org/vorbis/doc/v-comment.html pour de plus amples information à propos des métadonnées.
Le contenu des champs tels TITLE
, DESCRIPTION
, LICENSE
et COPYRIGHT
peuvent être définies avec n'importe quelle valeurs.
Ces champs peuvent être complétés automatiquement en utilisant les
informations fournies par les champs SWAC, de plus nous recommandons de
définir la valeur du champ GENRE
à « Speech ».
- GENRE
- « Speech »
According to the general Vorbis Comment specifications, the
use of additional fields is allowed. This enables SWAC Fields to cohabit
with other specific data. For example, electronic
dictionaries can use specific tags such as « OMEGAWIKI_ARTICLEIDX
» to link audio items to their
articles.
Note about the ID3v2 Tagging Format:
Since the availability of the 2.4 version of the ID3 Tagging Format, it is possible to store Unicode character strings in MP3
audio files. We do not recommend the use of this tagging format but SWAC fields can be stored as
« TXXX
» frames.
Please consult the ID3 Tagging Format home page at http://www.id3.org/ for more information.
Note about this document:
Ce document est distribué par le Proojet Shtooka sous une licence Creative Commons BY-SA. Vous trouverez plus d'informations à propos de cette licence à l'adresse suivante : http://creativecommons.org/licenses/by/2.0/fr/deed.en_GB