SWAC Metatags

L'enregistrement systématique de la prononciation de mots et d'expressions et la création de collections audio de langues est rendu possible par les avancées technologiques récentes.

Ces collections audio peuvent être utiles pour des usages :

de recherche en linguistique (par exemple pour enregistrer ou comparer la prononciation de différentes régions)
didactique (collections audio didactique comme "les verbes irréguliers anglais")
d'illustration (pour les dictionnaires électroniques)

L'échange de fichiers audio a été considérablement facilité par l'émergence de l'outil Internet. Les fichiers peuvent être facilement copiés et téléchargés... Cependant, comme pour être utilisés ou classés de façon pertinente, il faut que les enregistrements de mots ou d'expressions, soient associés à d'autres informations (de quel mot ou une expression s'agit il ?, quelle est la langue ?), il sera utile d'avoir un format standard d'enregistrement avec leurs informations associées.

Ainsi, les collections sonores pourront plus facilement être produites par différents logiciels, sur différentes plates formes, par différentes personnes.

Ce document propose une manière simple et pratique l'association d'informations à l'enregistrement sonore. Le but étant moins de définir les informations devant être définies mais plutôt la manière de les définir.

Plusieurs solutions serait possibles pour ce faire : nous pourrions, par exemple, associer un fichier texte contenant les champs d'information pour chaque enregistrement audio. Cette solution qui présente l'inconvénient de voir un même enregistrement matérialisé par deux fichiers différents.

Le système de Métadonnées Vorbis Comment permet de stocker des informations supplémentaires dans des fichiers Ogg Vorbis, Flac et Ogg Speex. Cette solution est très adaptée pour la mise en place de de collections de mots. Cette technologie existe déjà, est libre et largement utilisée et supportée. Elle permet un transfert aisé de fichiers audio avec les informations qui leur sont associées sans nécessiter de description supplémentaire puisque celles-ci sont directement enregistrées dans les fichiers audio sous forme de métadonnées contenues dans un tag Vorbis Comment.

La liste suivante est une proposition de liste de noms de champs et ce à quoi ils sont censés servir. Nous recommandons l'adoption d'un seul et même nom standard de nom pour une communauté produisant et utilisant des collections audio de mots. Ceci dans l'esprit des recommandations des champs Vorbis Comment : par exemple, dans le cadre d'une collection musicale, vous n'avez pas à remplir un champ donnant le nom de l'artiste mais si vous le faites, il vous faudra alors l'appeler "ARTIST" et non "BAND" ou quoi que ce soit d'autre.

Aucun de ces champs n'est conçu pour être obligatoire, mais nous pensons qu'il ne peut y avoir de véritable traitement automatique sans la présence des champs SWAC_TEXT et SWAC_LANG.

CHAMPS

1. Information à propos du texte prononcé :

SWAC_TEXT

Texte prononcé par un locuteur

« house »
« it's raining cats and dogs ! »

SWAC_LANG

La langue dans laquelle le mot est prononcé (ISO 639-3)

enregistrement	valeur
« rendezvous »	eng
« rendez-vous »	fra
« crocodile »	eng
« crocodile »	fra

SWAC_ALPHAIDX

Les mots-clés qui permettent aux programmes de générer automatiquement l'index alphabétique des collections. Le séparateur est «|» (U+007C).

enregistrement	valeur
« house » (eng)	house
« It's raining cats and dogs! » (eng)	rain\|cat\|dog
« I am » (eng)	be
« 啊 » (chi)	ā
« se laver » (fra)	laver (se)
« j'ai faim » (fra)	avoir\|faim
« ett fönster » (swe)	fönster
« telefonul » (ron)	telefon

SWAC_BASEFORM

Quand l'enregistrement est une forme dérivée d'un mot, ce champ indique la forme de base (le lemme)

enregistrement	valeur
« I was » (eng)	to be
« je vais » (fra)	aller
« друзей » (rus)	друг

SWAC_FORM_NAME

Quand le champ SWAC_BASEFORM est défini, ce champ indique alors le nom de la forme

enregistrement	valeur
« je vais » (fra)	Present. 1p.S.
« друзей » (rus)	Gen. Pl.

SWAC_FORM_REF

Nom de référenciel utilisé par le champ SWAC_FORM_NAME (par exemple, la codification LMF)

SWAC_HOMOGRAPHIDX

Index qui peut aider à différencier différents homographes à l'intérieur d'une collection audio Cet index peut être basé sur une différence grammaticale entre les homographes.

enregistrement	valeur
« пропа́сть » (rus)	verb
« про́пасть » (rus)	noun
« os » (fra) /os/	sing
« os » (fra) /o/	plur

Mais cela peut également être une traduction dans une autre langue (par exemple en anglais) ou bien une petite explication lorsque cette différence n'est pas de nature grammaticale.

enregistrement	valeur
« мука́ » (rus)	flow
« му́ка » (rus)	pain
« bass » (eng)	fish
« bass » (eng)	music

SWAC_HOMOGRAPHIDX_REF

Nom du référenciel utilisé par le champ SWAC_HOMOGRAPHIDX.

2. Informations sur le locuteur :

SWAC_SPEAK_NAME

Nom du locuteur

« Jacques Durand »
« Иван Иванович Иванов »

SWAC_SPEAK_GENDER

Sexe du locuteur [M/F]

M: masculin
F: féminin

SWAC_SPEAK_BIRTH_YEAR

Année de naissance du locuteur

(Format: YYYY)

SWAC_SPEAK_LANG

Langue maternelle du locuteur

(ISO 639-3)

SWAC_SPEAK_LANG_COUNTRY

Pays dans lequel le locuteur a acquis la SWAC_SPEAK_LANG

(ISO-3166-1)

SWAC_SPEAK_LANG_REGION

Région dans laquelle le locuteur a acquis la SWAC_SPEAK_LANG

« Pays basque »

SWAC_SPEAK_LANG_LOC

Géolocation de la SWAC_SPEAK_REGION (format: WGS 84 DM)

N 48°52.233 E 2°24.232

SWAC_SPEAK_PRON

Note générale à propos de la prononciation du locuteur (par exemple, dans le cas d'un défaut de prononciation)

SWAC_SPEAK_LIV_COUNTRY

Code du pays dans lequel habite le locuteur

(ISO-3166-1)

SWAC_SPEAK_LIV_TOWN

Nom de la ville dans laquelle habite le locuteur

« Saint-Jean-Pied-de-Port »

SWAC_SPEAK_CONTACT

Information permettant de contacter le locuteur

« [email protected] »

SWAC_SPEAK_DESC

Note libre à propos du locuteur

3. Information sur la prononciation du mot :

SWAC_PRON_INTONATION

Indication de l'intonation

enregistrement	valeur
« oh »	Surprise
« oh »	Realization

SWAC_PRON_SPEED

[1/2/3]

1: prononciation lente pour un usage pédagogique
2: prononciation normale
3: rapide

SWAC_PRON_COMMENT

Commentaire à propos de la prononciation du mot par le locuteur

enregistrement	valeur
« abasourdir » (fra) /a.ba.zuʁ.diʁ/	Prononciation académique
« abasourdir » (fra) /a.ba.suʁ.diʁ/	Prononciation populaire
« догово́р » (rus)	Prononciation standard
« до́говор » (rus)	Prononciation populaire du sud de la Russie

SWAC_PRON_API

Transcription phonétique à l'aide de l'alphabet phonétique international API

SWAC_PRON_PHON

Transcription phonétique spécifique à la langue donnée

enregistrement	valeur
« мука » (rus)	мука́ (avec un symbole diacritique)
« 啊 » (chi)	ā (la transcription en pinyin)

4. Information à propos de la collection audio :

SWAC_COLL_NAME

« Base audio libre de mots français »

SWAC_COLL_SECTION

Section à l'intérieur de la collection

SWAC_COLL_DESC

Description de la collection

SWAC_COLL_ORG

Organisation ayant enregistrée la collection audio

SWAC_COLL_ORG_URL

URL d'une page sur laquelle on trouvera plus d'informations sur l'organisation en question

SWAC_COLL_LICENSE

License sous laquelle est diffusée la collection audio

SWAC_COLL_COPYRIGHT

SWAC_COLL_AUTHORS

Auteurs de la collection

SWAC_COLL_URL

URL d'une page sur laquelle on trouvera plus d'informations à propos de la collection

5. Informations techniques :

SWAC_TECH_QLT

Qualité audio [1/2/3/4/5]

1: très mauvaise
2: mauvaise
3: normale
4: bonne
5: très bonne

SWAC_TECH_DATE

Date d'enregistrement

(Format: AAAA-MM-JJ)

SWAC_TECH_SOFT

Nom du programme utilisé pour l'enregistrement

Note à propos des spécifications de Vorbis Comment :

Veuillez consulter le site officiel de Vorbis Comment à l'adresse suivante : http://xiph.org/vorbis/doc/v-comment.html pour de plus amples information à propos des métadonnées.

Le contenu des champs tels TITLE, DESCRIPTION, LICENSE et COPYRIGHT peuvent être définies avec n'importe quelle valeurs. Ces champs peuvent être complétés automatiquement en utilisant les informations fournies par les champs SWAC, de plus nous recommandons de définir la valeur du champ GENRE à « Speech ».

GENRE: « Speech »

According to the general Vorbis Comment specifications, the use of additional fields is allowed. This enables SWAC Fields to cohabit with other specific data. For example, electronic dictionaries can use specific tags such as « OMEGAWIKI_ARTICLEIDX » to link audio items to their articles.

Note about the ID3v2 Tagging Format:

Since the availability of the 2.4 version of the ID3 Tagging Format, it is possible to store Unicode character strings in MP3 audio files. We do not recommend the use of this tagging format but SWAC fields can be stored as « TXXX » frames.

Please consult the ID3 Tagging Format home page at http://www.id3.org/ for more information.

Note about this document:

Ce document est distribué par le Proojet Shtooka sous une licence Creative Commons BY-SA. Vous trouverez plus d'informations à propos de cette licence à l'adresse suivante : http://creativecommons.org/licenses/by/2.0/fr/deed.en_GB

SWAC Metatags

CHAMPS

1. Information à propos du texte prononcé :

2. Informations sur le locuteur :

3. Information sur la prononciation du mot :

4. Information à propos de la collection audio :

5. Informations techniques :

Note à propos des spécifications de Vorbis Comment :

Note about the ID3v2 Tagging Format:

Note about this document:

Navigation

Collections Audio SWAC

le format SWAC

Logiciels

Quelques liens en vrac