TextUID : Propositions pour un identifiant unique d’un livre, commun à ses différentes éditions, générable automatiquement

Dans cet article, je propose des pistes pour une méthode facilement reproductible permettant de générer automatiquement un identifiant de texte. Ce n’est pas une méthode parfaite, mais plutôt la « moins mauvaise » méthode, aussi je suis ouvert à toute suggestion permettant de l’améliorer.

MAJ 08/06/2014 : ajout des règles 6 et 7 et de deux nouveaux exemples. Merci à @edasfr pour ces remarques.

Pourquoi ?

Lorsque je développe un site ou un outil pour les libraires, un besoin récurent celui est de pouvoir identifier les différents livres correspondant à un même texte (nouvelle édition, réédition en poche, version numérique ou audio, etc.).

Par exemple, le site de la librairie Scylla, sur chaque fiche livre, propose le même livre dans d’autres formats ou d’anciennes éditions épuisés disponibles d’occasion. Autre exemple, la librairie Charybde, pour le calcul de ses meilleures ventes, souhaite que les ventes d’un même texte chez différents éditeurs soient additionnés et pas considérés comme des livres différents.

Aujourd’hui, ce recoupement demande que les librairies (ou autres utilisateurs de Biblys) créent manuellement ces relations, opération fastidieuse qui peut être source d’erreur.

Cahiers des charges

La méthode de génération de l’identifiant doit :

  • être facilement à mettre en œuvre afin que n’importe qui puisse générer un identifiant sans passer par une autorité centrale ;
  • être suffisamment détaillée et prévoir tous les pièges possibles : deux acteurs générant un identifiant pour le même texte doivent parvenir systématiquement au même résultat.

D’autres (mauvaises) solutions

  • Le titre du livre, de toute évidence, ne peut convenir puisque que, si deux editions d’un livre ont a priori le même titre, il n’est pas rare que deux livres sans aucun rapport ait également le même titre. Par exemple, dans la base Biblys (qui est loin d’être exhaustive), il y a pas moins de cinq titres d’auteurs différents intitulé « Les Insoumis« …
  • Les ISBN sont propres à chaque édition d’un livre, il arrive parfois qu’un même livre chez un même éditeur puisse obtenir des ISBN différents au fil des réimpressions, ils ne peuvent donc convenir à cet usage.
  • La norme ISTC (pour International Standard Text Code) se rapproche de nos besoins, mais elle a deux désavantages. D’abord, elle ne nécessite de passer par une autorité centrale, une agence (en France, Électre) qui ne peut créer de nouveaux codes qu’à la demande d’un éditeur ou d’un ayant droit. De plus, elle semble peu utilisée aujourd’hui.

Description de la norme TextUID

Elle se présente sous la forme un ensemble de règles, dont le but est de décrire la méthode de génération de l’identifiant en tentant de prévoir un maximum de cas particuliers pour indiquer la marche à suivre le cas échéant. De nouvelles règles pourront donc être ajoutées si de nouveaux cas particuliers problématique sont découverts.

Règle 1

Le TextUID est une empreinte MD5 généré d’après une chaîne de caractères précises, encodé en UTF-8, en majuscules, contenant :
TITRE ORIGINAL du livre
barre oblique entouré d’espaces : ‘ / ‘
NOM PRÉNOM de l’auteur (ou NOM uniquement le cas échéant)

Soit : TITRE ORIGINAL / NOM PRÉNOM

Règle 2

Le titre du livre doit être dans la langue de publication originale, afin que les différentes traductions d’une oeuvre possèdent bien le même identifiant que l’original.

Règle 3

Si le livre a plusieurs auteurs, on les ajoute dans l’ordre alphabétique, l’un après l’autre, séparés par une virgule et une espace : NOM PRÉNOM, NOM PRÉNOM (ou NOM uniquement le cas échéant)

Soit : TITRE ORIGINAL / NOM PRÉNOM, NOM, NOM PRÉNOM

Règle 4

S’il existe plusieurs graphies pour un titre de livre, on utilise celui mentionné sur la couverture de la première édition.

Règle 5

S’il existe plusieurs graphies pour un nom d’auteur, on utilise celui mentionné sur la couverture de la première édition de son premier livre publié.

Règle 6

Si le livre fait partie d’une série, on utilise le titre du tome uniquement. Si le tome n’a pas de titre, on utilise le nom de la série, suivi d’un tiret et du numéro du tome.

Règle 7

Si le livre est un ouvrage collectif et qu’un ou plusieurs directeurs d’ouvrage sont mentionnés (« Sous la direction de… »), ce sont ces noms qui seront utilisés au lieu du nom des auteurs.

Quelques exemples :

Le Petit Prince

Chaîne : LE PETIT PRINCE / DE SAINT-EXUPÉRY ANTOINE
Empreinte MD5 : 31943e821c39ccd479441a2b0bdcf2b7

L’Attrape-coeurs

Chaîne : THE CATCHER IN THE RYE / SALINGER J. D.
Empreinte MD5 : 9c93c0d32ee994bddf65bb6f3bcfa421

Les Soldats de la mer

Chaîne : LES SOLDATS DE LA MER / RÉMY ADA, RÉMY YVES
Empreinte MD5 : d44c3bf585ee56cf1ae02f043492de81

À la recherche du temps perdu, tome 2

Chaîne : À L’OMBRE DES JEUNES FILLES EN FLEURS / PROUST MARCEL
Empreinte MD5 : 736ac35cc4ce8b67dfbaaa901c03f398

L’énergie à découvert, sous la direction de…

Chaîne : L’ÉNERGIE À DÉCOUVERT / JEANDEL CATHERINE, MOSSERI REMY
Empreinte MD5 : 97ff30f497e277265045e3cbdf08a37c

Exemples de code

PHP

<?php 
 
function textuid($title, $authors)
{
    foreach ($authors as $author)
    {
        if (!isset($authors_string)) $authors_string = NULL;
        else $authors_string .= ', ';
        $authors_string .= trim($author['last_name'].' '.$author['first_name']);
    }
    $string = mb_strtoupper($title.' / '.$authors_string, 'UTF-8');
    $hash = md5($string);
    return array('string' => $string, 'hash' => $hash);
}

$book_title = "Les Soldats de la mer";
$book_authors = array(
    array('first_name' => 'Ada', 'last_name' => 'Rémy'),
    array('first_name' => 'Yves', 'last_name' => 'Rémy')
);
 
var_dump(textuid($book_title, $book_authors));

Voir aussi ici le code en action.

Conclusion

J’utilise déjà cette méthode, à des fins de test, pour la base Biblys. Je la partage ici car je pense qu’elle pourrait être utile à d’autres en interne, mais aussi parce qu’elle prendrait un tout autre intérêt dans le cadre d’un échange de données entre des bases différentes.

Je suis conscient que cette méthode ne pourra jamais fonctionner à 100%, mais je pense que la première règle doit pouvoir couvrir 99% des cas et que les suivantes doivent pouvoir permettre de se rapprocher au maximum de la perfection… tout en sachant qu’on ne pourra jamais l’atteindre ! Mais c’est sans doute le prix à payer pour une génération automatique, sans vérification humaine.

Je suis donc bien entendu ouvert à toute question, remarque ou proposition de règles qui pourrait permettrait d’améliorer la méthode !

Pourquoi il faut faire passer l’amendement sur la TVA des livres numériques

Lecteurs contre les DRM

Un amendement au projet de Loi de finances 2014 sur le prix du livre a été déposé la semaine dernière par la députée Isabelle Attard et adopté à l’assemblée nationale, avant d’être immédiatement retiré à la demande du gouvernement. Cet amendement stipule que le taux de TVA réduit à 5,5% doit être appliqué au livre numérique (comme c’est déjà le cas), sauf si « le ou les fichiers comportent des mesures techniques de protection (…) ou s’il ne sont pas dans un format de données ouvert (…) ». Autrement dit, que les livres commercialisés dans des formats propriétaires et/ou avec des Mesures Techniques de Protection (DRM) doivent être considérés comme des licences d’utilisation (plutôt que des livres) et doivent donc être taxés à 19,6%.

L’amendement vise clairement à réserver l’avantage fiscal que représente le taux de TVA réduit aux seuls livres numériques proposés dans un format ouvert, interopérable, et sans Mesure Technique de Protection (DRM), de manière à décourager des pratiques qui à long terme ne peuvent que nuire à l’économie du livre et à la bibliodiversité.

Voici quelques éléments pour comprendre les enjeux derrière cet amendement.

Qu’est-ce qu’un format propriétaire et un format interopérable ?

Fut un temps où chaque constructeur créait son propre support pour vendre une œuvre (VHS/Betamax, Blu-Ray/HD-DVD, etc.) : un cauchemar pour le consommateur qui devait prendre garde à choisir un format compatible avec son matériel, qui pouvait se voir interdire l’accès à une partie des œuvres disponibles sur le marché et qui risquait de perdre toute sa collection si le format disparaissait.

Pour éviter les drames de ce genre avec le livre numérique, un certain nombre d’acteurs, réunis au sein de l’organisation IDPF, se sont mis d’accord pour créer un format ouvert et interopérable : l’ePub. Parce que c’est un format ouvert, il est facile pour n’importe qui de concevoir des livres numériques et des appareils ou applications de lectures sans payer de royalties à qui que ce soit. Et si ce format devait un jour disparaître au profit d’un autre, il sera facile de convertir les fichiers dans un nouveau format.

Malgré cela, certains s’obstinent à créer et utiliser des formats propriétaires pour des raisons commerciales et politiques. Un format propriétaire est un format conçu par une société commerciale dans le but d’enfermer ses clients dans un écosystème fermé. Ainsi, un livre numérique acheté chez Amazon, ne pourra être lu que sur une liseuse ou une application Amazon. De même, sur la liseuse Kindle d’Amazon, on ne pourra pas lire un livre numérique acheté ailleurs au format ePub pourtant standard, car la liseuse est verrouillée pour ne lire que les fichiers commercialisés par Amazon.

Que sont les Mesures Techniques de Protection (DRM) ?

Les Mesures Techniques de Protection (en anglais DRM pour Digital Rights Managements), permettent à un éditeur ou à une plateforme de contrôler les fichiers après téléchargement en empêchant la copie, le prêt, la diffusion, la conversion dans un autre format (non-propriétaire, par exemple). Dans certains cas, ils permettent même l’effacement à distance d’un livre sur l’appareil du client.

Les fichiers numériques vendus avec DRM s’apparentent donc moins à un livre papier (que l’on peut prêter, revendre, donner) qu’à une licence d’utilisation avec contrainte (comme l’emprunt à une bibliothèque), bien qu’ils ne soient que rarement présentés clairement comme tels.

Aujourd’hui, l’inefficacité des DRM est largement démontrée et leur utilisation n’est plus que le fait :

  • d’éditeurs peu au fait de la technologie et des usages du livre numérique, qui les imposent par peur du piratage ignorant qu’en réalité, ils l’encouragent ;
  • de grands groupes éditoriaux qui les imposent aux éditeurs dans leur giron contre leurs avis ;
  • de plateformes de vente qui espèrent ainsi enfermer leurs clients dans un écosystème fermé et s’assurer leur fidélité par la contrainte.

Pourquoi les DRM sont-ils inefficaces, voire contre-productifs ?

Conçus pour prévenir le piratage d’un livre numérique, les DRM sont aujourd’hui largement considérés comme inefficaces.

La raison en est simple : pour un utilisateur un tant soit peu alerte mais sans connaissance technique, il suffit d’une recherche Google et d’un téléchargement pour retirer en un clic les DRM d’un livre numérique. L’histoire a montré que les différentes mesures de protection technique prennent beaucoup plus de temps (et d’argent) à concevoir pour les entreprises commerciales qu’à contourner pour les pirates. Si l’industrie musicale y a presque totalement renoncé aujourd’hui, ce n’est pas par bonté de coeur.

Plus grave encore que leur inefficacité contre le piratage, les DRM posent problème parce qu’ils rendent complexe l’usage des livres numériques pour l’utilisateur lambda qui les a acquis honnêtement, en compliquant considérablement le transfert d’un livre numérique sur une liseuse. Jusqu’à les pousser à se tourner plutôt du côté des plateformes pirates… beaucoup plus simples d’emploi.

Il y aurait beaucoup de choses à dire sur le sujet, mais le mieux est de vous renvoyer à la lecture de l’excellent mémoire « Les DRM, passé ou avenir du livre numérique ? » d’Alice Donet qui fait le tour de la question des DRM d’un point de vue commercial, technique et juridique et dont la conclusion est sans appel. À mettre entre les mains de tous les éditeurs qui, par ignorance, y ont encore recours.

Vais-je payer les livres numériques plus cher ?

Non. En France, la loi Lang impose que tous les vendeurs d’un livre le commercialise à un prix situé entre 95 et 100 % du prix fixé par l’éditeur. Une plateforme imposant des DRM paiera sur ses ventes une TVA plus importante mais ne pourra pas reporter cette hausse sur le prix de vente public. Cette hausse vise donc à exercer une pression sur ceux qui imposent les DRM sans pénaliser le consommateur. Les grandes multinationales échappent aujourd’hui à la TVA française en étant implantées en Irlande ou au Luxembourg, mais ce ne sera plus le cas en 2015, date à laquelle c’est la TVA du pays où se trouve l’acheteur qui sera prise en compte, et non plus la TVA du pays où se trouve le vendeur.

En quoi les DRM et les formats propriétaires sont-ils dangereux ?

J’ai assisté la semaine dernière, dans le cadre du salon de l’édition indépendante L’Autre Livre, à un débat sur le thème “Face aux nouvelles technologies”, débat qui a rapidement tourné à la diatribe contre le livre numérique. Les arguments des anti sont toujours les mêmes : par opposition au livre papier, le livre numérique ne pourrait pas être prêté, ne serait pas durable, etc. Il est intéressant de noter que tous ces arguments s’appliquent non au livre numérique lui­-même, mais uniquement aux livres commercialisés dans un format propriétaire et/ou avec DRM, ce que semblait ignorer l’intervenant du débat. C’est la marque inquiétante d’une grande confusion dans l’esprit du grand public (et, visiblement, dans celui de certains professionnels).

Le risque est donc d’ancrer durablement dans l’esprit des lecteurs l’idée que les livres numériques achetés légalement présentent de nombreux désavantages (complexité d’utilisation, copie et prêt restreint, etc.), là où les livres piratés leurs permettent de conserver les usages auxquels le livre papier les a habitués. C’est commettre la même erreur que l’industrie musicale et les diriger avec un coup de pied aux fesses vers les plateformes pirates et les réseaux peer-to-peer.

Pourquoi l’amendement a-t-il été retiré ?

Le gouvernement français est actuellement en procès avec l’Union Européenne pour défendre l’idée que les livres numériques sont bien des livres, et doivent bénéficier d’un taux de TVA réduit, comme les livres papiers. La crainte du gouvernement est que cet amendement ne complique cette négociation, mais nombreux sont ceux qui pensent qu’au contraire, la TVA réduite serait d’autant plus légitime si elle distingue les livres en format interopérable et en format ouvert des licences d’utilisation qui sont de fait des services.

Tout espoir est-il perdu ?

En l’état, cet amendement n’est pas parfait et pose encore beaucoup de questions. Si le livre numérique avec DRM est considéré comme un service plutôt qu’un livre, la Loi lang est-elle encore applicable ? Les éditeurs qui voient des DRM apposés sur leurs livres contre leur avis seront-elles également pénalisés par la TVA ? Mais il a au moins le mérite de porter le problème sur la place publique.

Une pétition a été lancée peu de temps après le retrait de cet amendement pour demander son retour. Personnellement, je ne crois pas trop au pouvoir des pétitions — mais il faut bien dire que ça ne coûte pas grand-chose de les signer. Pétition ou pas, il est peu probable que l’amendement passe en l’état. Comme dit Actualitté, les éditeurs pro-DRM n’ont « pas même eu à décrocher leurs téléphones pour que l’amendement soit remis au vote, l’initiative émanerait du gouvernement seul ». Il est probable qu’il s’y préparent sérieusement pour le deuxième examen de l’amendement.

Néanmoins, il faut espérer que l’affaire permettra au moins de sensibiliser lecteurs et éditeurs aux problèmes que posent DRM et formats propriétaires et à quoi ils s’engagent souvent sans le savoir. À cette fin, n’hésitez pas à évoquer la question avec les lecteurs numériques qui vous entourent et à réclamez aux éditeurs que vous aimez des fichiers numériques interopérables et sans protection technique !

Il va sans dire que les avis exprimés dans ce billet n’engagent que moi et pas les professionnels du livre qui sont mes clients et les maisons d’édition auxquelles je participe.

À lire :