Table de hachage, reconnaissance musicale, Shazam, content-oriented distribution pattern, empreintes audio, signal audio, sérialisation des données, loi de Pareto, fragmentation, performance, algorithmes
Il s'agit d'expliquer le fonctionnement d'une table de hachage d'empreinte audio distribuée dans un système de reconnaissance automatique de musique tel que Shazam, avec une description des éléments qui permettent le passage à l'échelle et comment il est possible de faire une recherche efficace dans une base de données qui contient des millions de morceaux.
[...] - Optimisation pour les charges de travail fréquentes Les systèmes peuvent tirer parti de la loi de Pareto en identifiant les morceaux les plus fréquemment recherchés et en les stockant sur des n?uds spécialisés ou en répliquant ces données sur plusieurs n?uds. Cela réduit considérablement le temps de réponse pour les requêtes les plus courantes Wang, & Sun, 2014). - Optimisation de la disposition des données Pour maximiser l'efficacité de la recherche, une disposition sérialisée des données est utilisée dans la table de hachage. Cette technique consiste à organiser les données de manière séquentielle dans la mémoire, ce qui permet des opérations de lecture beaucoup plus rapides Wang, & Sun, 2014). [...]
[...] - Compatibilité disque-dur La structure est adoptée pour être stockée sur un disque. Cela est d'autant plus important lorsque la taille mémoire de la base de données est supérieure à la capacité de stockage du système. Les algorithmes sophistiqués et/ ou génétiques permettent une réduction significative le temps d'accès à la donnée. - Réduction de la fragmentation mémoire En regroupant les données associées aux mêmes clés dans des emplacements contigus, cette méthode minimise la fragmentation, garantissant une utilisation optimale des ressources. [...]
[...] Chacun des n?uds contient une table de hachage spécifique contenant des clés et les valeurs correspondantes. Et du coup, pour chaque clé, le nombre de valeurs est réduit significativement ce qui forme un avantage majeur Wang, & Sun, 2014). Avantages spécifiques de cette méthode La réduction du nombre de valeurs par clé et par n?ud permet une amélioration significative de la gestion de mémoire et améliore la vitesse de la gestion des recherches dans la base de données. La flexibilité, quant à elle, est un avantage lié à la flexibilité du système et ainsi prévoir l'augmentation de la taille de la base de données Wang, & Sun, 2014). [...]
[...] Et ce dans une table de hachage bien conçue. Cependant, lorsqu'il s'agit de bases de données contenant des millions ou des milliards d'empreintes, une table de hachage unique ne suffit pas, notamment en raison des limites de mémoire et des temps de calcul sur un serveur unique Wang, & Sun, 2014). - Distribution des tables de hachage La capacité de retrouver les morceaux avec certitude avec une grosse performance forment une grande problématique. Certes, les systèmes modernes adoptent une approche dite distribuée, une approche auxquelles plusieurs n?uds contiennent la répartition de la table de hachage et ce dans un environnement informatique avec de bons capacités de calcul. [...]
[...] - Impact sur la performance La sérialisation réduit le nombre d'accès aléatoires en mémoire, remplaçant ces derniers par des lectures séquentielles. Ces lectures sont considérablement plus rapides sur la plupart des architectures matérielles. Lorsqu'une requête est effectuée, le système peut localiser rapidement la plage de données pertinente et effectuer la recherche directement sur ces segments sérialisés. - Compatibilité avec les grands ensembles de données Pour les bases de données dépassant la capacité mémoire, la sérialisation permet un stockage optimisé sur disque. [...]
Source aux normes APA
Pour votre bibliographieLecture en ligne
avec notre liseuse dédiée !Contenu vérifié
par notre comité de lecture