MPEG-GMPEG-G (ISO / IEC 23092) é um padrão ISO/IEC projetado para representação de informações genômicas pela colaboração do ISO/IEC JTC 1/SC 29 /WG 9 (MPEG) e do ISO TC 276 "Biotechnology" Work Group 5. O objetivo do padrão é fornecer soluções interoperáveis para armazenamento, acesso e proteção de dados em diferentes implementações possíveis para informações de dados geradas por máquinas de sequenciamento de alto rendimento e seu processamento e análise subsequentes.[1][2] O padrão é composto de diferentes partes, cada uma abordando um aspecto específico, como compressão, associação de metadados, Application Programming Interfaces (APIs) e um software de referência para decodificação de dados. Juntamente com o software decodificador de referência, implementações comerciais e de código aberto[3] começaram a estar disponíveis em 2019, cobrindo progressivamente mais partes publicadas do padrão. BackgroundO advento das tecnologias de High-throughput methods (HTS) revolucionou o campo da biologia quantitativa. A disponibilidade de grandes coleções de informações genômicas agora faz parte da prática cotidiana e se tornou a base de diversas disciplinas, desde a pesquisa biológica até a medicina personalizada na clínica. Atualmente, as informações genômicas são trocadas principalmente por meio de uma variedade de formatos de dados, como FASTA / FASTQ para leituras de sequenciamento não alinhadas e SAM / BAM / CRAM para leituras alinhadas. O padrão ISO/IEC 23092 (MPEG-G) visa fornecer um formato unificado para a representação e compactação eficientes de dados tão diversos, tanto para armazenamento de arquivos quanto para transporte de dados. Para isso, o padrão é dividido em várias partes. Estrutura padrãoO padrão MPEG-G utiliza tecnologia e arquiteturas de representação de dados previamente validadas no campo da mídia digital. Eles permitem compactar e transportar dados de sequenciamento do genoma mesmo em cenários complexos, por exemplo, quando é necessário acesso a grandes quantidades de dados possivelmente distribuídos ou quando parte dos dados precisa ser criptografada por motivos de privacidade. Conceitualmente, tais requisitos levam à definição de uma série de mecanismos mutuamente inter-relacionados, que são resumidos na lista a seguir:
Por sua vez, alguns desses tópicos foram reunidos para tornar o padrão mais fácil de entender e implementar. Como resultado, a norma ISO/IEC 23092 é fisicamente estruturada como uma série de documentos separados, da seguinte forma:
ISO/IEC 23092-1 MPEG-G Part 1A ISO/IEC 23092-1 especifica como os dados genômicos são organizados dentro de estruturas MPEG-G para transporte (ou seja, streaming) e armazenamento. Os formatos de registro genômico, registro de referência, arquivo MPEG-G e fluxo de transporte são definidos nesta parte. Ele apresenta o Access Unit como o contêiner dos dados genômicos compactados e fornece um processo de conversão de referência entre diferentes formatos. ISO/IEC 23092-2 MPEG-G Part 2A ISO/IEC 23092-2 especifica a sintaxe e os métodos para compressão sem perdas MPEG-G de dados de sequenciamento e compressão com perdas de pontuações de qualidade associadas. O MPEG-G, como é típico dos padrões MPEG, especifica apenas o processo de decodificação, enquanto o processo de codificação é deixado aberto a inovações algorítmicas e específicas de implementação. Todos os decodificadores compatíveis com MPEG-G produzem saídas idênticas dos fluxos de bits multiplexados incluídos nos arquivos MPEG-G e dos fluxos de dados em cenários de streaming. Os dados de entrada do codificador são registros genômicos ou metadados, com dados de referência opcionais, enquanto sua saída é um arquivo MPEG-G ou fluxos de transporte. ISO/IEC 23092-3 MPEG-G Part 3A ISO/IEC 23092-3 especifica um formato de metadados e fornece APIs de representação de dados genômicos para dar suporte à interoperabilidade entre ferramentas e sistemas existentes. A Parte 3 especifica como um fluxo de bits compatível com MPEG-G pode ser integrado com metadados, bem como mecanismos para implementar controle de acesso, verificação de integridade, autenticação e mecanismos de autorização. Esta parte também contém uma seção informativa dedicada ao mapeamento entre estruturas de dados SAM e MPEG-G, incluindo compatibilidade com versões anteriores do conteúdo SAM existente. Ele define:
ISO/IEC 23092-4 MPEG-G Part 4A ISO/IEC 23092-4[9] especifica um software de referência para representação de informações genômicas, denominado modelo genômico (GM). Ele consiste em dois componentes: o software codificador de referência e o software decodificador de referência. Embora o software decodificador de referência seja fornecido para avaliar a conformidade com os requisitos da ISO/IEC 23092-1,[4] ISO/IEC 23092-2[5] e ISO/IEC 23092-6,[7] o software codificador de referência serve como um guia para a implementação dos padrões acima mencionados. O software codificador de referência chamado Genie[3] é um software de código aberto desenvolvido por um grupo de indivíduos de várias universidades e empresas ao redor do mundo. Ele apresenta os seguintes componentes:
ISO/IEC 23092-5 MPEG-G Part 5A ISO/IEC 23092-5 especifica a conformidade da codificação de informações genômicas. A Parte 5 fornece um meio de testar e validar a implementação correta da tecnologia MPEG-G em diferentes dispositivos e aplicativos para garantir a interoperabilidade entre todos os sistemas. Ele especifica um procedimento normativo para avaliar a conformidade com o padrão em um conjunto exaustivo de dados compactados. Tipo MIME e extensões de nome de arquivoNenhum tipo MIME (tipo de mídia IANA baseado em RFC 6838) definido atualmente para arquivo MPEG-G. Nenhuma extensão de arquivo convencional é definida. Ver tambémReferências
Ligações externasInformation related to MPEG-G |