Parámetros de Python són iguales a los parámetros largos (
--parámetro
) de Terminal, si no especificado de otra manera. Banderas son parámetros de verdadero o falso (True/False) en Python. El manuál para cualquier modulo de gget se puede llamar desde la Terminal con la bandera-h
--help
.
gget elm 🎭
Prediga localmente motivos lineales eucarióticos (ELMs) a partir de una secuencia de aminoácidos o UniProt Acc utilizando datos de la base de datos ELM.
Produce: Resultados en formato JSON (Terminal) o Dataframe/CSV (Python). Este módulo devuelve dos tipos de resultados (ver ejemplos).
Los datos de ELM se pueden descargar y distribuir para uso no comercial de acuerdo con el acuerdo de licencia de software de ELM.
Si utiliza gget elm
en una publicación, favor de citar:
- Laura Luebbert, Chi Hoang, Manjeet Kumar, Lior Pachter, Fast and scalable querying of eukaryotic linear motifs with gget elm, Bioinformatics, 2024, btae095, https://doi.org/10.1093/bioinformatics/btae095
- Manjeet Kumar, et al., The Eukaryotic Linear Motif resource: 2022 release, Nucleic Acids Research, Volume 50, Issue D1, 7 January 2022, Pages D497–D508, https://doi.org/10.1093/nar/gkab975
Antes de usar gget elm
por primera vez, ejecute gget setup elm
/ gget.setup("elm")
una vez (consulte también gget setup
).
Parámetro posicional
sequence
Secuencia de aminoácidos o Uniprot Acc (str).
Al proporcionar una Uniprot Acc, use la bandera --uniprot
(Python: uniprot=True
).
Parámetros optionales
-s
sensitivity
Sensibilidad de la alineación DIAMOND (str). Por defecto: "very-sensitive" (muy sensible).
Uno de los siguientes: fast, mid-sensitive, sensitive, more-sensitive, very-sensitive, or ultra-sensitive.
-t
threads
Número de hilos de procesamiento utilizados en la alineación de secuencias con DIAMOND (int). Por defecto: 1.
-bin
diamond_binary
Ruta al binario DIAMOND (str). Por defecto: None -> Utiliza el binario DIAMOND instalado automáticamente con gget
.
-o
--out
Ruta al archivo en el que se guardarán los resultados (str), p. ej. "ruta/al/directorio". Por defecto: salida estándar (STDOUT); los archivos temporales se eliminan.
Banderas
-u
--uniprot
Use esta bandera cuando sequence
es una Uniprot Acc en lugar de una secuencia de aminoácidos.
-e
--expand
Amplíe la información devuelta en el marco de datos de expresiones regulares para incluir los nombres de proteínas, los organismos y las referencias en las que se validó originalmente el motivo.
-csv
--csv
Solo para Terminal. Produce los resultados en formato CSV.
Para Python, usa json=True
para producir los resultados en formato JSON.
-q
--quiet
Solo para Terminal. Impide la información de progreso de ser exhibida durante la ejecución del programa.
Para Python, usa verbose=False
para impedir la información de progreso de ser exhibida durante la ejecución del programa.
Ejemplo
Encuentre ELM en una secuencia de aminoácidos:
gget setup elm # Descarga/actualiza la base de datos ELM local
gget elm -o gget_elm_results LIAQSIGQASFV
# Python
gget.setup(“elm”) # Descarga/actualiza la base de datos ELM local
ortholog_df, regex_df = gget.elm("LIAQSIGQASFV")
Encuentre ELM que proporcionen a una UniProt Acc:
gget setup elm # Descarga/actualiza la base de datos ELM local
gget elm -o gget_elm_results --uniprot Q02410 -e
# Python
gget.setup(“elm”) # Descarga/actualiza la base de datos ELM local
ortholog_df, regex_df = gget.elm("Q02410", uniprot=True, expand=True)
→ Produce dos resultados con información extensa sobre ELMs asociados con proteínas ortólogas y motivos encontrados en la secuencia de entrada directamente en función de sus expresiones regex:
ortholog_df:
Ortholog_UniProt_Acc | ProteinName | class_accession | ELMIdentifier | FunctionalSiteName | Description | Organism | … |
---|---|---|---|---|---|---|---|
Q02410 | APBA1_HUMAN | ELME000357 | LIG_CaMK_CASK_1 | CASK CaMK domain binding ligand motif | Motif that mediates binding to the calmodulin-dependent protein kinase (CaMK) domain of the peripheral plasma membrane protein CASK/Lin2. | Homo sapiens | … |
Q02410 | APBA1_HUMAN | ELME000091 | LIG_PDZ_Class_2 | PDZ domain ligands | The C-terminal class 2 PDZ-binding motif is classically represented by a pattern such as | Homo sapiens | … |
regex_df:
Instance_accession | ELMIdentifier | FunctionalSiteName | ELMType | Description | Instances (Matched Sequence) | Organism | … |
---|---|---|---|---|---|---|---|
ELME000321 | CLV_C14_Caspase3-7 | Caspase cleavage motif | CLV | Caspase-3 and Caspase-7 cleavage site. | ERSDG | Mus musculus | … |
ELME000102 | CLV_NRD_NRD_1 | NRD cleavage site | CLV | N-Arg dibasic convertase (NRD/Nardilysin) cleavage site. | RRA | Rattus norvegicus | … |
ELME000100 | CLV_PCSK_PC1ET2_1 | PCSK cleavage site | CLV | NEC1/NEC2 cleavage site. | KRD | Mus musculus | … |
ELME000146 | CLV_PCSK_SKI1_1 | PCSK cleavage site | CLV | Subtilisin/kexin isozyme-1 (SKI1) cleavage site. | RLLTA | Homo sapiens | … |
ELME000231 | DEG_APCC_DBOX_1 | APCC-binding Destruction motifs | DEG | An RxxL-based motif that binds to the Cdh1 and Cdc20 components of APC/C thereby targeting the protein for destruction in a cell cycle dependent manner | SRVKLNIVR | Saccharomyces cerevisiae S288c | … |
… | … | … | … | … | … | … | … |
(Los motivos que aparecen en muchas especies diferentes pueden parecer repetidos, pero todas las filas deben ser únicas.)