top 32 best datastage interview questions
Llista de preguntes i respostes a les entrevistes de dades més freqüents per ajudar-vos a preparar la propera entrevista:
DataStage és una eina ETL molt popular que estava disponible al mercat actual.
En aquest article, comparteixo un conjunt de respostes a preguntes molt útils destinades a entrevistes d’IBM Datastage. Consultar a continuació les preguntes de l’entrevista de Datastage us pot facilitar l’entrevista.
Hem tractat respostes detallades a les preguntes de l’entrevista de Datastage que seran útils per a estudiants de primer any i professionals experimentats.
Lectura recomanada => Preguntes sobre entrevistes de proves ETL
Preguntes i respostes més habituals de l’entrevista de dades estadístiques
Comencem!
P # 1) Què és Datastage?
Respostes: Datastage és un Eina ETL donada per IBM que utilitza una GUI per dissenyar solucions d'integració de dades. Aquesta va ser la primera eina ETL que va donar un concepte de paral·lelisme.
Està disponible en tres edicions diferents
- Edició del servidor
- Edició Enterprise
- Edició MVS
P # 2) Destacar les principals característiques de Datastage?
Respostes: A continuació, es destaquen les principals característiques de Datastage:
- És el component d'integració de dades del servidor d'informació de l'IBM Infosphere.
- És una eina basada en la GUI. Només hem d’arrossegar i deixar anar els objectes Datastage i el podem convertir a codi Datastage.
- S'utilitza per realitzar les operacions ETL (Extreure, Transformar, Carregar)
- Proporciona connectivitat a diverses fonts i múltiples objectius alhora
- Proporciona particions i tècniques de processament en paral·lel que permeten als treballs de Datastage processar un volum enorme de dades bastant més ràpid.
- Té connectivitat a nivell empresarial.
P # 3) Quins són els usos principals de l'eina Datastage?
Respostes: Datastage és una eina ETL que s'utilitza principalment per extreure dades de sistemes d'origen, transformar aquestes dades i, finalment, carregar-les a sistemes objectiu.
Q # 4) Quines són les principals diferències que heu observat entre la versió 7.x i 8.x de DataStage?
Respostes: Aquí són les principals diferències entre ambdues versions
7.x | 8.x |
---|---|
La versió 7.x depenia de la plataforma | Aquesta versió és independent de la plataforma |
Té una arquitectura de dos nivells on es construeix el datastage a sobre del servidor Unix | Té una arquitectura de 3 nivells on tenim la base de dades del servidor UNIX a la part inferior, després la base de dades XMETA, que actua com a repositori i, a continuació, tenim un escenari de dades a la part superior. |
No hi ha cap concepte de conjunt de paràmetres | Disposem de conjunts de paràmetres que es poden utilitzar a qualsevol part del projecte. |
Teníem dissenyador i gerent com a dos clients separats | En aquesta versió, el client gestor es va fusionar amb el client de disseny |
Hem hagut de cercar manualment les feines d’aquesta versió | Aquí tenim l'opció de cerca ràpida al dipòsit on podem cercar fàcilment les feines. |
P # 5) Podeu ressaltar les principals característiques del servidor d'informació de l'IBM Infosphere?
Respostes: Les principals característiques del paquet de servidors d’informació d’IBM Infosphere són:
java vs. c ++
- Ofereix una plataforma única per a la integració de dades. Té la capacitat de connectar-se a sistemes d'origen múltiples, així com escriure a sistemes objectiu múltiples.
- Es basa en capes centralitzades. Tots els components de la suite poden compartir l'arquitectura de base de la suite.
- Té capes per al dipòsit unificat, per a serveis integrats de metadades i un motor paral·lel comú.
- Proporciona eines d'anàlisi, neteja, control, transformació i lliurament de dades.
- Té capacitats de processament massivament paral·leles. Resulta que el processament és molt ràpid.
P # 6) Quines són les diferents capes de l'arquitectura del servidor d'informació?
Respostes: A continuació es mostren les diferents capes de l'arquitectura del servidor d'informació
- Interfície d'usuari unificada
- Serveis comuns
- Processament paral·lel unificat
- Metadades unificades
- Connectivitat comuna
Q # 7) Què podria ser un sistema de fonts de dades?
Respostes: Podria ser una taula de base de dades, un fitxer pla o fins i tot una aplicació externa com ara soft soft.
Q # 8) En quina interfície treballareu com a desenvolupador?
Respostes: Com a desenvolupador de Datastage, treballem a la interfície de client de Datastage, que es coneix com a dissenyador de Datastage que s’ha d’instal·lar al sistema local. Al dorsal, està connectat al servidor Datastage.
P # 9) Quins són els diferents serveis comuns a Datastage?
Respostes: A continuació es mostra la llista de serveis comuns a Datastage:
- Serveis de metadades
- Desplegament de serveis unificats
- Serveis de seguretat
- Serveis de bucle i informes.
P # 10) Com comenceu a desenvolupar un projecte Datastage?
Respostes: El primer pas és crear un treball Datastage al servidor Datastage. Tots els objectes Datastage que creem s’emmagatzemen al projecte Datastage. Un projecte Datastage és un entorn independent al servidor per a tasques, taules, definicions i rutines.
Un projecte Datastage és un entorn independent al servidor per a tasques, taules, definicions i rutines.
Q # 11) Què és un treball de DataStage?
Respostes: El treball Datastage és simplement un codi DataStage que creem com a desenvolupador. Conté diferents etapes relacionades entre si per definir el flux de dades i processos.
Les etapes no són res més que les funcionalitats que s’implementen.
Per exemple: Suposem que vull fer una suma de l'import de les vendes. Aquesta pot ser una operació 'grup per' que es realitzarà en una etapa.
Ara vull escriure el resultat en un fitxer de destinació. Per tant, aquesta operació la realitzarà una altra etapa. Una vegada que he definit les dues etapes, he de definir el flux de dades des de la meva etapa 'grup per' fins a la fase de fitxers de destinació. Aquest flux de dades es defineix mitjançant enllaços DataStage.
Una vegada que he definit les dues etapes, he de definir el flux de dades des de la meva etapa 'grup per' fins a la fase de fitxers de destinació. Aquest flux de dades es defineix mitjançant enllaços DataStage.
P # 12) Què són les seqüències de DataStage?
Respostes: La seqüència Datastage connecta els treballs DataStage en un flux lògic.
P # 13) Si voleu utilitzar el mateix fragment de codi en diferents feines, com ho aconseguirà?
Respostes: Això es pot fer mitjançant contenidors compartits. Hem compartit contenidors per reutilitzar-los. Un contenidor compartit és un element de treball reutilitzable format per etapes i enllaços. Podem trucar a un contenidor compartit en diferents feines de Datastage.
P # 14) On s’emmagatzemen els treballs de Datastage?
Respostes: Els treballs Datastage s’emmagatzemen al dipòsit. Disposem de diverses carpetes en què podem emmagatzemar els treballs de Datastage.
P # 15) On veieu les diferents etapes del dissenyador?
Respostes: Totes les etapes estan disponibles dins d'una finestra anomenada ' Paleta ' . Té diverses categories en funció del tipus de funció que ofereix l'escenari.
Les diverses categories d’etapes de la paleta són: generals, qualitat de dades, base de dades, desenvolupament, fitxers, processament, etc.
P # 16) Quines són les etapes de processament?
Respostes: Les etapes de processament ens permeten aplicar la transformació de dades real.
Per exemple , El ' L’etapa d’agregador de la categoria Processament ens permet aplicar totes les operacions de “grup per”. De la mateixa manera, tenim altres etapes en el processament, com l’etapa ‘Unir-se’ que ens permet unir les dades provinents de dos fluxos d’entrada diferents.
P # 17) Quins són els passos necessaris per crear un treball bàsic de Datastage bàsic?
Respostes: Feu clic al fitxer -> Feu clic a Nou -> Seleccioneu treball paral·lel i premeu Ok. S'obrirà una finestra de treball paral·lela. En aquest treball paral·lel, podem reunir diferents etapes i definir el flux de dades entre elles. El treball DataStage més senzill és un treball ETL.
En aquest cas, primer hem d’extreure les dades del sistema d’origen per al qual podem utilitzar una fase de fitxers o una base de dades perquè el meu sistema d’origen pot ser una taula de bases de dades o un fitxer.
Suposem que estem llegint dades d’un fitxer de text. En aquest cas, arrossegarem i deixarem anar l’etapa ‘Fitxer seqüencial’ a la finestra de treball paral·lela. Ara, hem de realitzar alguna transformació a més d’aquestes dades. Utilitzarem l’etapa ‘Transformer’, disponible a la categoria Processament. Podem escriure qualsevol lògica a l’etapa Transformer.
Finalment, hem de carregar les dades processades en alguna taula de destinació. Suposem que la meva base de dades objectiu és DB2. Per tant, per a això, seleccionarem l’etapa del connector DB2. Després connectarem aquests estats de dades mitjançant enllaços seqüencials.
Preguntes i respostes d’entrevistes al servidor sql per experimentar amb exemples
Després d'això , hem de configurar les etapes perquè apuntin al sistema de fitxers o base de dades correctes.
Per exemple, Per a l'etapa del fitxer seqüencial, hem de definir els paràmetres obligatoris com el nom del fitxer, la ubicació del fitxer i les metadades de la columna.
A continuació, hem de compilar el treball Datastage. La compilació del treball comprova la sintaxi del treball i crea un fitxer executable per al treball Datastage que es pot executar en temps d'execució.
P # 18) Anomeneu els diferents mètodes d'ordenació a Datastage.
Respostes: Hi ha dos mètodes disponibles:
- Classificació d'enllaços
- Classificació de fases de dades incorporada
P # 19) En un lot si un treball falla pel mig i voleu reiniciar el lot des d’aquesta feina en concret i no des de zero, què fareu?
Respostes: A Datastage, hi ha una opció en la seqüència de treballs: 'Afegiu punts de control perquè la seqüència es pugui reiniciar en cas d'error' . Si aquesta opció està marcada, podem tornar a executar la seqüència de treballs des del punt en què ha fallat.
P # 20) Com importeu i exporteu els treballs de Datastage?
Respostes: F o això, a sota de les funcions de línia d'ordres per a això
- Importació: dsimport.exe
- Exporta: dsexport.exe
P # 21) Què són les rutines a Datastage? Demaneu diversos tipus de rutines.
Respostes: Rutina és un conjunt de funcions definides pel gestor DS. S’executa a través de l’etapa del transformador.
Hi ha 3 tipus de rutines:
- Rutines paral·leles
- Rutines de mainframe
- Rutines del servidor
P # 22) Com elimineu els valors duplicats a DataStage?
Respostes: Hi ha dues maneres de gestionar els valors duplicats
- Podem utilitzar l'eliminació de l'etapa duplicada per eliminar els duplicats.
- Podem utilitzar l’etapa Ordena per eliminar els duplicats. L'etapa d'ordenació té una propietat anomenada 'permet duplicats'. No obtindrem valors duplicats a la sortida de la classificació en establir aquesta propietat com a falsa.
P # 23) Quins són els diferents tipus de visualitzacions disponibles en un director de Datastage?
Respostes: Hi ha 3 tipus de visualitzacions disponibles al director de Datastage. Ells són:
- Vista de registre
- Vista d'estat
- Vista de feina
Q # 24) Distingir entre Informatica i Datastage. Quina escolliríeu i per què?
Respostes: Tant Informatica com DataStage són potents eines ETL.
Els punts inclosos diferencien les dues eines:
Informatica | Etapa de dades | |
---|---|---|
Processament paral·lel | Informatica no admet el processament en paral·lel. | En contrast amb això, l'estadi de dades proporciona mecanismes per al processament en paral·lel. |
Implementació de SCD | És bastant senzill implementar SCD (dimensions que canvien lentament) a Informatica. | Tot i això, és complex implementar SCD en estadis de dades. Datastage admet SCD només mitjançant scripts personalitzats. |
Control de versions | Informatica admet el control de versions a través del registre d’entrada i sortida d’objectes. | Tot i això, no tenim aquesta funcionalitat disponible a la fase de dades. |
Transformacions disponibles | Hi ha transformacions menors disponibles. | Datastage ofereix més varietat de transformacions que Informatica. |
Potència de cerca | Informatica proporciona una cerca dinàmica dinàmica molt potent | No tenim cap cosa similar a la fase de dades. |
Al meu entendre, aniria amb Informatica per sobre de Datastage. La raó és que he trobat Informatica més sistemàtica i fàcil d'utilitzar que DataStage.
Una altra raó important és que la depuració i la gestió d'errors són molt millors a Informatica en comparació amb Datastage. Per tant, solucionar problemes es fa més fàcil a Informatica. Datastage no proporciona suport complet per a la gestió d’errors.
=> Voleu obtenir més informació sobre Informatica? Tenim un explicació detallada aquí.
Q # 25) Feu una idea de les variables del sistema.
Respostes: Les variables del sistema són les variables de només lectura que comencen per '@' que es pot llegir tant per l’etapa del transformador com per la rutina. S'utilitzen per obtenir la informació del sistema.
P # 26) Quina diferència hi ha entre etapa passiva i etapa activa?
Respostes: Les etapes passives s’utilitzen per a l’extracció i la càrrega, mentre que les etapes actives s’utilitzen per a la transformació.
P # 27) Quins són els diversos tipus de contenidors disponibles a Datastage?
Respostes: Tenim a sota dos contenidors a Datastage:
- Contenidor local
- Contenidor compartit
P # 28) El valor de la variable de prova es guarda temporalment o permanentment?
Respostes: Temporalment. És una variable temporal.
P # 29) Quins són els diferents tipus de treballs a Datastage?
Respostes: Tenim dos tipus de feines a Datastage:
- Feines de servidor (s'executen de manera seqüencial)
- Feines paral·leles (s’executen de manera paral·lela)
P # 30) Per a què serveix el director de Datastage?
Respostes: A través de Datastage director, podem programar un treball, validar-lo, executar-lo i supervisar-lo.
P # 31) Quins són els diversos tipus de fitxer hash?
Respostes: Tenim 2 tipus de fitxers hash:
- Fitxer de hash estàtic
- Fitxer de resum dinàmic
P # 32) Què és una etapa de qualitat?
Respostes: L’etapa de qualitat (també anomenada etapa d’integritat) és una etapa que ajuda a combinar les dades que provenen de diferents fonts.
què és una clau de xarxa per a wifi
Conclusió
Haureu de tenir un coneixement pràctic sobre l’arquitectura Datastage, les seves característiques principals i hauríeu de ser capaç d’explicar en què es diferencia d’altres eines ETL populars.
A més , hauríeu de tenir una idea justa sobre les diferents etapes i el seu ús, una manera completa de crear un treball Datastage i executar-lo.
Lectura recomanada => Què són les proves ETL?
Tot el millor!
Lectura recomanada
- Preguntes i respostes de l'entrevista de proves ETL
- 10 millors eines de mapatge de dades útils en el procés ETL (LLISTA 2021)
- 15 millors eines ETL el 2021 (llista completa actualitzada)
- Tutorial de proves de magatzem de dades amb exemples | Guia de proves ETL
- Tutorial de proves de magatzem de dades de proves ETL (una guia completa)
- Proves ETL vs. DB: una visió més detallada de la necessitat, la planificació i les eines ETL de proves ETL
- Com realitzar proves ETL mitjançant l'eina Informatica PowerCenter
- Les metadades a Data Warehouse (ETL) s’expliquen amb exemples
- Nota de premsa: nova versió de iCEDQ Soft, versió de la plataforma ETL Testing and Migration Testing Platform
- Top 10 d'eines de proves ETL el 2021
- Què és el procés ETL (extracció, transformació, càrrega) a Data Warehouse?