Listing Unique Values In Stata Forex

Estoy utilizando los datos del panel, y estoy tratando de combinar los conjuntos de datos de acuerdo con el año y la variable de identificación única. Sin embargo, mi variable id no es uniforme en todos los conjuntos de datos. Mientras, reconozco que esto es fundamental para la fusión de datos, no estoy seguro de cómo abordar este problema. Estoy utilizando datos para países del mundo, pero no todos los países están registrados en todos los conjuntos de datos. Para algunos hay más países incluidos. Actualmente, los datos se ordenan según el id del país. Que está en orden alfabético, y se asigna a cada país un valor numérico en Stata. Por lo tanto, algunos de los países tienen valores diferentes asignados a ellos según el número de países que hay en ese conjunto de datos específicos. Y por lo tanto, cuando me fusiono los datos de acuerdo con el ID de cada país, y el año. Estos corresponden a diferentes países. ¿Hay una manera de asignar el mismo número a cada país, y hacerlo uniforme sin importar el número de países en el conjunto de datos preguntó 19 de mayo 14 a las 21: 49 Bienvenido al Instituto de Investigación Digital y Educación Stata FAQ: ¿Cómo puedo ver El número de valores faltantes y los patrones de valores faltantes en mi archivo de datos A veces, un conjunto de datos puede tener quotholesquot en él, es decir, los valores faltantes. Algunos procedimientos estadísticos como el análisis de regresión no funcionarán tan bien, o en absoluto, en un conjunto de datos con valores faltantes. Las observaciones con valores perdidos tienen que ser eliminadas o los valores perdidos tienen que ser sustituidos para que un procedimiento estadístico produzca resultados significativos. La mayoría de los programas estadísticos (incluyendo SAS, SPSS y Stata) eliminarán automáticamente estos casos de cualquier análisis que se ejecute (sin eliminar los casos del conjunto de datos). Esta es la razón por la cual el quotnquot a menudo varía de análisis a análisis, incluso si el conjunto de datos es el mismo. Diferentes variables tienen diferentes cantidades de datos faltantes y por lo tanto, el cambio de las variables en un modelo cambia el número de casos con datos completos sobre todas las variables en el modelo. Debido a que el software deja caer los casos con valores faltantes para nosotros, es muy fácil quotforgetgetot sobre los datos perdidos enteramente. Sin embargo, la presencia de datos perdidos puede influir en nuestros resultados, especialmente cuando un conjunto de datos o incluso una sola variable, tiene un alto porcentaje de valores que faltan. Por lo tanto, siempre es una buena idea comprobar un conjunto de datos para los datos que faltan, y pensar en cómo los datos que faltan pueden influir en nuestros análisis. Esta página muestra algunos métodos para buscar valores perdidos en un conjunto de datos, esta información puede usarse para tomar decisiones mejor informadas sobre cómo manejar los valores perdidos. Antes de comenzar, necesitamos algunos datos con valores faltantes, el código a continuación introduce un pequeño conjunto de datos en Stata y luego muestra esos datos. En un conjunto de datos pequeño, como el siguiente, es muy fácil ver los datos sin procesar y ver dónde faltan valores. Sin embargo, cuando los conjuntos de datos son grandes, necesitamos una forma más sistemática de examinar nuestro conjunto de datos para los valores faltantes. A continuación le mostramos algunas maneras de hacerlo, usando los siguientes datos como ejemplo. 1. Número de valores faltantes versus número de valores no faltantes Lo primero que vamos a hacer es determinar qué variables tienen muchos valores faltantes. Hemos creado un pequeño programa Stata llamado mdesc que cuenta el número de valores faltantes en las variables numéricas y de carácter. Puede descargar mdesc desde Stata escribiendo findit mdesc (consulte Cómo puedo usar el comando findit para buscar programas y obtener ayuda adicional para obtener más información sobre el uso de finidit). A continuación, puede ejecutar mdesc para una o más variables como se ilustra a continuación. Ahora sabemos el número de valores faltantes en cada variable. Por ejemplo, salepric variable tiene cuatro valores faltantes y saltoapr tiene dos valores faltantes. 2. Obtención del número de valores faltantes por observación También podemos observar la distribución de los valores perdidos a través de las observaciones. El siguiente código crea una variable llamada nmis que da el número de valores faltantes para cada observación. La función rmiss2 () utilizada aquí es una extensión de la función egen rmiss (). Cuenta el número de valores faltantes en la varlist. Rmiss2 () acepta tanto las variables de cadena como las numéricas. (Statas rmiss () sólo acepta variables numéricas.) Puede descargar rmiss2 () a través de Internet desde Stata escribiendo findit rmiss2 (consulte Cómo puedo usar el comando findit para buscar programas y obtener ayuda adicional para obtener más información sobre el uso de findit ). A continuación, tabulamos la variable que acabamos de crear. Observando la tabla de frecuencias sabemos que hay cuatro observaciones sin valores faltantes, nueve observaciones con un valor faltante, una observación con dos valores faltantes y una observación con tres valores faltantes. 3. Patrones de valores faltantes También podemos observar los patrones de valores faltantes. Puede descargar mvpatterns a través de Internet desde Stata escribiendo findit mvpatterns (consulte Cómo puedo utilizar el comando findit para buscar programas y obtener ayuda adicional para obtener más información sobre el uso de findit). El comando mvpatterns produce salida para todas las variables del dataset, para los patrones de datos que faltan en un subconjunto de variables, se puede incluir una lista de variables, por ejemplo, mvpatterns landval improval totval. La salida producida por mvpatterns se muestra a continuación. La primera tabla enumera las variables, su tipo de almacenamiento (tipo), el número de observaciones (obs), el número de valores faltantes (mv) y la etiqueta de variable si las variables tienen una. La segunda tabla contiene la información sobre el patrón de valores faltantes. El primer bloque de columnas en la salida muestra los patrones de datos faltantes. Dentro del bloque, cada variable está representada por una columna, un quotquot indica que los valores de esa variable están presentes en un patrón dado de datos faltantes, un quot. ot indica que están faltando. Las columnas siguen el mismo orden que la lista de variables de la primera tabla, de modo que la primera columna en la salida de abajo representa landval. La segunda mejora. y así. Los patrones de datos faltantes se enumeran en frecuencia descendente, aquí el patrón de datos faltantes más común es datos completos (quotquot). La tabla también muestra el número de valores faltantes en ese patrón (mv), y el número de casos con ese patrón de datos faltantes (freq). Con base en la información de la segunda tabla sabemos que hay cuatro observaciones sin valores faltantes, dos casos faltan sólo en la variable salepric. Y una observación con valores faltantes en la mejora. Salepric y saltoapr. 4. Cuando todas las variables de interés son numéricas Los ejemplos anteriores funcionan independientemente de si las variables de interés (es decir, las variables cuyos patrones de datos faltantes desea examinar) son numéricas o de cadena. Cuando todas las variables que desea comprobar los valores faltantes son numéricas, podemos utilizar un programa llamado misschk para simplificar los pasos de examinar los datos que faltan en nuestro conjunto de datos. (Nota: las variables numéricas incluyen aquellas con etiquetas de valor que son cadenas, siempre y cuando los valores reales de las variables se almacenen como números). Puede descargar misschk desde Stata escribiendo findit misschk (consulte ¿Cómo puedo utilizar el comando findit para Busque programas y obtenga ayuda adicional para obtener más información sobre el uso de findit). A continuación se muestra el comando para misschk. Hemos enumerado las cinco variables en nuestro conjunto de datos en la lista de variables después del comando misschk. Sin embargo, podríamos haber dejado la lista de variables en blanco (es decir, se utilizó sólo misschk. Gen (miss) en su lugar), si lo hubiéramos hecho, misschk se habría ejecutado usando todas las variables en nuestro conjunto de datos. La lista de variables sólo es necesaria si queremos ejecutar misschk sólo en algunas de las variables de nuestro conjunto de datos. La opción gen (miss) dice a misschk que queremos que cree dos nuevas variables, las cuales comienzan con quotmissquot. Estas dos variables se denominarán misspattern y missnumber. La variable misspattern indica cuál de los patrones de datos faltantes sigue a cada caso. La variable missnumber indica el número de valores faltantes para cada caso. La salida para misschk consta de tres tablas. La primera tabla enumera el número de valores faltantes, así como el porcentaje de falta para cada variable, esto es similar a la tabla producida por mdesc en la parte 1 anterior. Esta tabla también contiene una columna etiquetada que asigna a cada variable un número que se utiliza para identificar la variable más adelante en la salida. La segunda tabla muestra la distribución de los valores faltantes. El patrón de missingness se describe utilizando los números de la variable de la primera tabla, y underscores (). Los números indican qué variables faltan en ese patrón, los subrayados representan observaciones no faltantes. Por ejemplo, a partir de la segunda tabla vemos que dos casos tienen valores faltantes en la variable 1 (landval), pero datos completos sobre todas las demás variables, y que un caso no contiene datos sobre las variables 2, 4 y 5. La fila inferior muestra Que cuatro casos no faltan valores en absoluto (todos los subrayados). Esta tabla muestra la misma información generada en la tercera parte anterior, pero en un formato ligeramente diferente. El patrón de datos faltantes para cada caso se describe en la variable patrón erróneo. Finalmente, la tercera tabla muestra la distribución del número de valores faltantes por caso. Esta es la misma información discutida anteriormente en la parte 2. El número de variables que falta cada caso también está contenido en la variable número de error. El contenido de este sitio web no debe ser interpretado como un endoso de ningún sitio web, libro o producto de software en particular por la Universidad de California. Bienvenidos al Instituto de Investigación y Educación Digital Preguntas frecuentes de Stata ¿Cómo puedo detectar observaciones duplicadas? Muestra cómo comprobar si un conjunto de datos tiene observaciones duplicadas. Hay dos métodos disponibles para esta tarea. El primer ejemplo utilizará comandos disponibles en Stata base. El segundo ejemplo utilizará un programa escrito por el usuario. Este comando escrito por el usuario es bueno porque crea una variable que captura toda la información necesaria para replicar las observaciones eliminadas. Ejemplo 1 Este ejemplo utiliza el conjunto de datos High School y Beyond, que no tiene observaciones duplicadas. Por lo tanto, añadimos cinco observaciones duplicadas a los datos y luego utilizamos el comando duplicados para detectar qué observaciones se repiten. Además, para evaluar la sensibilidad de la orden, cambiamos el valor de una de las observaciones duplicadas. La razón para cambiar un valor es imitar lo que puede suceder en la práctica que a menudo buscan para quotduplicatequot casos que no son idénticamente entró en el conjunto de datos. En el dataset, la variable id es el identificador de caso único. Para agregar las observaciones duplicadas, ordenamos los datos por id. Luego duplicar las primeras cinco observaciones (id 1 a 5). Esto lleva a 195 observaciones únicas y 5 duplicadas en el conjunto de datos. Para la identificación de sujeto 1, todos sus valores están duplicados excepto para su puntaje de matemáticas, una puntuación duplicada se establece en 84. Empezamos por ejecutar el comando de informe de duplicados para ver el número de filas duplicadas en el conjunto de datos. Esto es seguido por id de los informes duplicados. Que da el número de filas de replicación por las variables especificadas en esta instancia tenemos sólo id. Podríamos haber usado el comando duplicates examples en lugar del comando report de duplicados. El comando duplicates examples muestra un ejemplo de cada conjunto duplicado. Claramente, la salida del informe de duplicados y el ID del informe de duplicados difieren. La salida del informe de duplicados muestra el número de filas de repetición sobre todas las variables. Tenga en cuenta que en el duplicado cuyo valor cambiamos (id1), las dos filas no son técnicamente iguales, y este comando correctamente no las recogió. El segundo comando duplicados muestra que tenemos 195 valores de identificación únicos, y cinco id (superávit) que aparecen dos veces cada uno (copias), lo que lleva a un total de 10 observaciones cuestionables basadas en id. A continuación enumeramos las observaciones duplicadas con el comando de lista de duplicados. Esta lista de duplicados corresponde a la lista de las observaciones con filas duplicadas sin embargo, como se encuentra con el informe de duplicados. No identifica los cinco identificadores duplicados. Por lo tanto, intentamos duplicar la lista de identificación. Ahora vemos que cinco temas se duplican sin embargo, la lista duplicada sólo enumera la variable especificada. Es posible que desee enumerar las otras variables para ver qué variables están causando la diferencia entre la lista de duplicados y las salidas de id de lista de duplicados. Para tener una salida como esa dada de la lista de duplicados. Usamos el comando duplicates tag para crear una nueva variable dupid que asigna un 1 si el id está duplicado, y 0 si aparece una vez. A continuación, enumeramos aquellos casos en que dupid es igual a 1. Es evidente que id 1 tiene valores diferentes en las puntuaciones de matemáticas sobre las observaciones duplicadas. A partir de esto, sería aconsejable comprobar qué puntuación, si es que, es la correcta. Supongamos que en este caso las puntuaciones fueron incorrectas y la puntuación real fue 44. Corregimos las puntuaciones y después de la corrección, los resultados del informe de duplicados y el id de los informes duplicados deben coincidir. Ahora, podemos usar el comando drop de duplicados para eliminar las observaciones duplicadas. El comando descarta todas las observaciones excepto la primera aparición de cada grupo con observaciones duplicadas. Después de ejecutar duplicados gota. Comprobamos que no hay otras observaciones duplicadas. Parece que nos hemos librado de las observaciones duplicadas. Ejemplo 2 En Stata, hay varios programas disponibles para detectar los duplicados y también puede descartar opcionalmente los duplicados. Uno de los programas se llama dups. El programa dups no es un programa incorporado en Stata, pero puede ser instalado a través de Internet usando findit dups (consulte Cómo puedo usar el comando findit para buscar programas y obtener ayuda adicional para obtener más información sobre el uso de findit). Una vez instalado el dups, podemos utilizarlo de inmediato. Este ejemplo utiliza el subconjunto siguiente del conjunto de datos más grande utilizado anteriormente con duplicados añadidos. Primero introducimos los datos: Luego los observamos: En nuestro ejemplo, tenemos un grupo de observaciones con duplicados que consta de la observación número 1, 7 y 8. Eso es lo que vemos a continuación. Ahora usaremos el comando dups. Sin argumentos, dups devuelve información sobre el número de grupos de observaciones que tienen duplicados y el número de duplicados en cada grupo. Podemos agregar una lista de variables después de dups. Por ejemplo, en el ejemplo siguiente, añadimos la variable race after dups. Ahora dups cuenta cuántas observaciones duplicadas en la raza variable solamente. Podemos ver en la lista del conjunto de datos que hay tres grupos de observaciones de raza (1, 2 y 4) y dos de ellos tienen duplicados. Eso es mostrado por dups abajo. Agregando la opción única. También solicitamos información sobre grupos que tienen una única observación única. Por ejemplo, con la clave de opción (varlist). Podemos solicitar una lista de las observaciones. Por ejemplo, en el siguiente ejemplo, vemos los valores de id en cada grupo. Se puede agregar una opción llamada concisa para obtener información resumida sobre los duplicados. Por ejemplo, Ahora qué si queremos dejar caer los duplicados Podemos hacerlo agregando una opción llamada gota. Queremos advertirle que siempre es peligroso eliminar las observaciones, ya que puede perder sus datos. Así que siempre hacerlo con precaución. Lo que es bueno acerca de dups es que crea una nueva variable que tiene suficiente información para recuperar las observaciones eliminadas si cambiamos de opinión sobre lo que acabamos de hacer. El nombre predeterminado de la variable es expand (puede cambiar el nombre usando la opción expand after dups). Usando la variable expand podemos recuperar las observaciones eliminadas usando un comando llamado expand. Vea el siguiente ejemplo. Si por alguna razón querías volver a un conjunto de datos que tiene duplicados, puedes usar el comando expand, usando la variable de expansión creada por dups para especificar el número de duplicados a realizar. Tenga en cuenta que esto sólo recuperará su conjunto de datos original si detectó duplicados basándose en todas las variables de su conjunto de datos. Si utilizó sólo un subconjunto de variables, sólo podrá volver a crear con precisión los valores de esos casos (porque no tiene datos sobre las variables que no se usaron para determinar duplicados). Ahora hemos visto cómo detectar y soltar observaciones duplicadas usando el comando dops escrito por el usuario. El contenido de este sitio web no debe ser interpretado como un endoso de cualquier sitio web, libro o producto de software en particular por la Universidad de California.

Forex sabanalarga

Search This Blog

Listing Unique Values In Stata Forex

Comments

Post a Comment

Popular posts from this blog

Price Action Techniques Forex Peace

Olga Astakhova Forexworld