Informática

Software para Economistas

Software para economistas son programas informáticos, lenguajes de programación o plataformas de cómputo que se utilizan principalmente para realizar análisis estadístico y para elaborar informes y documentos. Algunos de los software mas usados son STATA, Eviews y SPSS, además de aplicaciones de oficina y programas para la elaboración de documentos.


La economía moderna requiere cada vez mas manipulación de datos y la modelación de relaciones funcionales. La programación es una habilidad cada vez mas requerida en los economistas. Muchos de los programas o software mencionados en este artículo son lenguajes de programación en sí mismos: requieren saber programación en general, y saber usar el lenguaje en particular. Otros, como SPSS, pueden ser usados sin saber programación, por lo que pueden resultar mas fáciles, aunque menos poderosos.

En este artículo no cubrimos en profundidad software de oficina como MS-Word, Excel y lectores y editores de PDF, porque la mayoría de nosotros ya sabemos para qué sirve este tipo de programas y sus características.

Economistas usan software principalmente para:


  • Realizar análisis estadístico y econométrico.
  • Para elaborar documentos y papers.
  • Para realizar álgebra.

Los elementos mas importantes, además de su capacidad para realizar las tareas para los que son usados, a la hora de definir qué software usar son las siguientes:

  • Convención: mientras mas colegas usan el mismo software, es mas fácil compartir el código y obtener ayuda. Al mismo tiempo, si se trabaja en equipo, se pueden obtener licencias a un menor precio cuando se compran varias al mismo tiempo.
  • Precio: existen programas gratuitos y de código abierto, que son gratis, y programas de código cerrado que tienen un precio, en algunos casos elevado. En estos casos, el precio puede ser un factor importante a la hora de elegir qué programa usar.
  • Inercia: en muchos casos los economistas aprenden a usar un programa en la universidad y luego siguen usando ese programa en su ámbito laboral. Las universidades siguen enseñando a usar el mismo software a sus alumnos y por economías de red, el sofware se sigue usando.

Software para análisis estadístico y econométrico usados por economistas



  • STATA: es un programa muy usado para realizar análisis econométrico. Es fácil de usar y ya tiene varios años de trayectoria, por lo que muchos lo usan por inercia. En los últimos años ha tenido cierto crecimiento en ciertas organizaciones que se han mudado desde SPSS a STATA. Para usarlo hay que adquirir una licencia. Puede manejar grandes datasets.
  • Eviews: es un software muy usado para analizar series de tiempo, pero es capaz de realizar diversos análisis estadísticos. Al igual que STATA, Eviews es relativamente fácil de usar, aunque puede ser un poco complicado importar los datos a Eviews.
  • SAS: SAS es un sistema comercial relativamente caro. Es muy usado en la industria, especialmente en Estados Unidos. En el ámbito farmacéutico, por ejemplo, SAS es el mas utilizado. SAS es bueno para manejar grandes cantidades de datos.
  • SPSS: Es un progama muy usado en todas las ciencias sociales y es fácil de usar. Tiene una interfaz de usuario que con unos pocos clicks permite realizar análisis estadísticos convencionales. Por ejemplo, regresiones lineales y análisis de ANOVA se pueden hacer en pocos minutos. Los resultados son detallados y los gráficos son aceptables. SPSS no es muy bueno manejando grandes bases de datos.
  • R: R y Python son lenguajes de programación de código abierto. Al ser lenguajes de programación sin una interfaz gráfica, tienen una curva de aprendizaje mucho mas elevada, pero una vez aprendidos, pueden tener mas flexibilidad a la hora de desarrollar programas específicos, aunque no todos los economistas necesitan desarrollar programas. R es excelente para realizar predicciones y el análisis de datos, fue creado específicamente para el análisis estadístico. Algunos usuarios se quejan de la capacidad de R para analizar grandes bases de datos. Los gráficos elaborados con R son de excelente calidad.
  • Python: Python es un lenguaje de propósito general de código abierto. Con el tiempo, usuarios desarrollaron librerías de uso específico, por ejemplo Python Pandas y Numpy, que sirven para analizar datos. Python puede gestionar y analizar grandes datasets con relativa facilidad, en este sentido es mejor que R. Python puede ser mas difícil de aprender que SPSS y SAS, en especial si no se tiene experiencia con lenguajes de programación. Python y R todavía no son muy usados por economistas, pero están creciendo rápidamente a medida que sus librerías se mejoran y a medida que mas usuarios aprenden a usarlos.

Software para realizar álgebra y matemática usados por economistas

Este tipo de software no es tan utilizado, dado que muy pocos economistas deben realizar álgebra y análisis matemático. Para este tipo de tareas, los programas mas usados son:

  • Mathematica: es muy caro. Se trata de un software poderoso pero difícil de aprender.
  • Matlab: usado para manipulaciones de matrices, gráficos de funciones y datos. También puede hacer simulaciones de Monte Carlo. Una alternativa a Matlab, pero libre, es GNU Octave.

Software para elaborar documentos

Muchos economistas deben elaborar reportes y enviar papers para ser publicados. Estos programas permiten elaborar documentos, principalmente usando LaTex. LaTex es un sistema para elaborar documentos que permite trabajar con ecuaciones matemáticas.

Algunos de los software mas usados por economistas para este tipo de tareas son:

  • TexMaker
  • TEXstudio
  • LYX
  • Texmaker
  • Adobe Acrobat (no para LaTex, solo para elaborar PDFs)
  • MS-Word y su alternativa libre, LibreOffice

Software para Análisis Estadístico

Todos amamos las comparaciones! Antes de comprar un teléfono, averiguamos si es mejor Samsung o Apple. Antes de comprar un viaje, averiguamos sobre el destino. Pues bien, antes de aprender a usar un programa de estadística, es necesario investigar a fondo las distintas alternativas. Mas teniendo en cuenta que para poder usar uno de estos programas de manera mas o menos eficiente, necesitaremos varios meses de práctica. Además, la elección de uno u otro podrá influir de manera decisiva en nuestra futura carrera como profesionales.


En este artículo me enfocaré en los siguientes cuatro programas o lenguajes de programación:

- Python

- R

- SPSS

- SAS

Si bien existen mas programas, como Matlab, eViews y Stata, considero que estos son los cuatro mas importantes en este momento, y los que mas demanda tienen en general. En particular, uso profesionalmente Python y R. Anteriormente usé SPSS y muy poco SAS, por lo que mi experiencia con estos dos últimos es mas limitada, aunque para escribir este artículo realicé algunas consultas a profesionales con mas experiencia en los mismos.

Con la gran cantidad de datos disponibles y el auge de data science, actualmente los profesionales relacionados con la estadística deben saber utilizar de manera prolífica al menos uno de estos sistemas, aunque quienes se especialicen en el análisis de datos deben poder manejar dos de estos o mas, uno de los cuales debe ser Python o R, y es necesario tener conocimiento de SQL.


Suficiente introducción, vamos a ver cual es el mejor! Momento, no tan rápido, cada uno tiene sus pro y sus contra, por lo que deberás tomar la decisión vos mismo.

Python y R son lenguajes de programación de código abierto, mientras que SPSS y SAS son sistemas propietarios comerciales de código cerrado. Para usar SPSS y SAS es necesario comprar una licencia.

Como Python y R son gratuitos y de código abierto, cualquiera puede usarlos de manera profesional sin pagar nada. Esto hace que estén creciendo muy rápido y que cualquier programador puede desarrollar librerías para usar en los mismos. Ambos cuentan con una amplia comunidad dispuesta a ayudar en sitios como Stackoverflow. Comunidades de científicos de datos, como Kaggle, usan Python y R para sus proyectos.


SPSS y SAS no tienen comunidades de usuarios tan grandes, pero sí tienen soporte oficial de los proveedores. Esto puede ser útil para grandes empresas. Si bien la mayoría de los usuarios de Python y R no necesitan este tipo de soporte, ante una duda o problema, además de las comunidades online, existen empresas y profesionales dedicadas a brindar soporte para Python y R.

Python para Estadística

Python es un lenguaje de programación creado por un chico de holanda llamado Guido van Rossum. Guido quiso crear un lenguaje que sea fácil de aprender y poderoso al mismo tiempo. Python es relativamente fácil de aprender, si lo comparamos con otros lenguajes como C. Python es un lenguaje de programación de propósito general. La versión 0.9.0 de Python fue lanzada en 1991.

Al ser un lenguaje de programación de propósito general, Python es usado en muchos programas de PC, en sitios web y juegos. Si bien no fue creado específicamente para estadística, programadores comenzaron a crear librerías para el análisis estadístico con Python. Algunas de las mas conocidas son Pandas, Numpy, Matplotlib, SciPy y scikit-learn.

Python puede gestionar y analizar grandes datasets con relativa facilidad, en este sentido es mejor que R y SPSS. SAS es también de analizar bases de datos de gran tamaño.

Otro punto donde Python tiene mucha ventaja sobre el resto es en data mining y machine learning. Las librerías de Python para este tipo de tareas son mejores a las del resto. Además, Python se implementa en sistemas de producción, como predicciones en tiempo real.

Python puede ser mas difícil de aprender que SPSS y SAS, en especial si no se tiene experiencia con lenguajes de programación.

R

R es un lenguaje de programación creado en la Universidad de Auckland. R fue creado específicamente para analizar datos. Es excelente para realizar predicciones y el análisis de datos.

Al ser de código abierto, R también cuenta con muchas librerías que mejoraron el lenguaje inicial. En los últimos años, librerías como dplyr han hecho que R gane en facilidad de uso y adopción. Muchos consideran que actualmente R es mejor que Python en algunos aspectos, especialmente en estadística descriptiva. ggplot2 es otra excelente librería para crear gráficos y visualizaciones.

Tanto R como Python pueden importar datos de SAS y SPSS.

SAS

SAS es un sistema comercial relativamente caro. Es muy usado en la industria, especialmente en Estados Unidos. En el ámbito farmacéutico, por ejemplo, SAS es el mas utilizado.

SAS fue creado en la Universidad de Carolina del Norte, como una herramienta para analizar grandes datasets de datos de la agricultura. La del mismo demanda aumentó y en 1976 se fundó la empresa SAS.

SAS tiene mucha mas historia que Python y R y por lo tanto existe una gran cantidad de usuarios del mismo. Muchas empresas vienen usando SAS desde hace tiempo y por lo tanto van a seguir usando SAS por muchos años mas, por inercia.

Por esto, especialmente en Estados Unidos, existe una demanda relativamente continua de analista de datos que manejen SAS.

SAS es caro, pero este costo es relativamente bajo para empresas de gran envergadura. Si deseas aprender SAS, existe una versión llamada University Edition, que se ejecuta en una virtual machine y se debe usar con un navegador como Firefox. Esta versión es para uso académico y no comercial.

SPSS

SPSS significa Statistical Package for Social Science y como su nombre lo indica es muy usado en las ciencias sociales, como economía y psicología. Fue desarrollado en 1968 en Standford. IBM compró SPSS en 2009.

SPSS es muy utilizado en universidades y en el ámbito académico, pero no tanto en el sector privado. Como es mucho mas fácil de usar que Python y R, también es usado por muchos estudiantes.

Tiene una interfaz de usuario que con unos pocos clicks permite realizar análisis estadísticos convencionales, con una fracción del tiempo que requeriría realizar el mismo análisis en R y Python. Por ejemplo, regresiones lineales y análisis de ANOVA se pueden hacer en pocos minutos. Los resultados son detallados y los gráficos son aceptables.

SPSS no es muy bueno manejando grandes bases de datos.

Algunas conclusiones

Si eres un investigador de alguna ciencia social y no planeas especializarte en el análisis de datos, SPSS puede ser una opción. Aquellos que quieran trabajar en una industria específica o en Estados Unidos, pueden considerar aprender SAS.

El crecimiento de Python y R ha sido fenomenal en los últimos años, por lo que el futuro de estos dos lenguajes es excelente. Las librerías se vienen mejorando rápidamente. En ciertos aspectos, R supera a Python y en otros como Machine Learning, Python supera a R. Aunque ambos se complementan mutuamente, porque cada uno toma ideas del otro.

En el siguiente gráfico presento los resultados de una encuesta de ButchWorks (consultora) entre mas de mil analistas de datos y científicos de datos de Estados Unidos, en la que simplemente preguntan qué lenguaje prefieren. Podemos ver que con el tiempo, SAS está cayendo en desuso mientras que Python está creciendo rápidamente.

Cabe resaltar que esta encuesta es general, por lo tanto no se refiere a ningún sector en particular. Probablemente en el ámbito corporativo y entre los seniors, SAS supere al resto, mientras que en la academia R (y SPSS) sea mas popular que Python. Sin embargo, la tendencia en general es al crecimiento de Python.

Existen muchos analistas de datos que utilizan estos dos programas, generalmente Python para la preparación y limpieza de datos y R para el análisis. Personalmente tuve algunos inconvenientes con R al analizar grandes bases de datos y también con Python con algunos análisis estadísticos para los que no tenía librerías disponibles, para los cuales tuve que usar R.

Si planeas buscar empleo como data scientist o analista de datos, también deberás conocer SQL.

Hacer Economía empírica es caro en Latinoamérica

Por RAÚL ISAAC SUÁREZ


Cuando se indaga el por qué de la baja producción científica de calidad en Economía de Latinoamérica, usualmente se alude a actitudes internas de los economistas investigadores y académicos de la región. El conformismo, la mediocridad intelectual, la pereza mental, mala gestión universitaria y la falta de vocación se señalan como causales únicas. Si bien es cierto, en casos determinados estas causas son correctas, no explican la magnitud total del problema.


Una de las razones más poderosas es la falta de recursos. El presupuesto de un joven economista investigador es, la mayoría de las veces, muy pequeño. Aunque la Economía no necesita laboratorios ni sofisticadas máquinas de observación o experimentación, si necesita de ciertas licencias de Software y acceso a bases de datos académicas cuyos precios muchas veces no son alcanzables para el economista académico latino.



Hoy en día es imposible concebir un trabajo econométrico de calidad sin el uso de un software estadístico de procesamiento de datos. Los modelos actuales de la econometría tienen cálculos tan complejos y usualmente tan numerosos que, sin el uso de los modernos paquetes de software sería imposible llevarlos a cabo. O al menos, imposible para un solo investigador.

Recientemente conversaba con unos colegas sobre la viabilidad del uso de software de código abierto bajo licencia GNU. Y el principal argumento a su favor es justamente su precio. Son gratis. Por el contrario tienen el inconveniente que aprender a usarlos es muy difícil para el no iniciado. En comparación con los paquetes propietarios cuyas interfaces son más amigables y sencillas.

Impulsado por mi curiosidad, quise indagar cuanto cuesta una licencia anual para un usuario individual de uno de estos paquetes. Para determinar si eran lo suficiente altas como para justificar el tiempo en aprender los software de código abierto. Fue grande mi sorpresa cuando descubrí sus precios. Son precios que sin duda están muy por encima del alcance del economista académico latinoamericano promedio.

A continuación detallo los precios que figuraban en los sitios web oficiales de cada paquete al 12 de mayo de 2012, para una licencia anual e individual de la versión más completa (entiéndase Plus, Premium, Professional, etc.) de cada paquete. Estos precios están en dólares americanos e incluyen manuales y guías impresas.

Eviews Enterprise Edition 7 = USD 675.00

STATA/MP 12 = USD 970.00

Minitab 15 = USD 1,395.00

IBM SPSS Statistics Premium = USD 6,750.00

SAS Analytics Pro = USD 8,500.0

Con estos precios. Sin lugar a dudas vale la pena el tiempo invertido en aprender los softwares de acceso libre. Acá una lista de los más útiles:

1 - Gretl

2 - R

3 - EasyReg

4 - PSPP

5 - JMulti

6 - G7

7 - Draco Econometrics

8 - Matrixer

Así mismo las licencias para Software de oficina son altas también. Por ejemplo Microsoft Office 2010 Professional para un usuario / una PC, cuesta USD 349.99. Un incentivo más para usar OpenOffice. El Software para producir documentos tipográficos con símbolos matemáticos no se queda atrás. Una licencia para Scientific Workplace 5.5 de Mackichan cuesta USD 845.00 sin duda lo suficiente para motivar a cualquiera en invertir tiempo en aprender LaTeX. Por supuesto si tienes algo más de paciencia, siempre puedes adquirir MathType 6.8 de Design Scince por USD 97.00 pero tendrás más trabajo que hacer.

Finalmente, el machete de la Economía Computacional; MATLAB R2012a de MathWorks cuesta USD 2,150.00. Sin duda muchos obtarán por Octave, su alternativa libre. Mathematica 8 de Wolfram está costando USD 2,498.00. He aquí otra razón para usar Euler . Similarmente Maple 16 cuesta USD 2,845.00. No encontré el precio actual de Gauss, un software para tratamiento de datos, pero no me extrañaría que anduviera por ese rango.

Si a estos costos de Software le sumamos los costos de acceder a las bases de datos científicas (JSTOR, SCienceDirect, etc.), el costo de una computadora decente (Entre USD 1,500.00 y USD 2,500.00), y los costos de transporte, copias, impresiones, libros, subscripciones a revistas científicas, tarifas de presentación de artículos y demás. No sería de extrañarse qué en Latinoamérica estamos tan atrasados en creación de conocimiento científico en Economía.

A pesar de esto, son pocas las universidades que fomentan el uso de paquetes de código abierto a sus estudiantes de Estadística y Econometría. Muchas Universidades dedican horas completas a hacinar a sus estudiantes en un laboratorio de computación para enseñarles a usar un software al cual muchas veces no podrán tener acceso fuera de la universidad.

Si las universidades enseñaran a usar paquetes de código abierto, al egresar, los jóvenes economistas no necesitarían de muchos recursos para explotar su creatividad intelectual. Sin lugar a duda el factor de impacto de los investigadores latinos sería mejor, y por consiguiente, la calidad de la educación que puedan ofrecer. Es por esto que se necesita un cambio de enfoque en la pedagogía económica nuestra. Uno que promueva el ahorro en dinero y maximice la producción de publicaciones académicas de calidad en nuestra lúgubre ciencia.

Managua, mayo de 2012.

Oferta y Demanda Agregada

El Modelo de Oferta y Demanda Agregada , probablemente sea el modelo macroeconómico más utilizado . Resulta muy útil para analizar la inflación, el desempleo, el crecimiento y , en general, el papel que desempeña la Política Económica.


La Demanda Agregada de una economía en un periodo dado esta determinada por el gasto total en consumo privado, el gasto publico, inversión y exportaciones netas. La curva de Demanda Agregada recoge la relación existente entre el nivel general de precios de la economía y el nivel de gasto agregado o demanda de todos los bienes y servicios de la economía. Conforme aumenta el nivel de precios , el gasto agregado será menor. Al elevarse el nivel de precios, la cantidad de bienes y servicios que puedan adquirirse con un stock determinado de dinero y de otros activos financieros disminuye. Además, un nivel de precios creciente hará que los bienes y servicios sean menos competitivos en los mercados internacionales y por lo tanto, la demanda exterior neta disminuirá. Para obtener la curva de Demanda Agregada de la Economía se requiere que el mercado de bienes y servicios, y el mercado de dinero, ambos estén en equilibrio.

Por su parte, la Oferta Agregada se define como la cantidad total de bienes y servicios que se ofrecen a la venta a los diferentes precios medios posibles. Si bien hay consenso entre los economistas con respecto a la demanda agregada, existe una dicotomía considerable en relación a la forma de la función de oferta agregada. En este trabajo se presentara las funciones de forma analítica de OA y DA no lineales y un ejercicio en Matlab, para la determinación del precio y la cantidad de equilibrio. Se analizaran un cambio en el tipo impositivo , un aumento en el gasto publico y un cambio tecnológico en la economia.

Autores:

Cruz Calisaya, Marcos mrobe21@hotmail.com

García Arancibia, Rodrigo arquimediano@hotmail.com

Rojas, Jesús Manuel jesman@argentina.com


© zonaeconomica.com - 2006

Software para Economistas

Esta página pretende dar un vistazo de los programas mas utilizados por los economistas.


Programas mas utilizados

SPSS - http://www.spss.com/

El SPSS es el programa mas conocido en todo el mundo, ya que no es utilizado sólo por economistas sino también por investigadores de otras áreas. Tiene una interfaz muy amigable y gran variedad de análisis. Permite realizar gran variedad de tipos de gráficos.

E-views - http://www.eviews.com/

El E-views me resultó muy útil para regresiones y análisis de series de tiempo.


Stata -http://www.stata.com/

Tiene una interfaz del estilo DOS. No es muy amigable y es difícil de usar, pero tengo entendido que puede realizar cálculos con matrices que otros programas no pueden.

Matlab - http://www.mathworks.com/products/matlab/

Otros programas



R - http://www.r-project.org

R es un lenguaje y un ambiente de trabajo para realizar cálculos estadísticos y gráficos. Tiene una variedad de técnicas estadísticas (modelos lineares y no lineares, test estadísticos clásicos, análisis de series de tiempo, clasificación, clustering, etc.) y gráficas. R se puede descargar gratuitamente.

Almacenes de Datos

ALMACENES DE DATOS: IMPORTANCIA DE LA ESTANDARIZACION DE LAS DIRECCIONES PARA LAS EMPRESAS DE HOY EN DIA

Autora: Lic. Liudmila Padrón Torres

Empresa: Empresa de Telecomunicaciones de Cuba S.A (ETECSA V.C.)

e/mail: lumy@vcl.etecsa.cu

Fecha de realización del trabajo: 01/01/2006

PALABRAS CLAVES: almacén de datos, data warehouse, limpieza de datos, estandarización de direcciones.

RESUMEN

Los almacenes de datos son el centro de atención para las grandes empresas de hoy en día, ya que constituyen uno de los soportes fundamentales para el proceso de toma de decisiones gerenciales; de ahí la importancia de que la información guardada en ellos sea confiable y con calidad. Uno de los procesos en la construcción de estos y que contribuye a lograr este objetivo es la limpieza de datos, y junto con ella la estandarización de direcciones. Para comunicarse efectivamente con sus clientes, por teléfono o por correo, una empresa debe mantener una lista de sus clientes extraordinariamente limpia y con sus direcciones normalizadas. Esto evita problemas como el de la pérdida de credibilidad o de imagen de la organización, al hacer envíos precisos y al brindarle al cliente un servicio más rápido y profesional.


INTRODUCCION

Desde un inicio, las bases de datos se convirtieron en una herramienta fundamental de control y manejo de las operaciones comerciales. Fue así como en unos pocos años en grandes empresas y negocios existía un considerable número de información almacenada en diferentes fuentes de datos y estas ya habían alcanzado un tamaño considerablemente grande.

Con esta gran acumulación de información, los directivos de tales empresas y negocios se dieron cuenta que esta podría tener un fin útil, al estar reflejada la mayoría de sus operaciones comerciales durante los llamados ciclos de negocios propios del mercado.

A su vez, los mercados empresariales han experimentado una transformación radical. Las empresas demandan mayor rapidez y eficiencia en la entrega de productos, y mejora en todos los servicios existentes, por lo que se hace imprescindible encontrar formas más eficaces de distribuir los productos, más facilidades para hacer estudios de mercado basados en la información de las operaciones comerciales de las empresas y de sus clientes y, en definitiva, mayor rapidez a la hora de tomar decisiones.

Por tanto, pensaron en lo ideal que sería unificar las diferentes fuentes de información de las cuales disponían, en un único lugar, al que sólo se le incorporaría información relevante, sobre la base de una estructura organizada, integrada, lógica, dinámica y de fácil explotación. La respuesta a esto fueron los Almacenes de Datos o Data Warehouse (DW).

Sin embargo, para hacer un uso eficiente de la información histórica almacenada en un DW para la ayuda a la toma de decisiones, era vital garantizar que estos datos fueran fáciles de obtener, estandarizados y confiables.

Así y todo, el problema de la limpieza de datos es poco tratado o evitado por muchas empresas, al no considerar adecuadamente el impacto para el negocio de tener almacenada información deficiente.

ALMACENES DE DATOS. CONCEPTOS BASICOS

Un Almacén de Datos o Data Warehouse (DW) es un almacén de información temática orientado a cubrir las necesidades de aplicaciones de los sistemas de Soporte de Decisiones (DSS) y de la Información de Ejecutivos (EIS), que permite acceder a la información corporativa para la gestión, control y apoyo a la toma de decisiones.[4]

Dicha información es construida a partir de bases de datos que registran las transacciones de los negocios de las organizaciones (bases de datos operacionales), y su importancia reside en elementos como los siguientes:

• Contribuye a la toma de decisiones tácticas y estratégicas proporcionando un sentido automatizado para identificar información clave desde volúmenes de datos generados por procesos tradicionales o elementos de software.

• Posibilita medir las acciones y los resultados de una mejor forma.

• Los procesos empresariales pueden ser optimizados. El tiempo perdido esperando por información que finalmente es incorrecta o no encontrada, es eliminada.

• Permite a los usuarios dar prioridad a decisiones y acciones, por ejemplo, a qué segmentos de clientes deben ir dirigidas las siguientes acciones de marketing.

En general un DW es un conjunto de datos con las siguientes características:

• Temático

Los datos están almacenados por materias o temas (clientes, campañas, productos). Estos se organizan desde la perspectiva del usuario final, mientras que en las Bases de Datos operacionales se organizan desde la perspectiva de la aplicación, con vistas a lograr una mayor eficiencia en el acceso a los datos

• Integrado

Todos los datos almacenados en el DW están integrados. Las bases de datos operacionales orientadas hacia las aplicaciones fueron creadas sin pensar en su integración, por lo que un mismo tipo de datos puede ser expresado de diferente forma en dos bases de datos operacionales distintas (Por ejemplo, para representar el sexo: ‘Femenino’ y ‘Masculino’ o ‘F’ y ‘M’).

• No volátil

Únicamente hay dos tipos de operaciones en el DW: la carga de los datos procedentes de los entornos operacionales (carga inicial y carga periódica) y la consulta de los mismos. La actualización de datos no forma parte de la operativa normal de un DW.

• Histórico

El tiempo debe estar presente en todos los registros contenidos en un DW. Las bases de datos operacionales contienen los valores actuales de los datos, mientras que los DW contienen información actual y resúmenes de esta en el tiempo.

ARQUITECTURA

Los bloques funcionales que se corresponden con un sistema de información completo que utiliza un DW se muestran gráficamente en la Figura 1.

alamcenes de datos

Figura 1: Arquitectura de un Data Warehouse [4]

• Nivel operacional

Contiene datos primitivos (operacionales) que están siendo permanentemente actualizados, usados por los sistemas operacionales tradicionales que realizan operaciones transaccionales.

• Almacén de datos o DW

Contiene datos primitivos correspondientes a sucesivas cargas del DW y algunos datos derivados. Los datos derivados son datos generados a partir de los datos primitivos al aplicarles algún tipo de procesamiento (resúmenes).

• Nivel departamental (Data Mart)

Contiene casi exclusivamente datos derivados. Cada departamento de la empresa determina su nivel departamental con información de interés a dicho nivel. Va a ser el blanco de salida sobre el cual los datos en el almacén son organizados y almacenados para las consultas directas por los usuarios finales, los desarrolladores de reportes y otras aplicaciones.

• Nivel individual

Contiene pocos datos, resultado de aplicar heurísticas, procesos estadísticos, etc., a los datos contenidos en el nivel anterior. El nivel individual es el objetivo final de un DW. Desde este nivel accederá el usuario final y se podrán plantear diferentes hipótesis, así como navegar a través de los datos contenidos en el DW.


PROCESOS

Existen un conjunto básico de procesos detrás de una arquitectura de un DW de suma importancia para el mismo.

Primeramente se realiza el proceso de extracción, que consiste en estudiar y entender los datos fuente, tomando aquellos que son de utilidad para el almacén. Una vez que los datos son extraídos, éstos se transforman a una forma presentable y de valor para los usuarios. Este proceso incluye corrección de errores, resolución de problemas de dominio, borrado de campos que no son de interés, generación de claves, agregación de información, etc.

Al terminar el proceso de transformación, se hace la carga de los datos en el DW y seguido se realizan controles de calidad para asegurar que la misma sea correcta. Cuando la información se encuentra disponible, se le informa al usuario. Es importante publicar todos los cambios que se hayan realizado. En este momento ya el usuario final puede realizar consultas. Este debe disponer de herramientas de consulta y procesamiento de datos.

A veces es aconsejable seguir el camino inverso de carga. Por ejemplo, pueden alimentarse los sistemas con información depurada del DW o almacenar en el mismo alguna consulta generada por el usuario que sea de interés, por eso se realiza la retroalimentación de datos o feedback.

También se realiza el proceso de auditoría, que permite conocer de dónde proviene la información así como qué cálculos la generaron.

Ya construido el DW, es de interés para la empresa que llegue la información a la mayor cantidad de usuarios pero, por otro lado, se tiene sumo cuidado de protegerla contra posibles 'hackers', 'snoopers' o espías (seguridad).

Además, se deben realizar actividades de backup y restauración de la información, tanto de la almacenada en el DW como de la que circula desde los sistemas fuente al almacén.

LIMPIEZA DE DATOS

Generalmente las empresas no cuentan con aplicaciones únicas para cada parte de la operativa del negocio, sino que pueden tener replicaciones y distintos sistemas para atender un mismo conjunto de operaciones, y en esos casos es probable que las bases de datos de los sistemas operacionales contengan datos duplicados, a veces erróneos, superfluos o incompletos. A esto se le suman los posibles errores a la hora de la entrada de datos a los sistemas de datos operacionales. Estas, y otras mostradas en la Figura 2, son algunas de las cuestiones que contribuyen a la suciedad de los datos.

alamcenes de datos

Figura 2: Algunos errores que provocan suciedad en los datos


La limpieza de datos se encuentra dentro del proceso de transformación de datos. Esta, es mucho más que simplemente actualizar registros con datos buenos. Una limpieza de datos seria, involucra descomposición y reensamblaje de datos. La limpieza de datos se puede dividir en seis pasos: separar en elementos, estandarizar, verificar, machear, agrupar y documentar. [3]

Por ejemplo, si tenemos direcciones de clientes las cuales queremos limpiar, lo primero sería separar este campo en los elementos principales de la dirección (Calle, No., Entre Calles, Código Postal, etc.). Lo segundo sería estandarizar los elementos, o sea lograr que estos queden de forma normalizada. Luego se verificaría si los elementos estandarizados contienen errores en su contenido, y ya estaríamos listos para machear (hacer parejas o correspondencias) y agrupar, que consiste en reconocer que algunas de las partes de la dirección constituyen una agrupación, por ejemplo, si se tienen dos direcciones iguales de diferentes clientes que están relacionados de alguna forma (son hermanos o están casados), estos forman un grupo. Por último se documentarían los resultados de los pasos anteriores en metadatos. Esto ayuda a que las siguientes limpiezas sean más capaces de reconocer direcciones y a que los usuarios finales de las aplicaciones puedan llevar a cabo mejor las operaciones de un DW.

Como se puede apreciar, sería bastante tedioso llevar manualmente este proceso, y para hacerlo automatizado se necesitaría de aplicaciones sofisticadas que contengan algoritmos de análisis gramatical (parsing) de direcciones, algoritmos de macheo, e inmensas tablas con gran cantidad de entradas que provea sinónimos para las diferentes partes de las direcciones.

En algunos casos es posible crear programas de limpieza efectivos. Pero en el caso de bases de datos grandes, imprecisas e inconsistentes, el uso de las herramientas comerciales, ya existentes, puede ser casi obligatorio.

¿QUE ES ESTANDARIZACION? IMPORTANCIA DE LA ESTANDARIZACION DE DIRECCIONES PARA LAS EMPRESAS DE HOY EN DIA

La estandarización forma parte de los seis pasos necesarios para llevar a cabo la limpieza de datos. Esta consiste en separar la información en diferentes campos, así como unificar ciertos criterios para un mejor manejo y manipulación de los datos.

Tener datos estandarizados, consistentes y con calidad, resulta muy útil y a veces de vital importancia para las empresas que utilizan almacenes de datos. Un ejemplo de ello son aquellas organizaciones cuyos datos referentes a sus clientes son de gran valor.

El manejo de los nombres y direcciones de los clientes no es tarea fácil. Más del 50% de las compañías en Internet no pueden responder a las necesidades de todos sus clientes y no se pueden relacionar con ellos a causa de la falta de calidad en sus datos. [2]

Para comunicarse efectivamente con sus clientes, por teléfono, por correo o por cualquier otra vía, una empresa debe mantener una lista de sus clientes extraordinariamente limpia. Esto no solo provoca que existan menos correos devueltos y más envíos precisos, sino que además, mejora la descripción y análisis de los clientes, que se traduce en un servicio más rápido y profesional.

Hay muchos ejemplos de aplicaciones basadas en la información del cliente que necesitan que sus datos, y principalmente sus direcciones tengan integridad, algunos de ellos son:

• Sistemas CRM (Customer Relationship Management, Gestión de las Relaciones con el Cliente)

• E-Business (Negocios electrónicos)

• Call Centers (Oficina o compañía centralizada que responde llamadas telefónicas de clientes o que hacen llamadas a clientes (telemarketing))

• Sistemas de Marketing

Del mismo modo, podemos mencionar algunas de las organizaciones que mayormente son beneficiadas por la limpieza de los datos de sus clientes.

• Bancos y Finanzas

• Gobierno

• Salud

• Telecomunicaciones

CONCLUSIONES

1. Los almacenes de datos son el centro de atención de las grandes empresas actuales, porque son una colección de datos donde se encuentra integrada la información de estas, proporcionando una herramienta para que puedan hacer un mejor uso de la información y para el soporte al proceso de toma de decisiones gerenciales.

2. Existen numerosas causas que provocan suciedad en los registros de los sistemas operacionales, lo que trae como consecuencia que haya gran cantidad de datos almacenados en las empresas que carece de la calidad adecuada para ser utilizada de forma confiable.

3. El problema de la limpieza de datos es uno de los tres problemas fundamentales de los DW. Sin embargo, es poco tratado o evitado por muchas organizaciones, ya que no consideran adecuadamente el impacto negativo que puede ocasionar para el negocio el tener almacenada información deficiente.

4. En algunos casos es posible crear programas de limpieza a la medida para la empresa en cuestión, pero en el caso de bases de datos con grandes números de registros puede ser casi obligatorio el uso de las herramientas comerciales ya existentes.

5. Para las organizaciones actuales, la estandarización de las direcciones de sus listas de clientes es un punto fundamental a tener en cuenta, ya que direcciones de un DW que no tengan esta característica pueden provocar pérdida de credibilidad de las organizaciones, que a su vez, lleva a la pérdida de clientes como consecuencia de un servicio poco eficaz.

BIBLIOGRAFIA

[1] Casares C. (Nov/2005) - Data Warehousing, http://www.programacion.com/bbdd/tutorial/warehouse/15/#warehousing_desarrollo_confi

[2] Hussain S.; Beg J. (Oct/2005). - Data Quality: A Problem and an Approach, http://doc.advisor.com/doc/13060

[3] Kimball R. (Oct/2005) -Dealing with Dirty Data, http://www.dbmsmag.com/9609d14.html

[4] Martín J.; Morrás C.; García M. L.; Tello L. I.;Vivancos A. J. (Oct/2005) - Sistemas de soporte a la gestión del negocio, http://www.tid.es/presencia/publicaciones/comsid/esp/articulos/vol812/soporte/soporte.html

[5] Torres H.; Visitación M.; Grau A.; Mar M.; Barranco H.; Soldado M. (Oct/2005). -Bases de datos y data warehouse: Herramientas estratégicas para la eficacia comercial, http://www-lsi.ugr.es/~rosana/ investigacion/bd_efsi04.pdf

Rutinas Matlab y Algoritmos de Bisección

APENDICE “A”: Trayectoria de las variables hacia el estado estacionario.



function [yt,ct,it,kt,m]=

seriestk(k0,c0,a,d,b,tita,n,sigma,tauk,taui,z);

kt=zeros(n,1);

ct=zeros(n,1);



kt(1)=k0;

ct(1)=c0;

n2=n;



for i=1:(n-1)

kt(i+1)= (kt(i)^a + (1-d)*kt(i) - ct(i))/(1+z)*(1+sigma);

ct(i+1) = ct(i)*(b*((1-tauk)*a*kt(i+1)^(a-1) + (1+taui)*(1-d))/(1+taui)*(1+z)*(1+sigma))^(1/tita);

dc=ct(i+1)-ct(i);

dk=kt(i+1)-kt(i);

if

(dc/dk)<0;

n2=i;

break

end

end

m=[n2 dk];

kt= kt(1:n2);

ct= ct(1:n2);

yt=kt.^a;

it = yt - ct;

Algoritmo de Bisección

function [yt,ct,it,kt,n2]=

series2tk(k0,a,d,b,tita,n,sigma,tauk,taui,z);

% Se procede a formar un algoritmo mediante el método de bisección para

encontrar el nivel de c0 óptimo (z es la tasa de crecimiento poblaciomal)%

kee= (a*(1-tauk)/((1+z)*(1+sigma)*(1+taui)/b-(1+d)*(1 + taui)))^(1/(1-a));

c1 = k0^a + (1-d)*k0 -kee;

c2=k0^a - d*k0;

ci=(c1>0)*c1;

cs=(c2>0)*c2;

if cs<ci;

cc=ci;

ci=cs;

cs=cc;

end;

dc=1;

while (1);

c0 = (ci+cs)/2;

[yt,ct,it,kt,m]= seriestk(k0,c0,a,d,b,tita,n,sigma,tauk,taui,z);

if

m(1)==n

break;

elseif

dc<1.e-14

disp('Convergencia

no alcanzada')

disp('n máximo:')

disp(m(1))

break;

elseif

(sign(m(2))<=0);

cs=c0;

else

ci=c0;

end

dc = cs - ci;

end

n2 = m(1);

%Modelo de

Crecimiento Neoclásico%

%Diferentes Estados Estacionarios para Parámetros Diferentes%

a=0.3;

d=0.06;

b=0.95;

taui=0.1;

tauk0=0.05;

tauk1=0.1;

tauk2=0.2;

z=0.03;

sigma=0.01;

tita=0.2;

k0=1;

n=45;

%----Modelos Alternativos-----%

[yt1,ct1,it1,kt1,n1]= series2tk(k0,a,d,b,tita,n,sigma,tauk0,taui,z);

[yt2,ct2,it2,kt2,n2]= series2tk(k0,a,d,b,tita,n,sigma,tauk1,taui,z);

[yt3,ct3,it3,kt3,n3]= series2tk(k0,a,d,b,tita,n,sigma,tauk2,taui,z);

t1= 1:n1;

t2= 1:n2;

t3= 1:n3;

%Gráfico%

%Fases%

kee=(a*(1-tauk)/((1+taui)*(1+z)*(1+sigma)/b - (1+taui)*(1+d)))^(1/(1-a))

cee=kee^a -d*kee;

k=linspace(0,1.3*kee,100)';

c1=k.^a + (1-d).*k - kee;

c2=k.^a - d.*k;

figure(1)

plot(kt1,ct1,'*-',kt2,ct2,'d-',kt3,ct3,'o-',k,c1,k,c2);

axis([0 (1.3*kee) 0 (1.3*cee)])

title('Diagrama de

Fases');

xlabel('Capital');

ylabel('Consumo');

legend('tauk0 =

0.05','tauk

= 0.1','tauk2

= 0.2');

%Gráfico para las variables reales

figure(2)

plot(t1,yt1,'*-',t2,yt2,'d-',t3,yt3,'o-')

title('Ingreso');

xlabel('tiempo');

legend('tauk0 =

0.05','tauk1

= 0.1','tauk2

= 0.2');

figure(3)

plot(t1,ct1,'*-',t2,ct2,'d-',t3,ct3,'o-')

title('Consumo');

xlabel('tiempo');

legend('tauk0 =

0.05','tauk1

= 0.1','tauk2

= 0.2');

figure(4)

plot(t1,it1,'*-',t2,it2,'d-',t3,it3,'o-')

title('Inversión');

xlabel('tiempo');

legend('tauk0 =

0.05','tauk1

= 0.1','tauk2

= 0.2');

figure(5)

plot(t1,kt1,'*-',t2,kt2,'d-',t3,kt3,'o-')

title('Capital');

xlabel('tiempo');

legend('tauk0 =

0.05','tauk1

= 0.1','tauk2

= 0.2');

Para obtener la trayectoria de las variables cuando varía el impuesto a la

inversión, se utilizaron los mismos programas con las correspondientes

modificaciones.

APÉNDICE B: Variables en equilibrio.

%Valores en Estado Estacionario%

function keess =

ss(tauc,tauk,taul,taui,n,d,a,b,tita,sigma);

%---Parámetros Calibrados---%

tauc=0.21; %imp al

consumo

taui=0.05; %imp a la

inversión

taul=0.25; %imp al

trabajo

tauk=0.1; %imp al

capital

n=0.03; %tasa de

crecimiento de la población

d=0.06; %tasa

depreciación

a=0.3; %Elasticidad

producto del factor capital

b=0.95; %tasa de

descuento social

tita=0.8;

%Elasticidad de la utiliada marginal con respecto al consumo

sigma=0.01; %Tasa de

crecimiento del producto

%--- Restantes Variables en Estado Estacionario ---%

keess=(((1+n)*(1 + sigma)*(1+taui)/b - (1-d)*(1+taui))/(a*(1-tauk)))^(1/(a-1));

yeess= keess^a;

ieess= keess*(d+n);

ceess= yeess - ieess;

reess= a*keess^(a-1);

weess= yeess - reess*keess;

geess= tauk*keess*reess + tauc*ceess + taul*weess + taui*ieess;

%--- Distribución de Recursos es Estado Estacionario ---%

retribalcap= (1-tauk)*reess*keess;

retribaltrab= (1-taul)*weess;

prestributar= geess/yeess;

tasaahorro= (yeess-ceess)/yeess;

%--- Salidas y Gráficos ---%

disp('------Valor de

las Variables en Estado Estacionario--------');

disp(' keess yeess

ieess ceess geess reess weess');

disp([keess yeess ieess ceess geess reess weess]);

disp('------Otros

Datos--------');

disp('retrib cap

retrib trab pres trib tasa ahorro');

disp([retribalcap retribaltrab prestributar tasaahorro]);

 

 

 

 

 

 

APÉNDICE “C”: Análisis Laffer.

%---Parámetros Calibrados---%

tauc=0.21; %imp al

consumo

tauk=0.05; %imp a la

inversión

taul=0.25; %imp al

trabajo

n=0.03; %tasa de

crecimiento de la población

d=0.06; %tasa

depreciación

a=0.3; %Elasticidad

producto del factor capital

b=0.95; %tasa de

descuento social

tita=0.8;

%Elasticidad de la utiliada marginal con respecto al consumo

sigma=0.01; %Tasa de

crecimiento del producto

%---Bucle para el Consumo y el Capital en Estado Estacionario para dif tasas

a la Inv---%

m=50;

taui= linspace(0.01,0.99,m)';

%vector con diferentes tasas

(equidistantes) para el capital

keess= zeros(m,1);

for i=1:m

keess(i,1)=(((1+n)*(1 + sigma)*(1+taui(i))/b - (1-d)*(1+taui(i)))/(a*(1-tauk)))^(1/(a-1));

ceess(i,1)=(((1+n)*(1 + sigma)*(1+taui(i))/b - (1-d)*(1+taui(i)))/(a*(1-tauk)))^(a/(a-1))

-d*(((1+n)*(1+taui(i))/b - (1-d)*(1+taui(i)))/(a*(1-tauk)))^(1/(a-1));

end

%--- Restantes Variables en Estado Estacionario ---%

yeess= keess.^a;

ieess= keess.*(d+n);

reess= a*keess.^(a-1);

weess= yeess - reess.*keess;

geess= tauk*keess.*reess + tauc*ceess + taul*weess + taui.*ieess;

%--- Distribución de Recursos es Estado Estacionario ---%

retribalcap= (1-tauk)*reess.*keess;

retribaltrab= (1-taul)*weess;

prestributar= geess./yeess;

tasaahorro= (yeess-ceess)./yeess;

%--- Salidas y Gráficos ---%

disp('------Valor de

las Variables en Estado Estacionario--------');

disp(' keess yeess

ieess ceess geess reess weess taui');

disp([keess yeess ieess ceess geess reess weess taui]);

figure(1)

plot(taui,[yeess ceess keess ieess geess])

legend(['y';'c';'k';'i';'g'])

title('Analisis tipo

Laffer de las Variables Percapita')

xlabel('taui')

 

 

 

 

figure(2)

subplot(2,1,1)

plot(taui,[weess reess])

legend(['w';'r'])

title('Analisis de

Precios de Factores')

xlabel('taui')

subplot(2,1,2)

plot(taui,[retribalcap retribaltrab])

title('Análisis

Distributivo')

xlabel('taui')

legend(['capital';'trabajo'])

figure (3)

plot(taui,[prestributar tasaahorro])

title('Otos Datos')

xlabel('taui')

legend(['prestrib';'tasaahorro'])

%--- Valores Máximos para las Variables en Estado Estacionario ---%

productomaximo=max(yeess);

gastomaximo=max(geess);

consumomaximo=max(ceess);

inversionmaxima=max(ieess);

capitalmaximo=max(keess);

disp('--- Valores

Máximos de las Variables para cada Alícuota ---')

disp(' yeess keess

ceess ieess geess')

disp([productomaximo capitalmaximo consumomaximo inversionmaxima gastomaximo])

Para el caso del impuesto al capital se utilizó el mismo bucle con las

respectivas modificaciones del caso.

Subscribe to RSS - Informática